10月第一周AI资讯

近一周AI资讯:

Movie Gen – Meta推出文本驱动的AI视频生成与编辑工具

Movie Gen

Movie Gen是什么

Movie Gen 是 Meta 推出的AI视频生成工具,能根据文本提示生成和编辑视频,为视频配上同步音频。技术包括创建长达16秒的高清视频、为现有视频配上音频、编辑视频以及基于照片制作定制视频。Movie Gen 的视频生成模型参数为30B,能生成每秒16帧的视频。音频生成模型参数为13B,能生成长达45秒的高质量音频,包括环境声音、音效和乐器背景音乐。工具仅限公司内部员工及少数合作伙伴使用,Meta计划未来整合到现有应用中,提高用户参与度。

Movie Gen的主要功能

  • 视频生成:用户输入文本提示, Movie Gen 生成长达16秒的高清视频。视频根据文本描述自动创建,适应不同的长宽比和分辨率。
  • 个性化视频生成:用户上传照片,Movie Gen 能生成包含该人物特征的视频,同时保持人物身份和动作的一致性。
  • 精确视频编辑:Movie Gen 支持用户通过文本指令对视频进行精确编辑,包括添加、删除或替换视频中的元素,以及进行背景或风格的变化。
  • 音频生成:Movie Gen 能为视频生成同步的高质量音频,包括环境音效、拟音效果(Foley sounds)和乐器背景音乐。音频与视频内容相匹配,根据文本提示生成。

Movie Gen的技术原理

  • 模型架构:Movie Gen 包括两个主要的基础模型,Movie Gen Video(视频生成)和 Movie Gen Audio(音频生成)。
  • 预训练:模型在大量的互联网图像、视频和音频数据上进行预训练,学习视觉和听觉世界的各种概念。
  • 流匹配(Flow Matching):用流匹配训练目标训练生成模型,一种迭代更新样本的方法,用在生成数据。
  • 变分自编码器(VAE):用变分自编码器将视频和图像压缩到一个学习到的潜在空间中,提高训练和推理效率。
  • 文本嵌入:用预训练的文本编码器将输入文本转换为文本嵌入,作为模型的条件输入。
  • 多模态输入:模型能处理包括文本、图像和视频在内的多种输入类型,生成相应的输出

FLUX1.1 – Black Forest Labs团队推出的超写实AI图像生成模型

FLUX1.1是什么

FLUX1.1 Pro是Black Forest Labs团队最新推出的升级版AI图像生成模型,代号“蓝莓”,提供比前代快6倍的生成速度,同时保持了图像的及时性和多样性。FLUX1.1目前仅包含FLUX1.1 Pro模型,预计后续会开放更多的系列模型,FLUX1.1 Pro通过API对外开放,主要面向开发者和企业用户。FLUX1.1 Pro的一个独特功能是支持通过模仿单反相机文件名的技巧来增强图像的真实感,例如添加“IMG_0001.CR2”作为提示词,可以提升图像的真实感,适合艺术创作、设计、广告和社交媒体内容的生成。

FLUX1.1 Pro

FLUX1.1 Pro的主要功能

  • 高速生成:与前代FLUX.1 Pro相比,图像生成速度提升了6倍,极大缩短了用户等待时间。
  • 图像质量提升:在提高速度的同时,FLUX1.1 Pro也改善了输出图像的质量,生成更逼真、更精细的图像。
  • 指令响应和多样性:模型对用户输入的指令有良好的响应性,并且能够生成风格多样的图像,满足不同用户的需求。
  • 商业化API:FLUX1.1 Pro主要通过API方式提供,面向应用程序开发者和企业用户,支持集成到各种应用程序中。
  • 闭源模型:与开源模型不同,FLUX1.1 Pro是闭源的,确保了模型的独特性和竞争优势。
  • 基准测试领先:在Artificial Analysis image arena上以“蓝莓”代号超越其他模型,获得最高的总体Elo评分。
  • 超写实风格:用户可以通过模仿不同相机的文件命名格式(如CR2、ARW、NEF、HEIC)来获得不同风格的写实图像。

ChatGPT Canvas

Canvas

Canvas是什么

Canvas是OpenAI发布的ChatGPT新功能,支持用户与ChatGPT一起进行协作式写作和编程。用户能对ChatGPT生成的文本和代码进行二次创作和编辑,交互更加灵活和深入。在写作方面,Canvas提供编辑建议、调整文章长度、更改阅读级别、添加润色和表情符号等功能,帮助用户优化内容,更加符合需求。在编程方面,Canvas支持代码审查、添加日志、注释、修复错误以及将代码翻译成不同的编程语言,开发者能与AI协作,提高编程效率。

Canvas的主要功能

  • 协作式写作和编程: 用户与ChatGPT一起在同一个界面上协作,进行文本编辑和代码开发。
  • 上下文理解: ChatGPT能更好地理解用户的目标和上下文,提供更准确的反馈和建议。
  • 高亮和聚焦: 用户高能亮文本或代码的特定部分,让ChatGPT专注于特定部分。
  • 直接编辑: 用户直接在Canvas中编辑文本或代码,就像在文档编辑器或IDE中一样。
  • 快捷操作菜单: 提供一系列快捷操作,如调整文本长度、更改阅读级别、添加润色和表情符号等。
  • 版本控制: 用户用后退按钮恢复到之前的版本,方便进行版本比较和回退。
  • 内联反馈和建议: ChatGPT提供内联的反馈和建议,帮助用户改进文本和代码。

Canvas的写作能力

  • 编辑建议(Suggest edits):提供内联的文本修改建议,帮助用户改进语法、拼写、句式结构等。根据上下文提供风格和内容上的改进建议,使文本更加清晰和准确。
  • 调整上下文长度(Adjust the length):支持用户根据需要增加或减少文本的长度。对于需要详细阐述的内容,扩展文本;对于需要简洁表达的内容,缩短文本。
  • 更改阅读水平(Reading level):调整文本的复杂性,适应不同阅读水平的读者。从简单的儿童读物级别到复杂的学术文章级别进行调整。
  • 添加最终润色(Add final polish):在文本完成初稿后,进行最后的润色,包括语法检查、风格一致性和流畅性提升,确保文本在发布前达到出版质量。
  • 添加表情包(Add emojis):在文本中添加表情符号,增强情感表达和视觉效果。适用于需要增加趣味性或强调某些点的场合。

Canvas的编程能力

  • 代码审查: 提供内联建议改善代码质量,包括改进算法、数据结构选择、代码风格等。
  • 添加日志: 帮助开发者插入打印语句,更好地调试和理解代码的执行流程。
  • 添加注释: 为代码添加注释,提高代码的可读性和易于维护性。
  • 修复错误: 检测代码中的问题并提供修复建议,帮助解决编译错误或运行时错误。
  • 代码翻译: 将代码从一种编程语言翻译成另一种,支持多种流行的编程语言,如JavaScript、TypeScript、Python、Java、C++或PHP。

Canvas的技术原理

  • GPT-4o模型: Canvas基于GPT-4o模型构建,此模型被训练进行协作。
  • 触发Canvas: 模型知道何时打开Canvas,进行针对性编辑,或者完全重写。
  • 核心行为: 包括触发Canvas、生成多样化内容、进行针对性编辑、重写文档、提供内联批评。
  • 自动化评估: 使用超过20个内部自动化评估来衡量进展。
  • 合成数据生成: 用新颖的技术,如从OpenAI o1-preview中提取输出,进行模型的后训练。

Pika 1.5

Pika 1.5是什么

Pika 1.5是由Pika Labs最新推出的AI视频生成工具。通过简单易用的界面和强大的”Pikaffects”特效库,用户能通过上传图片或输入文本,快速生成具有专业质感和创意效果的视频内容。新版本强调低门槛创作,让普通用户能轻松制作出有趣、抽象、易于传播的社交媒体视频。Pika 1.5的发布,标志着AI视频工具在易用性和趣味性方面的一大步进,让每个人都能成为视频创作者。

Pika 1.5的主要功能

  • Pikaffects特效库:提供了一系列预设的特效模板,如“膨胀”、“挤压”、“压碎”、“爆炸”、“融化”和“蛋糕化”,可以轻松应用特效来创造有趣的视频效果。
  • 智能识别与应用:能自动识别视频中的对象,智能地应用用户选择的特效。
  • 新道具添加:特效中可以插入新道具,如液压机、手和刀,增加视频的趣味性和真实感。
  • 动态视频生成:支持生成包含动态动作的高质量视频片段,如跑步、滑板等。
  • 电影级镜头控制:用户可以用新增的运动控制功能,轻松捕捉动态镜头,如子弹时间、眩晕效果等。
  • 灵活性和创造力:用户可以通过文本提示直接控制镜头运动、风格和特效,提供更多的创作自由度。

发表回复