2026年1月第1周AI资讯

2026新年快乐，祝大家新年所求皆所愿，所行皆所达。今天为大家总结一周的AI资讯：

1. LTX2：4K音画同步开源新标杆

本周开源了LTX2模型，被认为是VO3的最佳替代方案。该模型支持文本和图像生成视频，且完全开源模型权重、代码和Benchmarks 。LTX2最显著的特征是能够一次性生成长达20秒的4K超清画面，并原生支持音画同步与口型同步，能够呈现具备完整情节的视频效果。此外，用户可以通过提示词精确控制镜头角度、视频节奏和叙事风格，甚至能在本地消费级显卡上运行。LTX2还内置了Lora微调机制，允许用户使用少量素材训练出专属风格模型，确保品牌视觉的一致性。+3

2. Manus：对标ChatGPT的高效AI代理

被Meta收购后的Manus首次展示了其演示画面，其目标是证明其估值远高于20亿美元。在与ChatGPT的对比中，Manus代理展现出了极高的效率，能以更快的速度将文章转换为内容详实的信息图表。由于集成了Nano Banana模型，Manus产出的图表更具视觉冲击力。在建站测试中，其最强的1.6max模型能够快速完成深度调研并打造出内容详实的网站，产出效率远超同类产品。

3. Anygen：字节跳动推出的全能生产力工具

随着AI代理市场的火爆，字节跳动近期上线了Anygen工具。Anygen支持通过文本和语音命令，将语音、照片和链接直接转换为可编辑的结构化文档、幻灯片和数据分析图表，满足绝大部分办公场景需求。该工具同样借助Nano Banana模型，能够一键生成脚本和包含连续角色的完整图文故事，例如将童话故事制作成绘本。此外，用户还可以上传Excel报表，要求Anygen按需生成可视化演示文稿。

4. ChatGPT Health：OpenAI开启AI医疗新篇章

OpenAI本周宣布推出ChatGPT健康功能，旨在保障用户个人隐私的前提下，让用户实时查看健康状况并规划就医。ChatGPT Health可以作为个人私人医生，通过链接电子医疗记录提供个性化的分析和数据。目前该功能仅面向少数用户开放，预计在未来数周内推向全部用户。需要注意的是，该工具定位为健康管理，并不直接用于医疗诊断。

5. NijiJourney V7：动漫创作的连贯性飞跃

本周NijiJourney发布了V7版本，大幅提升了图像的连贯性。无论是角色的五官还是身体特征，在生成过程中都能保持高度一致，这将使动漫创作变得更加简单高效。V7版本还增强了对提示词的理解能力，并新增了参考图风格迁移功能，能够将特定参考图的风格精准迁移到新生成的图像中。

6. Higgsfield Relight：首个3D精准重新打光工具

Higgsfield本周推出了全新的重新打光功能Relight，它能模拟电影摄影棚环境，改变光源的方向、色彩、曝光度和柔光效果。Relight可以在保持角色一致的前提下，精确控制光照效果，并为用户提供了六种预设，支持进行3D精准定位。用户只需导入图像或视频，选择打光方向即可生成，这使其成为影视后期制作的必备工具。

7. Google Vids：集成View 3.1的数字人升级

Google Vids本周完成了重大升级，通过集成先进的View 3.1模型，生成的虚拟形象更加逼真，表情和唇形同步也更加流畅。该工具可以和Google Doc连接，用于制作办公培训、演示等场景的动画。Google Vids能将用户输入的提示词或上传的文档，一键转换为包含数字人和音频播报的演示内容。

8. SkyWork Video：内置编辑器的视频代理

天工SkyWork本周新增了视频生成功能，可以根据提示词生成各种创意视频。SkyWork同时内置了视频编辑器，允许用户将生成的视频导入时间轴，并保证视频画面的连贯性。该工具还支持生成配音、音效以及文本转语音功能，旨在提升产品的易用性，让用户通过预设模板即可快速产出视频。

9. Qwen 3D Camera Control：高精度的摄像机控制模型

这是基于Qwen Image Edit开发的多角度摄像机控制工具，使用了96种摄像机姿态和3000组高丝喷溅数据进行训练。该模型具备极强的空间理解能力，使用者只需上传一张图片并手动调整角度，即可在几秒钟内生成正面、背面、侧面、低角度或广角拍摄效果。该模型目前已完全开源，结合视频模型使用可轻松制作包含多角度拍摄的时尚大片。

10. Higgsfield Cinema Studio 1.5：工作室级视频特效

Hicksfield正式发布了Cinema Studio 1.5，新增了多种光圈控制效果和画面比例，并提供了电影级运镜模式。用户可以上传素材并将其转换为超宽屏或任意风格的视频。为了方便使用，该工具还支持项目克隆功能，使用者可以参考特定电影画面的提示词和镜头类型，一键生成类似效果。

11. Univideo：快手可灵的理解生成一体化框架

快手可灵团队开源了Univideo框架，首次将视频理解、编辑和生成整合到了同一个模型中。Univideo采用双流设计架构，结合了多模态大语言模型和扩散Transformer模型。这种设计既保留了文本生成能力，又能精准解析复杂的多模态指令，并保证生成内容在视觉上高度一致，无需在多个模型间切换任务。

12. Unity Special Lingo：Quest上的混合现实语言学习

Meta推出了开源项目Unity Special Lingo，可应用于Quest设备实现混合语言学习。使用者可以在真实物理空间中学习英文或其他语言，系统能够识别房间中的物体并提供多语言发音。Special Lingo还提供发音和跟读练习，并能借助内置语言模型与用户进行互动，让学习过程不再枯燥。

1. LTX2：4K音画同步开源新标杆

2. Manus：对标ChatGPT的高效AI代理

3. Anygen：字节跳动推出的全能生产力工具

4. ChatGPT Health：OpenAI开启AI医疗新篇章

5. NijiJourney V7：动漫创作的连贯性飞跃

6. Higgsfield Relight：首个3D精准重新打光工具

7. Google Vids：集成View 3.1的数字人升级

8. SkyWork Video：内置编辑器的视频代理

9. Qwen 3D Camera Control：高精度的摄像机控制模型

10. Higgsfield Cinema Studio 1.5：工作室级视频特效

11. Univideo：快手可灵的理解生成一体化框架

12. Unity Special Lingo：Quest上的混合现实语言学习

你可能也喜欢

2025年9月第1周AI资讯

2025年3月第3周AI资讯

2025年8月第1周AI资讯

发表回复 取消回复

发表回复取消回复