8月第三周AI资讯 – 心一信息

正式面向全部用户开放。登录到Runway.ml就可以使用该模型上传一张图像，下方可选择5秒、10秒持续时长。根据测试，Turbo模型能够在20秒内生成一段10秒钟的视频，也是目前速度最快的图像转视频模型。

此外，RunwayGen3 Alpha Turbo还支持Lip Sync功能，可以精准模拟人物的口型。作为行业领先的模型，战3 Alpha能够精准模拟图像中人物和背景的移动方式，且能够生成炫酷的高清视频。在和Midjourney Flux模型结合后，还能够输出更加真实和细腻的画面。大家可以尝试。

2. Grok-2:

本周，马斯克发布了Grok-2和Grok-2 Mini模型。目前X平台的付费用户已经可以使用。该模型和上一代的GROK 1.5相比，GROK 2在推理、编程和对话能力上有了显著的提升。Grok 2在多个基准测试中表现出色，综合得分已经超过了Claude 3.5和GPT-4 Turbo模型。不过根据最新LLM竞技场排名，GPT-4和latest和Gemini 1.5 Pro模型依旧占据了榜首的位置。

比较有趣的是，Grok-2还集成了最新的Flux模型，可用于生成高质量图像。在集成了最强的开源图像生成模型Flux后，Grock的图像生成能力已经可以碾压Dall-E 3模型。

3. Eleven Studios:

近期，Eleven Labs推出了全托管自动配音服务，可以将视频自动翻译成多国语言。目前已经有多位顶级内容创作者使用该工具，把自己的视频传播到世界各个国家。Eleven Studio会自动匹配你的音调、音色和说话风格，即使视频中有多位人物，也可以轻松完成语音翻译和克隆。如果你想在全球获得更多的观众，就可以借助该工具提高自己的影响力。

4. Google新动态:

本周，Google推出了基于Imagen 3模型的Pixel Studio，可在2秒内生成图像。Google表示，Pixel Studio将会预装到Pixel 9系列手机上，只需简单的提示词即可生成想要的图像。Pixel Studio能够通过Tensor G4 SoC芯片的算力生成图像。根据网友的实机测试，该应用程序可以在短时间内生成图像，且具备编辑功能。

此外，Google DeepMind还发布了智能语音助手Gemini Live。不但具备图像、视频、语音交互能力，还可以通过语音命令实现日常任务自动化。Gemini Live已经面向Android手机上的Gemini Advanced用户推出，并将在未来几周内扩展到iOS平台，且会支持更多语言。Gemini Live可以和所有的Google应用程序集成，且无需频繁切换。

5. Melodio:

本周，昆仑万维正式发布首款AI流媒体音乐平台Melodio。用户只需输入简单的提示词，Melodio就会持续生成相应风格的定制化音乐。Melodio搭载了昆仑万维自研的音乐大模型Sky Music 2.0，能够实现乐器、人声、旋律、音量、音符的一体化音乐生成，且支持流式生成和对文本提示的精准控制。点击视频下方链接就可以申请加入等待列表。然后大家可以试听一下由Melodio生成的歌曲。

6. Agent Q:

这是卡内基梅隆大学新发布的人工智能代理工具，不但拥有自我批评和强化学习能力，还可以在复杂的任务中进行多步推理，通过自我规划和执行多个步骤来完成任务。Agent Q利用了最先进的大语言模型来处理网页内容、创建任务计划，并以自然语言进行推理，尤其适用于长时间跨度的任务执行。此外，Agent Q还利用了零样本视觉语言模型进行结果监督，以推理和验证任务是否成功。Agent Q大幅提高了LLaMA-3模型的零样本成功率以及自主收集数据的能力。

7. Hedra更新:

本周，Hedra宣布推出新版本和Style功能。Character 1.5版本将会具备更清晰的视觉输出、更逼真的动画，以及自然的眨眼和头部动作。登录到Hedra就可以尝试Stylize功能，从本地上传一张图像，下方可以选择数十种风格，点击应用即可。例如选择某一风格，Hedra就会在原图的基础上完成风格转换。设置完成后，选择需要播报的音频，点击生成视频。

7. Midjourney更新:

本周，Midjourney宣布推出图像编辑功能。完成图像生成后，用户只需更改提示词，遮罩需要修改的区域，即可生成一组新的图像。Midjourney将许多独立的图像操作整合到一个统一的界面中。目前已经可以在网页版中使用，大家可以尝试。

你可能也喜欢

5月第二周AI资讯

1月第四周AI资讯

10月第四周AI资讯

发表回复 取消回复

发表回复取消回复