8月第三周AI资讯

1. RunwayGen3 Alpha Turbo:

正式面向全部用户开放。登录到Runway.ml就可以使用该模型上传一张图像,下方可选择5秒、10秒持续时长。根据测试,Turbo模型能够在20秒内生成一段10秒钟的视频,也是目前速度最快的图像转视频模型。

此外,RunwayGen3 Alpha Turbo还支持Lip Sync功能,可以精准模拟人物的口型。作为行业领先的模型,战3 Alpha能够精准模拟图像中人物和背景的移动方式,且能够生成炫酷的高清视频。在和Midjourney Flux模型结合后,还能够输出更加真实和细腻的画面。大家可以尝试。

2. Grok-2:

本周,马斯克发布了Grok-2和Grok-2 Mini模型。目前X平台的付费用户已经可以使用。该模型和上一代的GROK 1.5相比,GROK 2在推理、编程和对话能力上有了显著的提升。Grok 2在多个基准测试中表现出色,综合得分已经超过了Claude 3.5和GPT-4 Turbo模型。不过根据最新LLM竞技场排名,GPT-4和latest和Gemini 1.5 Pro模型依旧占据了榜首的位置。

比较有趣的是,Grok-2还集成了最新的Flux模型,可用于生成高质量图像。在集成了最强的开源图像生成模型Flux后,Grock的图像生成能力已经可以碾压Dall-E 3模型。

3. Eleven Studios:

近期,Eleven Labs推出了全托管自动配音服务,可以将视频自动翻译成多国语言。目前已经有多位顶级内容创作者使用该工具,把自己的视频传播到世界各个国家。Eleven Studio会自动匹配你的音调、音色和说话风格,即使视频中有多位人物,也可以轻松完成语音翻译和克隆。如果你想在全球获得更多的观众,就可以借助该工具提高自己的影响力。

4. Google新动态:

本周,Google推出了基于Imagen 3模型的Pixel Studio,可在2秒内生成图像。Google表示,Pixel Studio将会预装到Pixel 9系列手机上,只需简单的提示词即可生成想要的图像。Pixel Studio能够通过Tensor G4 SoC芯片的算力生成图像。根据网友的实机测试,该应用程序可以在短时间内生成图像,且具备编辑功能。

此外,Google DeepMind还发布了智能语音助手Gemini Live。不但具备图像、视频、语音交互能力,还可以通过语音命令实现日常任务自动化。Gemini Live已经面向Android手机上的Gemini Advanced用户推出,并将在未来几周内扩展到iOS平台,且会支持更多语言。Gemini Live可以和所有的Google应用程序集成,且无需频繁切换。

5. Melodio:

本周,昆仑万维正式发布首款AI流媒体音乐平台Melodio。用户只需输入简单的提示词,Melodio就会持续生成相应风格的定制化音乐。Melodio搭载了昆仑万维自研的音乐大模型Sky Music 2.0,能够实现乐器、人声、旋律、音量、音符的一体化音乐生成,且支持流式生成和对文本提示的精准控制。点击视频下方链接就可以申请加入等待列表。然后大家可以试听一下由Melodio生成的歌曲。

6. Agent Q:

这是卡内基梅隆大学新发布的人工智能代理工具,不但拥有自我批评和强化学习能力,还可以在复杂的任务中进行多步推理,通过自我规划和执行多个步骤来完成任务。Agent Q利用了最先进的大语言模型来处理网页内容、创建任务计划,并以自然语言进行推理,尤其适用于长时间跨度的任务执行。此外,Agent Q还利用了零样本视觉语言模型进行结果监督,以推理和验证任务是否成功。Agent Q大幅提高了LLaMA-3模型的零样本成功率以及自主收集数据的能力。

7. Hedra更新:

本周,Hedra宣布推出新版本和Style功能。Character 1.5版本将会具备更清晰的视觉输出、更逼真的动画,以及自然的眨眼和头部动作。登录到Hedra就可以尝试Stylize功能,从本地上传一张图像,下方可以选择数十种风格,点击应用即可。例如选择某一风格,Hedra就会在原图的基础上完成风格转换。设置完成后,选择需要播报的音频,点击生成视频。

7. Midjourney更新:

本周,Midjourney宣布推出图像编辑功能。完成图像生成后,用户只需更改提示词,遮罩需要修改的区域,即可生成一组新的图像。Midjourney将许多独立的图像操作整合到一个统一的界面中。目前已经可以在网页版中使用,大家可以尝试。

发表回复