今天为大家分享几组这周重要的人工智能新闻:
一、Eleven Labs 新模型

本周,Eleven Labs 推出了自动语音识别模型 Scribe,也被称为全球最精准的语音转文字模型。Scribe 支持处理 90 多种语言转录,并适用于各种真实世界的音频场景。
相比传统的语音识别模型,Scribe 不但能够识别语音中的多个人物,还能够标记笑声、鼓掌、背景噪音等非语言元素。在意大利语转录过程中,Scribe 能够达到 98% 以上的准确率,且针对塞尔维亚语、粤语进行了优化,大幅提高了识别的准确率。
二、Pika 2.2

本周,Pika 正式推出了 2.2 版本。该版本不但可以生成持续 10 秒钟的视频,还具备 1080P 分辨率和首尾帧功能。目前,该功能仅面向付费用户开放,大家可以尝试。
其中,PicoFrames 是新推出的功能,能够根据参考图和提示词生成富有创意的渐变式转场效果。值得注意的是,前后两张图像需要保持高度一致,方可获得最好的效果。
三、ideoGram 新模型

本周,ideoGram 发布了 2A 图像生成模型,也是旗下速度最快、价格最高的模型。目前,该模型已经面向全部用户使用,可以在 10 秒钟内生成图像,而 Turbo 模型只需 5 秒即可生成图像。
价格方面,ideoGram 2A 的成本比上一代模型降低了 50%。访问 VideoGram 官网就可以尝试该模型,分别输入英文提示词,选择最新的 2A 模型,点击生成按钮即可。
免费用户依旧可以获得每天固定的额度,大家可以尝试。
四、Flora Canvas

近期,Flora 推出了一款以节点为基础的 AI 画布,可用于制作和分析故事脚本、设计角色并生成图像和影片。与 ComfyUI 不同的是,该工具的操作界面更加直观,且集成了主流的 AI 模型。
Flora Canvas 同时支持团队协作,并支持使用社区中的工作流。登录 Flora,选择一种预设的工作流即可直接使用。我们可以选择一个名为 Motion Flow 的工作流。Motion Flow 使用 GPT-4o 生成脚本,并使用 Flux 模型生成图像,最后使用 Minimax 模型生成视频。
大家可以基于该工作流制作视频,或者手动添加新的节点。该过程可在云端完成,无需在本地安装 ComfyUI,大家可以尝试。

五、Theorem Explain Agent

这是一种多模态人工智能系统,能够利用大语言模型的推理能力,结合动画生成和语音合成技术,模仿人类视频制作流程。
利用代理规划和动画生成技术,该系统可自动创建长时间解释视频,将复杂的学术概念转化为易于理解的教学动画。从多组实验结果可以看出,O3 Mini 模型的表现最佳,可稳定处理不同学科中的复杂学术问题。
该工具在数学领域的成功率最高,远高于包含分子式的化学科目。Theorem Explain Agent 代理可用于在线教学、学术研究、专业培训等领域。
六、Luma Audio Generation

本周,Luma 推出了 Video-to-Audio 功能,可以根据生成的视频内容自动匹配对应的音效。
目前,该功能已经可以在 Lumetry Machine 中使用。用户只需单击 Audio 选项,或者输入提示词,即可为视频匹配身临其境的声音效果。
七、iOS 版 Photoshop
本周,Adobe 宣布推出移动版 Photoshop。目前,该应用已经可以在 iOS 端使用,Android 版本将在稍后推出。
Photoshop 付费用户可以直接使用移动版和网页版,无需额外收费。根据 Adobe 的说明,PS 的核心功能均可免费使用,其中包括 Firefly 驱动的生成式 AI 工具。PS 应用程序将会简化操作方法,感兴趣的同学可以尝试。
八、StoryFlicks

这是一个新发布的开源儿童故事生成框架,分别集成了大语言模型、图像生成模型以及 TTS 工具。
用户只需输入简单的提示词,就可以生成一篇儿童故事。目前,该工具已经开源。
九、FlexClip 新功能

近期,FlexClip 推出了 AI 音乐生成功能。该工具不但可以生成多种流派的歌曲,还支持上传参考歌曲,完成声音克隆和创新音乐生成。
FlexClip Music 生成器支持上传歌曲和声音作为参考,同时支持自动生成歌词,功能非常全面。
十、 GPT-4.5 发布

本周 OpenAI 正式发布了 GPT-4.5 预览版,也是最后一个非推理模型。奥特曼表示,GPT-4.5 的体量和训练成本都非常高,且不会在基准测试中展现碾压性优势。
相比之前的模型,GPT-4.5 拥有更广泛的知识储备以及更深刻的理解能力,且大幅降低了产生幻觉的概率。GPT-4.5 通过无监督学习的方法变得更聪明,且具备更高的情商。该模型能够理解提问者的言外之意,并捕捉人们微妙的情感变化。
目前,ChatGPT Pro 用户已经可以使用 GPT-4.5,Plus 用户则可以在下周使用。
