7月第一周AI资讯

1.MOSHI多模态模型


法国人工智能实验室在其官网发布了具备视觉、听觉能力的多模态开源模型Moshi。Moshi可以读取语音提问,并进行实时推理并回答内容。Moshi能够模拟人类的语音交流方式,进行自然、流畅且富有表现力的语音对话。根据网友的测试,Moshi的文本转语音能力已经可以媲美最先进的GPT-4o模型。Moshi由法国AI团队经过6个月的时间开发,可以在本地安装和运行。Moshi在无网络环境下也能运行,确保其安全性和稳定性。开欧泰将在近期公开Moshi的代码和模型权重,供开发人员使用、改进和扩展。
2.LivePortrait


LivePortrait是快手科技推出的项目,可以通过静态肖像生成动态视频。Liveportrait能够精确控制眼睛的注视方向和嘴唇的开合动作,将人物特征合并到新的视频中,Live Portrait生成动画的质量优于现有的扩散模型。Liveportrait同时支持油画、写实、3D等风格,可以将人物的表情迁移到图像中。在该工具的帮助下,用户可以将面部动作应用到任意类型的静态图像中。目前Liveportrait已经被集成到comfyui中,可以将生成的图像直接转换为动态视频。
3.腾讯混元dit升级


本周,腾讯混元模型宣布开源,低显存版本仅需6G显存即可运行。腾讯混元模型新增了对QL图形化界面的支持,进一步降低捞软模型的训练门槛。同时,混元dit模型已经升级至1.2版本,在图片质感与构图方面均有所提升。点击视频下方链接就可以在线体验混元dit模型。混元dit支持全中文提示词输入,且具备很强的长文本理解能力。此外,大家也可以通过Tensorart免费尝试该模型。Tensorart还在近期增加了SD3和混元dit模型的在线训练功能,大家可以尝试。
4.Voice Isolator


本周,Elevenlabs推出了Voice Isolator工具,能够智能消除背景噪音,从任何音频中提取人声,让声音变得更加清晰。登录到Elevenlabs的后台,从本地上传一段录制好的音频或者直接连接麦克风录制,点Isolator voice按钮,即可实现一键噪声移除。该工具支持包括中文在内的语音降噪,且可以免费使用。
5.Perplexity
本周,Perplexity推出了高级搜索功能Pro Search,支持多步推理,且具备先进的数学和编程能力。Pro Search可以通过多步推理处理复杂的问题。此项功能不仅能提供答案,还能够综合分析搜索结果,并采取智能行动。Pro Search通过整合Warfrom Alpha引擎,显著提升了其数学和编程计算能力。登录到Perplexity,手动开启Pro搜索功能即可。输入任意的数学题,就可以快速获得解题步骤和答案。大家可以尝试。

发表回复