7月第一周AI资讯

Post author:zentorno
Post published:2024年7月6日
Post category:AI资讯
Post comments:0评论

法国人工智能实验室在其官网发布了具备视觉、听觉能力的多模态开源模型Moshi。Moshi可以读取语音提问，并进行实时推理并回答内容。Moshi能够模拟人类的语音交流方式，进行自然、流畅且富有表现力的语音对话。根据网友的测试，Moshi的文本转语音能力已经可以媲美最先进的GPT-4o模型。Moshi由法国AI团队经过6个月的时间开发，可以在本地安装和运行。Moshi在无网络环境下也能运行，确保其安全性和稳定性。开欧泰将在近期公开Moshi的代码和模型权重，供开发人员使用、改进和扩展。
2.LivePortrait

LivePortrait是快手科技推出的项目，可以通过静态肖像生成动态视频。Liveportrait能够精确控制眼睛的注视方向和嘴唇的开合动作，将人物特征合并到新的视频中，Live Portrait生成动画的质量优于现有的扩散模型。Liveportrait同时支持油画、写实、3D等风格，可以将人物的表情迁移到图像中。在该工具的帮助下，用户可以将面部动作应用到任意类型的静态图像中。目前Liveportrait已经被集成到comfyui中，可以将生成的图像直接转换为动态视频。
3.腾讯混元dit升级

本周，腾讯混元模型宣布开源，低显存版本仅需6G显存即可运行。腾讯混元模型新增了对QL图形化界面的支持，进一步降低捞软模型的训练门槛。同时，混元dit模型已经升级至1.2版本，在图片质感与构图方面均有所提升。点击视频下方链接就可以在线体验混元dit模型。混元dit支持全中文提示词输入，且具备很强的长文本理解能力。此外，大家也可以通过Tensorart免费尝试该模型。Tensorart还在近期增加了SD3和混元dit模型的在线训练功能，大家可以尝试。
4.Voice Isolator

本周，Elevenlabs推出了Voice Isolator工具，能够智能消除背景噪音，从任何音频中提取人声，让声音变得更加清晰。登录到Elevenlabs的后台，从本地上传一段录制好的音频或者直接连接麦克风录制，点Isolator voice按钮，即可实现一键噪声移除。该工具支持包括中文在内的语音降噪，且可以免费使用。
5.Perplexity
本周，Perplexity推出了高级搜索功能Pro Search，支持多步推理，且具备先进的数学和编程能力。Pro Search可以通过多步推理处理复杂的问题。此项功能不仅能提供答案，还能够综合分析搜索结果，并采取智能行动。Pro Search通过整合Warfrom Alpha引擎，显著提升了其数学和编程计算能力。登录到Perplexity，手动开启Pro搜索功能即可。输入任意的数学题，就可以快速获得解题步骤和答案。大家可以尝试。

标签: moshi

你可能也喜欢

2025年7月第2周AI资讯

2025年8月第3周AI资讯

4月第三周AI资讯

发表回复 取消回复

发表回复取消回复