今天,我为大家分享近一周重要的人工智能新闻:

本周,Gemini 2.0 Flash正式上线。高级用户可使用100万TOKEN的上下文窗口,处理高达1,500页的文件。此外,Gemini的图像生成功能也升级至Imagen 3模型,具备更强的细节处理能力。目前Gemini网页版和移动端应用已经升级为Flash模型,大家可以尝试。
受到DeepSeek的影响,Mistral也发布了Small 3模型。尽管只有24B参数,却可以媲美Llama 3.370B模型,也可替代GPT4o MINI等闭源模型。和Llama 3.370B instruct相比,Mistral Small 3具备相似的性能,在相同硬件上的运行速度则可以提高三倍。

春节期间,阿里正式发布了大规模混合专家模型,并声称在关键基准测试中超越了DeepSeek V3、GPT-4、Claude 3.5 Sonnet模型。不过Qwen2.5-Max 目前仍处于闭源状态。目前该模型已经可以在线使用,除了聊天功能,Qwen2.5-Max 还支持Artifacts、图像和视频生成功能。视频生成是Qwen2.5-Max 最大的看点,可以在几分钟内生成一段高清视频,且完全免费。
3.Llama 4

本周,扎克伯格在Facebook上公布了Llama 4的新进展。他表示Llama 4的目标是追赶并超越先进的闭源模型。Llama 4是一种原生多模态模型,且具备中级工程师水平的代理功能,能够进行编码并解决问题。比较讽刺的是,DeepSeek已经率先推出了Janus原生多模态模型。

本周,DeepSeek发布了Janus Pro开源模型,增强了多模态理解和图像生成能力。在视觉理解方面,Janus Pro能够识别复杂的图形,输出详细的文字描述。不过Janus Pro在图像生成能力方面还和主流模型有很大的差距。
此外,微软也宣布在Azure和GitHub上提供了DeepSeek R1。开发者可以在Azure一键部署该模型。微软同时表示,将会提供精简版的R1模型,方便在PC端运行。
不可否认的是,在春节前夕发布的DeepSeek R1模型已经引发了AI行业的巨震。不过,DeepSeek的发布却引发了巨大的争议。其中OpenAI表示已经发现了DeepSeek蒸馏器模型的证据。根据DeepSeek V3的技术文档,该模型使用了蒸馏技术,生成高质量数据,通过已有的模型合成高质量数据作为新模型的训练数据,从而达到接近于在原始数据上训练的效果。
5.Pika 2.1

本周,Pika 2.1正式发布。新模型不但能够生成1080分辨率的高清画面,还对细节进行了强化,生成更加流畅的动作。Pika 2.1仅面向高级用户开放,支持文本、图像生成视频,大家可以尝试。Pika同时发布了Turbo模式,不但可以将视频生成速度提高3倍,还会大幅降低点数的消耗。
6.Luma新功能

本周,Luma宣布新增upscale功能,可以将生成的视频画质提升至最高4K。登录到Lumalab完成视频生成后,即可将视频的画质提升至1080或4K。目前该功能已经可以免费使用,大家可以尝试。
7.Krea新功能

本周,Krea宣布推出character consistency功能,用户只需上传一张人物图像,就可以借助模型保留人物身份,生成连续一致的视频。目前该功能已经上线,付费用户方可使用。登录到Krea,选择视频生成模式,切换模型,就可以使用该功能。此外,Krea还推出了基于DeepSeek的Chat功能,支持图像和视频生成,预计会在近期发布。

Minimax海螺正式推出了T2V01 director model。用户只需输入简单的文本提示,就可以控制摄像机的移动和镜头的方向。借助该功能,任何人都可以轻松实现电影级的运镜效果。登陆到海螺,选择文本生视频模式,选择最新的T2V01 director model即可使用。用户可以根据视频的类型,从列表中选择一种预设镜头移动方式,然后添加提示词,开始生成视频。
和其他工具不同的是,海螺导演模型可以无缝衔接镜头的平移、旋转和缩放效果,为用户提供了全新的创作体验。更多运镜模式,大家可以自行尝试。除了使用预设,我们还可以选择自由组合镜头,该模式可同时选择三种镜头移动方式。目前该功能已经完全开放,大家可以尝试。
