最近AI大事件:DeepseekV4、GPTimage2、Mythos重磅发布
图片

导读:

本周是2026年迄今最密集的一次AI发布周期。阿里开源视频模型登顶全球、影视垂直大模型上线、AI游戏生成进入无引擎时代、Anthropic发布史上最强安全模型、OpenAI图像生成迎来质变、DeepSeek V4重新定义开源天花板。以下逐条拆解。


01 HappyHorse 1.0|阿里系神秘模型,视频生成全球登顶

本周最大的”惊喜”来自一个没有署名的模型。HappyHorse 1.0 在没有任何官方声明的情况下,悄然出现在 Artificial Analysis 视频评测榜顶端,在文生视频和图生视频两个赛道同时登顶,Elo 评分大幅领先此前第一名 Seedance 2.0。

随后谜底揭晓:阿里巴巴旗下 ATH AI 创新部门正式承认 HappyHorse 为其旗下项目,由曾在快手主导 Kling AI 技术架构的张迪领衔开发。

技术亮点: HappyHorse 1.0 采用 150 亿参数的统一 40 层自注意力 Transformer 架构,视频与音频在同一次推理中联合生成,无需后期配音,在 H100 上生成 1080p 视频仅需约 38 秒,支持中、英、粤、日、韩、德、法 7 种语言的口型同步。

需要注意:目前模型尚未正式开源,权重与推理代码均未公开,技术参数来源于社区整理的流出资料,尚未经官方技术报告或同行评审确认。

体验地址: https://happyhorse.mobi


02 Yoroll.ai|AI游戏进入”无引擎”时代

由 LinearGame 开发的 Yoroll.ai 提出了一种激进的新范式:不再用传统引擎模拟 3D 空间,而是以生成式视频作为主渲染层,打造真正的”无引擎游戏”。

三层架构: 表现层由 AI 视频模型实时生成画面;判断层由视觉语言模型担任”裁判”识别玩家行为;状态层则是传统确定性逻辑引擎,负责血量、道具、分支剧情等核心数据的可靠存储。

LinearGame 估计其 AI 工作流可将互动影视项目制作成本压缩至传统方式的 1/100,过去需要数十人团队数年完成的项目,现在 1 到 3 人用一个月就能完成。

已有创作者基于此工具制作了《甄嬛传》题材的 AI 互动游戏,玩家可在剧情分支中做出选择改变走向。

体验地址: https://yoroll.ai


03 PixVerse C1|全球首个影视行业垂直大模型

4 月 8 日,爱诗科技发布 C1 模型,定位”全球首个影视行业大模型”,核心目标是让 AI 从单纯的”视频生成器”进化为具备导演思维的创作工具。

C1 支持文生视频、图生视频、参考生成及首尾帧控制,最高输出 15 秒 1080P 视频,音画同步直出,所有能力可跟随提示词指令自动完成分镜。

核心功能: 多宫格分镜直出——上传一张分镜图,C1 自动识别每个格子的内容,生成带有镜头运动和场景切换的连贯视频,自带专业镜头感,大幅节省后期时间。** **

客观评价: 第三方测评显示,C1 在运镜流畅度和特效生成方面表现突出,但角色微表情和肢体关节联动仍有提升空间,目前更接近”有导演意识的助手”而非完整影视制作替代品。** **

体验地址: https://pixverse.ai


04 GPT Image 2|OpenAI图像生成迎来质变,文字渲染近乎完美

4 月 21 日,OpenAI 正式发布 GPT Image 2,由 GPT-5.4 底座驱动,是继 DALL-E 3 之后的重大架构升级,也是 OpenAI 首个将推理能力原生集成进图像生成的模型。

在图像竞技场盲测中,GPT Image 2 以 1512 的 Elo 分数领先第二名整整 242 分,是该榜单有史以来最大领先优势。

三大核心突破:

文字渲染是最显著的升级——中英文、日韩文、阿拉伯文等多语言字符准确率接近 99%,过去 AI 图像在文字生成上的”乱码顽疾”基本得到解决。

GPT Image 2 是 OpenAI 首个具备”思考”能力的图像模型,生成前会主动规划图像结构、推理用户意图,支持一次提示词批量生成最多 8 张风格一致的图像。

原生支持 2K 分辨率输出,可选 4K 超分辨率,并支持多轮编辑——修改服装、背景或姿势时,人物面部特征可稳定保持不变,这是过去所有模型都难以做到的。

使用方式: ChatGPT Plus/Pro 用户已可直接在对话框中使用;API 接口将于5月初向开发者开放,定价为输入 8 美元/百万 token,输出 30 美元/百万 token。

官方地址:https://openai.com/index/introducing-chatgpt-images-2-0/


05 DeepSeek V4|开源模型天花板再次刷新,1M上下文成标配

4 月 24 日,深度求索正式发布并同步开源 DeepSeek-V4 预览版,以百万字(1M)超长上下文为核心亮点,在 Agent 能力、世界知识和推理性能三大维度均实现国内与开源领域领先。

两个版本: V4-Pro 总参数 1.6 万亿、激活参数 49B,面向尖端任务,性能比肩顶级闭源模型;V4-Flash 总参数 2840 亿、激活参数 13B,定位经济高效部署。两款模型均原生支持 1M 上下文,并同时支持非思考模式与思考模式。** **

架构创新: DeepSeek-V4 开创了全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力,相比 V3.2 大幅降低了计算量和显存需求,同时实现了全球领先的长上下文处理能力。** **

Agent 能力: V4-Pro 在 Agentic Coding 评测中已达到开源模型最佳水平,DeepSeek 内部反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但与 Opus 4.6 思考模式仍有差距。** **

价格策略: V4-Flash 输入价格低至 1 元/百万 token(缓存未命中),输出仅 2 元;V4-Pro 则为 12 元/24 元。DeepSeek 同时公告,受限于高端算力,预计下半年华为昇腾 950 超节点批量上市后,Pro 价格还将大幅下调。官网及 App 仍保持免费。

值得关注的是,DeepSeek V4 在训练和推理体系中采用了适配国产芯片的精度方案,并明确在华为昇腾 NPU 平台上完成了验证,这是 DeepSeek 首次在正式技术文件中如此明确地披露对国产算力的适配情况。

体验地址: https://**chat.deepseek.com


06 Claude Mythos Preview|Anthropic最强模型,因太危险暂不公开

Anthropic 发布了新一代模型 Claude Mythos Preview,声称其在每个主流操作系统和主流浏览器中都发现了数千个高危漏洞,网络安全能力足以”重塑整个网络安全行业”。

该模型可完全自主地完成从漏洞发现到漏洞利用的全流程,无需人工介入。测试中,它独立发现并利用了 FreeBSD 中存在长达 17 年的远程代码执行漏洞(CVE-2026-4747),攻击者可从互联网任意位置取得服务器完全控制权。

该模型还能将多个漏洞串联为链式攻击,组合三至五个漏洞达到高度精密的攻击效果。

正因如此,Anthropic 选择不公开发布,而是启动了 Project Glasswing 计划:向 AWS、Apple、Google、微软、Cisco、CrowdStrike 等 12 家核心合作伙伴及另外约 40 个组织开放访问权限,专门用于扫描和加固全球关键基础设施代码。Anthropic 承诺提供 1 亿美元的模型使用额度,并额外向 Linux 基金会等开源安全组织捐款 400 万美元。

更多详情: https://www.anthropic.com/glasswing

这篇文章有 3 个评论

  1. News

    I’m often to blogging and i really appreciate your content. The article has actually peaks my interest. I’m going to bookmark your web site and maintain checking for brand spanking new information.

  2. Invest

    I really like reading through a post that can make men and women think. Also, thank you for allowing me to comment!

  3. window replacement cost

    Yazınız için teşekkürler. Bu bilgiler ışığında nice insanlar bilgilenmiş olacaktır.

发表回复