2025年1月第4周AI资讯

今天为大家总结近一周的AI资讯:

Operator – OpenAI推出的AI智能体

Operator是OpenAI推出的首款AI智能体。能像人类一样操作网页浏览器的AI工具,可以自动完成各种在线任务,如预订餐厅、购买机票、填写表单等。Operator基于Computer-Using Agent(CUA)的新模型驱动,模型结合了GPT-4o的视觉能力和强化学习的高级推理能力。通过屏幕截图“观察”网页,使用虚拟鼠标和键盘进行操作。Operator目前处于研究预览阶段,仅对美国的ChatGPT Pro用户开放。未来,OpenAI计划将其扩展到更多用户群体,并集成到ChatGPT中。

GLM-4V-Plus – 智谱AI最新推出的多模态AI模型,专注图像和视频理解

GLM-4V-Plus是智谱AI最新推出的多模态AI模型,专注于图像和视频理解。GLM-4V-Plus不仅能够精确分析静态图像,还具备动态视频内容的时间感知和理解能力,能捕捉视频中的关键事件和动作。作为国内首个提供视频理解API的模型,GLM-4V-Plus已集成在“智谱清言APP”中,并上线“视频通话”功能。同时,GLM-4V-Plus在智谱AI开放平台 BigModel上同步开放API,支持开发者和企业用户快速集成视频分析功能,广泛应用于安防监控、内容审核、智能教育等多个场景。

Junie – JetBrains 推出的 AI 编程助手

Junie 是 JetBrains 推出的AI编程助手,通过 AI 技术帮助开发者更高效地完成编程任务。能理解项目上下文,提供智能代码补全、多行代码生成、单元测试生成等功能。Junie 支持跨语言开发,可一键将代码转换为不同语言。Junie 的核心优势在于深度集成 JetBrains IDE(如 IntelliJ IDEA 和 PyCharm),结合了专有的大语言模型(LLM),具备上下文感知能力,能根据项目需求提供精准的代码建议。

  • 安装 Junie 插件:访问 Junie 的官方网站,按照插件,支持 JetBrains 的多种 IDE,如 IntelliJ IDEA Ultimate 和 PyCharm Professional。在 IDE 中,通过插件市场搜索并安装 Junie 插件。
  • 创建 JetBrains 账号并登录:在 JetBrains 官网注册账号。安装完成后,重启 IDE 使用 JetBrains 账号登录Junie。

Sonar – Perplexity 推出的实时搜索 API

Sonar是 Perplexity 推出的人工智能搜索 API,为企业和开发者提供高效、低成本的搜索解决方案。通过实时联网搜索,从可信来源获取答案,支持定制化数据源,能根据用户需求优化搜索结果。Sonar的核心优势在于强大的上下文处理能力和灵活的输出格式,同时提供引用以增强回答的可信度。Sonar提供基础版和高级版两种服务。基础版适合快速、低成本的搜索需求,高级版能处理更复杂的查询,提供更详细的回答和更多引用。具备自动扩展速率限制和结构化输出等功能,适合多种应用场景,包括 IT 服务管理、供应链、财务等领域。

通过如下步骤可以使用Sonar:

  • 注册与获取 API Key:访问 Perplexity API 官方网址,注册账号并获取 API Key。
  • 发起请求:通过 HTTP 请求(如使用 curl 或 Python)调用 Sonar API,指定模型(如 sonar-pro)和查询内容。
  • 配置参数:根据需要设置搜索域过滤、语言模型参数等,以优化搜索结果。
  • 处理响应:接收并解析 API 返回的 JSON 格式数据,提取搜索结果和引用。
  • 注意限制:监控速率限制,避免超出使用额度。

Step-Video 更强大的真实世界模拟器来了!

相比去年发布的 Step-Video V1,V2 版本模型参数量更多语义理解指令遵循能力都有大幅提升,在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入镜头语言等方面具备更强的生成能力。这些提升,源于我们在 VAE 模型、DiT架构与强化学习、以及多模态大模型与视频知识库应用上的持续积累和创新。目前,Step-Video V2 版本已支持在跃问网页端申请试用。

DeepSeek-R1 发布

2025年1月20日,杭州深度求索人工智能基础技术研究有限公司正式发布了其最新研发的高性能AI推理模型——DeepSeek R1。该模型在数学、代码和自然语言推理等任务上表现卓越,性能直接对标OpenAI的o1正式版,同时以开源形式向全球开发者开放,并使用MIT协议开源,支持免费商用,无需申请授权,为LLM大模型开源世界又补给了满满一仓库弹药。

DeepSeek R1的最大亮点在于其通过强化学习(RL)技术显著提升了模型的推理能力,且仅需极少量标注数据即可实现高效训练。与OpenAI的o1相比,R1在多个基准测试中表现优异,同时价格仅为o1的几十分之一,具有极高的性价比。

  1. 强化学习驱动的推理能力
    R1在后训练阶段大规模应用了强化学习技术,无需依赖大量监督微调(SFT)数据,即可显著提升模型的推理能力。这一创新方法不仅降低了训练成本,还使模型在复杂任务中表现出色。
  2. 长链推理与模型蒸馏
    R1采用了长链推理(Chain-of-Thought, CoT)技术,能够逐步分解复杂问题,并通过多步骤逻辑推理解决问题。此外,R1支持模型蒸馏,开发者可以将其推理能力迁移到更小型的模型中,满足特定场景需求。
  3. 开源与灵活的许可证
    R1遵循MIT License开源协议,允许用户自由使用、修改和商用。同时,DeepSeek还开源了R1-Zero和多个蒸馏后的小模型,进一步推动了AI技术的普及与创新。

发表回复