Changzhou AI Club页面切换中正在准备新的页面内容

AI News · 资讯流

AI 资讯

聚合值得关注的 AI 动态、产品发布、行业变化和社区相关机会。

分类

全部模型产品行业论文观点

全部动态

全部动态 · 模型发布/更新

01

05/10 00:40X：阿里云 / Alibaba Cloud (@alibaba_cloud)模型

HappyHorse上线阿里云，AI视频无需等待

基准测试排名第一。闪电速度。原生音视频同步。排队等待AI视频的时代结束了。HappyHorse现已在阿里云Model Studio上线。当别人还在渲染时，你已完成。立即构建：https：//int.alibabacloud.com/m/1000412167/

AI HOT原文

02

05/09 20:22X：Kim (@kimmonismus)模型

百度ERNIE 5.1以极低预训练成本逼近SOTA

百度发布的ERNIE 5.1模型基于ERNIE 5.0预训练基础，宣称在搜索、推理、知识问答、创意写作和智能体能力方面获得提升，而其预训练成本仅为同类可比模型的约6%。该模型在Arena搜索排行榜以1223分位列第四，ERNIE 5.1 Preview在LMArena Text上取得1476分，全球排名第十三。推文作者指出目前未见技术论文，需验证其宣称的低成本高性能表现，但若属实将意义重大。

AI HOT原文

03

05/09 17:58X：Berry Xia (@berryxia)模型

百度发布ERNIE 5.1模型，实现参数与成本的极致压缩

百度推出ERNIE 5.1模型，核心突破在于参数与成本的大幅压缩。其总参数和激活参数分别压缩至原规模的约1/3和1/2，预训练成本仅为同规模模型的约6%，同时保持了领先性能。模型在Agent能力上超越DeepSeek-V4-Pro，世界知识与创意写作接近领先闭源模型及Gemini 3.1 Pro，推理能力仅次于Gemini 3.1 Pro，深度搜索位列全球第四。技术创新包括提升参数效率的弹性预训练、增强可扩展性的异步强化学习训练等。模型已上线ERNIE平台和Baidu AI Studio。

AI HOT原文

04

05/09 16:00X：Testing Catalog (@testingcatalog)模型

百度ERNIE 5.1预览版发布，位列Search Arena全球第四

百度发布了基于ERNIE 5.0预训练基础的最新大模型ERNIE 5.1预览版。该模型在搜索、推理、知识问答、创意写作和智能体能力方面进行了升级。根据官方引用信息，ERNIE 5.1在Search Arena的全球搜索排行榜上位列第四，得分为1223分。这一排名反映了其更强的多源检索与信息综合能力，有助于在内容生成、AI助手、企业知识管理和智能体应用中提供更一致、可靠的答案。

AI HOT原文

05

05/09 15:09X：百度 Baidu (@Baidu_Inc)模型

ERNIE 5.1发布，预训练成本仅需对标模型6%

ERNIE 5.1 刚刚发布。基于 ERNIE 5.0 的预训练基础，我们最新的基础模型升级了搜索、推理、知识问答、创意写作和智能体能力，而预训练成本仅需对标模型的约 6%。更多内容详见主题帖 🧵

AI HOT原文

06

05/09 12:05X：阶跃星辰 StepFun (@StepFun_ai)模型

StepAudio 2.5 TTS 在语音竞技场盲测中跻身全球前三

StepFun 推出的 StepAudio 2.5 TTS 在 Artificial Analysis 语音竞技场盲测排行榜中位列全球第三，Elo 评分为 1187 分，仅次于 Inworld TTS 1.5 Max 与 Google Gemini 3.1 Flash TTS。该模型语音自然度较前代显著提升，并以 8 分优势超越 Eleven v3。其定价为每百万字符 85 美元，生成速度为每秒 37.6 字符，并提供了全局上下文提示和行内情感标签两种语音控制方式。

AI HOT原文

07

05/09 11:18IT之家（RSS）模型

蚂蚁集团百灵发布万亿级旗舰思考模型 Ring-2.6-1T：限时一周免费体验，引入 Reasoning Effort 机制

蚂蚁集团旗下百灵大模型发布万亿级思考模型 Ring-2.6-1T，专为处理真实复杂任务设计。该模型创新引入可调节 Reasoning Effort 机制，提供 high 和 xhigh 两种推理强度。high 模式适用于高频 Agent 工作流，注重低 Token 开销与快速多步执行；xhigh 模式则面向数学、科研等需要深度逻辑分析与多路径探索的高难任务。模型兼具快速多步执行、工具协调能力及 SOTA 稳定性。目前已在 OpenRouter 平台上线，开放限时一周免费体验。

AI HOT原文

08

05/09 10:29IT之家（RSS）模型

百度发布文心大模型 5.1：搜索能力位居国内首位，预训练成本仅为业界 6%

百度发布新一代基础大模型文心大模型5.1，并已在千帆模型广场等平台上线。该模型采用"多维弹性预训练"技术，仅以业界同规模模型约6%的预训练成本，实现了基础效果的领先。在国际权威竞技场LMArena的搜索榜上，文心5.1位列国内第一、全球第四。其综合能力显著提升，Agent能力实现超越，创意写作与推理能力已接近或达到业界领先水平。

AI HOT原文

09

05/09 09:56IT之家（RSS）模型

阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime，支持情绪感知与人设自定义

阶跃星辰发布新一代实时语音大模型StepAudio 2.5 Realtime，现已全量上线。该模型能感知语调、语速等"副语言"信息以识别用户情绪，动态调整回应以提升对话真实感。开发者可通过API精细定制AI角色的性格、背景等，其能力基于超万个原生人设生成的百万级特征矩阵训练，并针对角色一致性进行了强化。模型在对话能力上强调智商与情商的双重提升，可应对从闲聊到专业面试等多种场景。据2026年4月评测，其主观对话体验与语音问答基准得分均领先于同期竞品。

AI HOT原文

10

05/09 07:56X：Artificial Analysis (@ArtificialAnlys)模型

StepAudio 2.5 TTS跻身语音合成榜前三

StepFun的StepAudio 2.5 TTS在Artificial Analysis语音竞技场排行榜位列第三，仅次于Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS。该模型Elo评分达1187分，在测试集上已超越Eleven v3，语音自然度显著提升。其定价为每百万字符85美元，高于头部竞品；生成速度为每秒37.6字符。模型提供全局上下文提示和行内情感标签两种控制路径，可精细调节语音风格与韵律。

AI HOT原文

11

05/09 01:52X：蚂蚁百灵 (@AntLingAGI)模型

Ring-2.6-1T发布：万亿参数思维模型专为复杂任务设计

Ring-2.6-1T是一款万亿参数的旗舰思维模型，专为现实世界复杂任务和生产环境构建。该模型具备可调节思维努力功能，通过动态计算机制灵活平衡认知深度、token成本和执行速度。它针对代理优化，适用于高频工作流，提供快速多步执行和工具编排，并具有SOTA稳定性。深度思维特性解锁了模型的最大能力上限，特别适合严格数学逻辑和科学研究。

AI HOT原文

12

05/09 00:03Hugging Face：Blog（RSS）模型

EMO：为涌现模块化预训练的专家混合模型

EMO是一种新型专家混合模型，通过端到端预训练使模块化结构直接从数据中涌现，无需依赖人类定义的先验。该模型允许在特定任务中仅使用12.5%的专家子集（即8个活跃专家中的部分），同时保持接近全模型的性能；当所有128个专家共同使用时，它仍作为强大的通用模型。EMO具有1B活跃参数和14B总参数，训练数据达1万亿令牌。与标准MoE相比，EMO通过文档级路由约束，鼓励专家形成领域专业化组，从而支持选择性使用而不导致严重性能下降，实现了可组合架构，优化了大型稀疏MoE的内存-准确性权衡。

AI HOT原文

13

05/08 19:07The Decoder：AI News（RSS）模型

OpenAI 向通过审查的安全研究人员开放 GPT-5.5-Cyber

OpenAI 发布了专门用于网络安全的新模型 GPT-5.5-Cyber。该模型显著降低了安全请求的拒绝率，并能主动对测试服务器执行漏洞利用。目前访问权限仅限于经过验证的关键基础设施防御者，包括思科、CrowdStrike 和 Cloudflare 等合作伙伴。GPT-5.5-Cyber 将直接与 Anthropic 的 Mythos Preview 模型展开竞争。

AI HOT原文

14

05/08 13:09Hacker News 热门（buzzing.cc 中文翻译）模型

ZAYA1-8B 在数学计算方面与 DeepSeek-R1 表现相当，且活跃参数少于 10 亿

ZAYA1-8B 是一个新发布的开源人工智能模型，在数学计算任务中性能与 DeepSeek-R1 相当。该模型的活跃参数数量少于10亿，突显了在保持高性能的同时实现更高参数效率的突破。这一进展意味着模型在计算资源和存储需求上更为高效，可能降低部署成本并加速推理过程，为资源受限环境提供实用解决方案。ZAYA1-8B 的开发展示了在AI模型优化领域的重要进步，其开源性质有望推动进一步研究和应用。

AI HOT原文

15

05/08 10:56X：Greg Brockman (@gdb)模型

GPT-5.5-Cyber开启关键基础设施防护预览

GPT-5.5-Cyber现已面向关键基础设施防护人员开放有限预览。这是一个非常强大的模型。

AI HOT原文

16

05/08 10:35X：Eric Mitchell (@ericmitchellai)模型

OpenAI推出GPT-Realtime-2，为语音智能带来GPT-5级推理

OpenAI在API中正式推出GPT-Realtime-2，这是其迄今为止最智能的语音模型，为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者，在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper，共同构成了一套面向下一代语音界面的全新音频能力组合。

AI HOT原文

17

05/08 09:33IT之家（RSS）模型

商汤发布日日新 SenseNova 6.7 Flash-Lite 多模态模型，Token Plan 限时免费

商汤科技推出新一代轻量化多模态模型"日日新 SenseNova 6.7 Flash-Lite"。该模型采用原生多模态架构，能直接理解网页、文档和图表，提升复杂任务处理效率。它取消了视觉转文本中间层，以更小参数量实现能力跨越，在权威测试中取得多项同级别SOTA，并在信息搜索等场景中比纯文本智能体降低60%的Token消耗。同时，商汤推出限时免费的SenseNova Token Plan，为开发者提供首月无门槛调用额度，并将其全线办公技能SenseNova-Skills在GitHub开源。

AI HOT原文

18

05/08 09:20X：Tibo (@thsottiaux)模型

OpenAI发布GPT-Realtime-2语音模型

我们正在众目睽睽之下构建通用人工智能【引用 @OpenAI】：在API中推出GPT-Realtime-2：这是我们迄今为止最智能的语音模型，为语音代理带来GPT-5级别的推理能力。语音代理现已成为实时协作者，能够在对话展开时倾听、推理并解决复杂问题。现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供--为新一代语音界面带来全新的音频能力。

AI HOT原文

19

05/08 09:16X：Sam Altman (@sama)模型

企业安全防护新方案GPT-5.5-Cyber发布

我们希望能帮助企业加强安全防护，并认为尽快开展这项工作至关重要

AI HOT原文

20

05/08 08:46IT之家（RSS）模型

OpenAI 最智能 AI 语音模型：GPT-Realtime-2 登场，GPT-5 级推理能力

OpenAI 发布三款集成于Realtime API的实时语音模型，旨在解决语音交互中的延迟、打断处理和多语言支持难题。其中，GPT-Realtime-2具备GPT-5级推理能力，可在对话中进行推理、调用工具并处理打断，音频输入输出分别按每百万Token 32美元和64美元计费。GPT-Realtime-Translate支持70种输入语言同步翻译为13种输出语言，每分钟0.034美元。GPT-Realtime-Whisper提供低延迟流式转录，每分钟0.017美元。这些模型为开发复杂语音助手、实时翻译和转录应用提供了底层技术支持。

AI HOT原文

21

05/08 07:33X：邵猛 (@shao__meng)模型

OpenAI 发布三款实时语音新模型，推动语音交互向任务执行演进

OpenAI 在 Realtime API 中推出三款新模型，将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力，支持边听边思考、并行调用工具并完成任务，关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译，GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式，旨在构建下一代语音协作智能体。

AI HOT原文

22

05/08 05:59X：Berry Xia (@berryxia)模型

Google发布最划算AI模型，成本速度双优

能不能卷过DeppSeek v4-flash 啊！ Google继续把AI成本卷到地板上了。 Gemini 3.1 Flash-Lite正式更新，这才是他们目前最划算的模型，专门为高体积agent任务、翻译和简单数据处理优化，价格低到离谱，速度还快得吓人。以前大家卷参数、卷智能，现在Google直接告诉你：真正能跑通高频workflow的，是这种又便宜又稳的"轻量怪"。

AI HOT原文

23

05/08 05:57X：Berry Xia (@berryxia)模型

OpenAI推出GPT-Realtime-2，将语音AI能力提升至GPT-5级别

OpenAI在API中正式发布GPT-Realtime-2，称其为目前最智能的语音模型，为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作，在对话过程中同步完成聆听、思考与复杂问题解决，使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate，以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面，标志着语音AI从"辅助工具"向"实时智能伙伴"的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。

AI HOT原文

24

05/08 04:31X：Artificial Analysis (@ArtificialAnlys)模型

OpenAI发布GPT-Realtime-2语音模型，在多项基准测试中领先

OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩，与Gemini 3.1 Flash持平，较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先，最小推理努力变体得分96.1%，尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级，上下文窗口从32K增至128K，并支持文本、音频和图像输入，音频定价保持不变。

AI HOT原文

25

05/08 03:30X：Testing Catalog (@testingcatalog)模型

AVM 2开发中，或于谷歌I/O前发布

AVM 2 目前正在开发中 🚧 历史上，AVM 更新都安排在 Google I/O 的前一天快了吗？@sama 👀👀👀

AI HOT原文

26

05/08 03:02X：Testing Catalog (@testingcatalog)模型

Gemini 3.1 Flash Lite 全面开放使用

GOOGLE 🚨： Gemini 3.1 Flash Lite 现已全面开放！用户也可以在 AI Studio 上测试此模型。 &gt； Flash-Lite 专为超低延迟、高吞吐量任务和无可比拟的成本效益而设计，已经在改变大规模应用的构建方式。

AI HOT原文

27

05/08 02:56X：dax (@thdxr)模型

Gemini 3.1 Flash-Lite 高性价比模型发布

gemini 3.1 flash-lite 现已推出这是我们最具成本效益的模型，专为大规模智能体任务、翻译和简单数据处理优化

AI HOT原文

28

05/08 02:55X：Sam Altman (@sama)模型

GPT-Realtime-2 API上线语音交互成趋势

人们真的开始用语音与AI互动了，尤其是在需要输入大量上下文时。 GPT-Realtime-2今天登陆API；这是相当大的一步前进。（我们正在改进聊天中的语音功能。）

AI HOT原文

29

05/08 02:44The Decoder：AI News（RSS）模型

OpenAI发布新语音模型，为实时对话带来GPT-5级推理能力

OpenAI发布了三款新型语音模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。其中，GPT-Realtime-2具备与GPT-5相匹配的实时推理能力，旨在实现更流畅、智能的实时对话交互。GPT-Realtime-Translate支持超过70种语言的实时翻译，而GPT-Realtime-Whisper则专注于实时语音转写功能。这一系列模型标志着OpenAI在实时音频处理和交互领域的重要进展，有望显著提升跨语言沟通和语音应用的体验。

AI HOT原文

30

05/08 02:01X：Greg Brockman (@gdb)模型

OpenAI发布GPT-Realtime-2语音推理模型，助力构建新一代语音智能体

OpenAI在API中正式推出具备GPT-5同级推理能力的GPT-Realtime-2语音模型，标志着语音智能体实现重大突破。该模型使语音智能体能作为实时协作者，在对话中动态完成聆听、推理与解决复杂任务。此次更新同时推出了GPT-Realtime-Translate和GPT-Realtime-Whisper等流式模型，共同构成了一套面向下一代语音界面的全新音频能力组合，为开发者构建卓越的实时语音交互应用提供了强大工具。

AI HOT原文

31

05/08 01:45X：Kim (@kimmonismus)模型

OpenAI发布三款全新实时语音模型，并预告ChatGPT语音功能即将更新

OpenAI近日发布了三款新的实时语音模型：GPT-Realtime-2具备近似GPT-5的推理能力，允许语音助手在对话中实时思考；GPT-Realtime-Translate支持超过70种语言的实时翻译；GPT-Realtime-Whisper则能实现流式语音转文本。与此同时，OpenAI官方通过引用推文暗示，用户期待已久的ChatGPT语音功能更新正在积极准备中，即将正式推出。这预示着ChatGPT很可能在近期迎来全新的高级语音模式，进一步提升其交互体验与应用能力。

AI HOT原文

32

05/08 01:30X：OpenAI Developers (@OpenAIDevs)模型

语音智能体能力迎来重大升级：OpenAI发布新一代实时模型

OpenAI通过API正式发布了新一代实时语音模型系列，显著增强了语音智能体的能力。其核心GPT-Realtime-2具备媲美GPT-5的推理水平，使语音智能体能作为实时协作者，在对话中聆听、思考并解决复杂问题。同时推出的GPT-Realtime-Translate支持70种输入语言到13种输出语言的实时翻译，GPT-Realtime-Whisper则提供了更快的语音转录速度。这一系列模型为下一代语音交互界面奠定了全新的音频能力基础。

AI HOT原文

33

05/08 01:25X：Testing Catalog (@testingcatalog)模型

OpenAI发布三款新实时模型，或预示语音模式升级

OpenAI在Playground和API中推出了三款新模型：GPT-Realtime-2、GPT-Realtime-Whisper和GPT-Realtime-Translate。其中，GPT-Realtime-2被描述为迄今最智能的语音模型，为语音智能体带来了GPT-5级别的推理能力，使其能作为实时协作者，在对话中聆听、推理并解决复杂问题。这些模型共同构成了一套面向下一代语音界面的新音频能力集，也预示着ChatGPT的语音模式可能即将迎来重要更新。

AI HOT原文

34

05/08 01:19X：OpenAI (@OpenAI)模型

GPT-Realtime-2 API上线语音智能新突破

在API中推出GPT-Realtime-2：我们迄今为止最智能的语音模型，为语音助手带来GPT-5级别的推理能力。语音助手现已成为实时协作者，能够在对话展开时倾听、推理并解决复杂问题。现已在API中与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper同步上线--为新一代语音界面提供全新的音频功能套件。

AI HOT原文

35

05/07 23:06X：蚂蚁百灵 (@AntLingAGI)模型

万亿参数指令模型Ling-2.6-1T发布

inclusionAI宣布Ling-2.6-1T现已在OpenRouter上线。🚀 这款万亿参数旗舰指令模型专为现实世界智能体打造。它采用"快速思考"方法，在保持AIME26和SWE-bench Verified基准测试顶尖性能的同时，将成本降低约75%。适用于： - 高级编程 - 复杂推理 - 大规模智能体工作流

AI HOT原文

36

05/07 21:00OpenAI：官网动态（RSS · 排除企业/客户案例）模型

Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber

OpenAI扩展了网络安全领域的可信访问计划，推出了GPT-5.5和专门针对网络安全的GPT-5.5-Cyber模型。此举旨在帮助经过验证的网络安全防御者加速漏洞研究，并加强对关键基础设施的保护。新模型将为安全专业人员提供更强大的AI工具支持。

AI HOT原文

37

05/07 20:27X：Rohan Paul (@rohanpaul_ai)模型

BACH 1.0实现AI视频角色面部多镜头一致性

由@video_rebirth新推出的BACH 1.0解决了AI视频模型中最棘手的难题之一：在不同角度和镜头切换中保持同一角色面部的一致性。不仅是单个优质特写镜头。它实现了同一身份的真实多镜头一致性，而这正是多数图像转视频模型仍会失效的环节。 BACH擅长表现角色的面部情绪。整体而言，其输出极具电影感且达到制作水准。目前在Artificial Anlysis全球榜单中位列第六。 🧵 1.

AI HOT原文

38

05/07 19:17X：Kim (@kimmonismus)模型

ZAYA1-8B小模型展现超强推理能力，采用AMD全栈方案

Zyphra发布ZAYA1-8B模型，其活跃参数不足10亿，却在数学、编程和推理基准测试中媲美更大的开源及专有系统。其亮点不仅在于小尺寸，更在于全栈技术方案：完全基于AMD基础设施训练，采用了新的架构选择和大规模强化学习。此外，模型应用了一种名为Markovian RSA的测试时计算方法，通过并行推理和递归聚合，显著提升了复杂数学问题的解决能力。

AI HOT原文

39

05/07 18:00OpenAI：官网动态（RSS · 排除企业/客户案例）模型

通过 API 中的新模型推进语音智能

OpenAI API 推出了新的实时语音模型，能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平，支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具，以构建更流畅、更智能的语音应用体验。

AI HOT原文

40

05/07 17:19IT之家（RSS）模型

小米开源 OmniVoice 多语言语音克隆 TTS，号称一个模型搞定 600 余种语言

小米AI实验室开源多语言语音克隆TTS模型OmniVoice，覆盖600余种语言。该模型采用极简双向Transformer架构，无需复杂结构即可实现文本到语音的直接转换。其语音合成质量超越同类主流模型，训练速度可达一天10万小时。关键设计包括全码本随机掩蔽策略和引入大语言模型预训练参数，显著提升训练效率与语音可懂度。测试显示，在多种语言中其相似度与可懂度超越多款商用系统，并对低资源小语种也能实现高质量合成。模型还支持自定义音色、带噪音频适配等实用功能。

AI HOT原文

41

05/06 22:31X：商汤 SenseTime (@SenseTime_AI)模型

SenseNova-U1开源8步蒸馏LoRA，推理速度大幅提升

🚀 SenseNova-U1 更新： ⚡ 开源8步蒸馏LoRA：100 NFE降至8 NFE，H100推理时间从23秒缩短至2秒 🧩 现已支持ComfyUI，提供文生图、图像编辑和交错生成的即用工作流试用链接 👇 https：//github.com/OpenSenseNova/SenseNova-U1/

AI HOT原文

42

05/06 21:51IT之家（RSS）模型

豆包大模型家族首款全模态理解模型：字节跳动 Doubao-Seed-2.0-lite 升级

字节跳动火山引擎发布豆包大模型家族首款全模态理解模型 Doubao-Seed-2.0-lite 升级版。该模型原生统一支持视频、图像、音频和文本理解，并能进行跨模态联合推理，在物理、医疗等学科推理及细粒度感知上表现超越此前Pro版本。音频方面支持19种语种转写及多语种互译，多项基准测试优于Gemini-3.1-Pro。同时，其Agent、Coding与GUI能力升级，能更稳定处理长任务、胜任深度开发，并实现界面理解与操作执行的闭环。新版本已在火山方舟上线，旨在为企业提供高性价比的全模态任务部署方案。

AI HOT原文

43

05/06 21:46X：邵猛 (@shao__meng)模型

Luma Uni-1 为图像生成模型增加可编程推理层

Luma发布的Uni-1图像生成模型在提示词与像素生成之间引入了一个显式推理步骤，用于解读创意方向并消除歧义。这一关键推理层现已通过API对外可编程开放，使其不再是黑盒，允许开发者将Uni-1作为智能基础设施集成到生产流程中。主要应用模式包括嵌入产品作为创作引擎、构建自定义多阶段工作流或开发独立工具。API提供的核心能力涵盖基于参考图像的风格或角色约束生成、在模型层面强制保持视觉一致性，以及通过自然语言指令进行精准编辑。

AI HOT原文

44

05/06 20:18X：Vista (@vista8)模型

豆包大模型Doubao-Seed-2.0-lite实现全模态理解与能力提升

Doubao-Seed-2.0-lite 0428 内测版本升级，新增音频理解功能，能同时支持图片、视频、音频和文本四种输入，成为豆包大模型家族首款全模态理解模型。该版本在 Agent、Coding 和 GUI 能力上也有明显提升。通过 API 测试，验证了其在前端动效复刻、视频Hooks建议和字幕识别等场景的应用潜力，具体案例详见后续推文线程。

AI HOT原文

45

05/06 17:42X：小米 MiMo (@XiaomiMiMo)模型

小米MiMo V2.5跻身设计竞技场第六

MiMo V2.5 🥰🥰 【引用 @Designarena】：突发：小米MiMo-V2.5在设计竞技场开放权重模型中综合排名第六！其Elo评分为1297，与@Kimi_Moonshot的Kimi K2.5（思考版）处于同一性能区间。祝贺@XiaomiMiMo团队发布成功！

AI HOT原文

46

05/06 10:03X：歸藏 (@op7418)模型

OpenAI 将 GPT-5.5 Instant 设为 ChatGPT 默认模型

OpenAI 已全量发布 GPT-5.5 Instant 模型，并将其设为 ChatGPT 的默认模型。此次升级显著提升了模型的实时准确性和日常任务处理能力，特别是在法律、金融和医学等领域有效降低了幻觉率。同时，模型在图片理解与文档解析方面表现更佳。其回答风格变得更加简洁、聚焦要点，并增强了清晰度、个性化以及温暖自然的语调。此外，GPT 引入了记忆来源功能，允许用户可视化查看并编辑记忆的来源。本次更新未包含 Codex 模型。

AI HOT原文

47

05/06 09:13X：karminski (@karminski3)模型

Google发布Gemma 4草稿专用模型，推理速度提升三倍

Google发布了Gemma 4系列模型的专用草稿模型，用于推测性解码优化。31B Dense模型搭配草稿模型速度提升3倍，仅增加1G显存开销；Gemma4-26B和Gemma4-E4B分别提升1.5倍和3.1倍速度。新草稿模型如gemma-4-31B-it-assistant体积仅939 MB，专门优化后接受率高，相比之前使用非专用草稿模型（如gemma-4-E2B-it-UD-Q4_K_XL）提速更明显。作者呼吁Qwen尽快推出类似优化模型（如Qwen3.6-27B-assistant），以应对高性能需求。

AI HOT原文

48

05/06 09:12X：邵猛 (@shao__meng)模型

全球首个基于SSA架构的模型SubQ实现1200万token上下文窗口，效率大幅领先

前沿模型SubQ基于创新的Subquadratic Sparse Attention架构，实现了1200万token的实用上下文窗口。其核心技术SSA通过内容依赖的选择机制，让每个查询仅动态计算与相关键的注意力，使计算和内存成本随序列长度线性增长，而非传统Transformer的二次方增长。实测在100万token时比FlashAttention-2快52.2倍，成本低于Opus的5%。该模型针对需要一次性处理完整代码库、长文档等企业真实长上下文场景优化，旨在弥合"名义上下文"与"功能上下文"窗口的差距。

AI HOT原文

49

05/06 07:30X：Berry Xia (@berryxia)模型

O社的 GPT-5.5 Instant 开始在 ChatGPT 中推出。这是一个重大升级，让你获得更智能、更清晰、更个性化的回答，语气更温暖、更自然。

O社的 GPT-5.5 Instant 开始在 ChatGPT 中推出。这是一个重大升级，让你获得更智能、更清晰、更个性化的回答，语气更温暖、更自然。

AI HOT原文

50

05/06 07:29IT之家（RSS）模型

OpenAI ChatGPT 默认 AI 模型升至 GPT-5.5 Instant：幻觉最高减少 52.5%、回复更简洁

OpenAI于5月5日将ChatGPT默认模型升级为GPT-5.5 Instant，重点提升准确性与简洁性。新模型在医疗、法律、金融等高风险领域，幻觉声明较前代减少52.5%；在用户标记的事实错误测试中，不准确声明降低37.3%。回复内容更简洁，减少了不必要的表情符号和冗长格式。所有用户即日起开始获得更新，付费用户可继续使用GPT-5.3 Instant三个月。

AI HOT原文

51

05/06 07:28X：Berry Xia (@berryxia)模型

今天这个tts有点东西啊！

Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2，突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话，捕捉情绪、语气与节奏，动态决定回应方式，成为一个"会倾听、会共情、会适配"的对话伙伴。其关键创新包括：支持用自然语言语音指令像指挥大语言模型一样调整声音；同一声音身份可跨100多种语言保持一致性；还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的"语音输出"迈向更贴近真人互动的"实时对话"时代。

AI HOT原文

52

05/06 07:21X：Berry Xia (@berryxia)模型

Gemma 4借助MTP草稿机实现3倍速推理

Google通过为Gemma 4引入MTP drafters（多token预测草稿机），在不增加参数、不改变架构和模型质量的前提下，实现了最高3倍的推理速度提升。该技术让模型能一次预测多个token，突破了传统自回归解码的串行瓶颈，极大提升了GPU利用率。这显著增强了本地部署的实时性，并使Agent、代码生成等场景受益，进一步放大了开源模型在性价比和本地运行方面的优势。

AI HOT原文

53

05/06 06:09X：Rohan Paul (@rohanpaul_ai)模型

OpenAI将GPT-5.5 Instant设为ChatGPT默认模型，减少错误、缩短回答并增强个性化

OpenAI已将GPT-5.5 Instant设置为ChatGPT的默认模型。该模型在医学、法律和金融等关键提示上的虚假陈述比前代减少52.5%，在用户标记过事实错误的困难对话中不准确陈述降低37.3%。回答更简洁，用词和行数减少约30%。同时，模型增强了图像和STEM处理能力，并能从记忆、过往对话、文件及连接的Gmail中提取上下文以实现深度个性化。OpenAI表示，此次升级旨在提供更智能、清晰、个性化且语气自然温暖的回答。

AI HOT原文

54

05/06 05:32X：Eric Mitchell (@ericmitchellai)模型

big if true （actually small）

如果是真的就厉害了（其实很小）

AI HOT原文

55

05/06 05:13X：Kim (@kimmonismus)模型

实时语音AI响应速度是关键，TTS-2模型突破延迟瓶颈

主推文强调语音代理的首次音频响应时间（TTFA）低于200毫秒至关重要，超过300毫秒即可感知延迟。引用推文介绍了专为实时对话设计的Realtime TTS-2新一代语音模型，该模型能理解对话内容、接受自然语言语音指令、在超过100种语言中保持同一声音身份，并能模拟人类专注的说话方式，最终实现听觉与体验俱佳的语音AI效果。

AI HOT原文

56

05/06 04:24X：Greg Brockman (@gdb)模型

Major ChatGPT upgrade rolling out now， in the form of GPT-5.5 Instant：

重大ChatGPT升级现正推出，形式为GPT-5.5 Instant：这是一次重大升级，以更温暖自然的语调提供更智能、更清晰、更个性化的答案。同时它也更简洁，这正是我们所了解到的用户需求。我们相信你会喜欢与它对话。

AI HOT原文

57

05/06 04:18X：Sam Altman (@sama)模型

in particular， the combination of improvements to speed， intelligence， personality， and great memory…

特别是当速度、智能、个性以及强大的记忆/个性化功能这些改进结合在一起时，它们共同作用所产生的效果，感觉像是超越了各部分简单相加的总和【引用 @sama】：chatgpt中的新即时模型真是太棒了如果你已经有一段时间只使用思考模型，不妨试试它！

AI HOT原文

58

05/06 04:09X：ChatGPT (@ChatGPTapp)模型

High fives to all our users on the new Instant model.

向我们所有使用新即时模型的用户致以热烈的祝贺。

AI HOT原文

59

05/06 03:36X：Elon Musk (@elonmusk, xAI)模型

Grok 4.3

Grok 4.3 【引用 @xai】：Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。它在 @ArtificialAnlys 排行榜的智能体工具调用和指令遵循方面位居榜首，并在 @ValsAI 的企业领域（如案例法和公司金融）中排名第一。 Grok 4.3 支持 100 万 token 的上下文窗口，定价为输入每百万 token 1.25 美元，输出每百万 token 2.50 美元。创建 API 密钥并开始构建：http：//console.x.ai/team/default/api-keys

AI HOT原文

60

05/06 03:30X：Testing Catalog (@testingcatalog)模型

Google released Multi-Token Prediction （MTP） drafters for the Gemma 4 family. It comes with a 3x spe…

Google为Gemma 4系列发布了多令牌预测（MTP）草稿模型。它在不损失性能的情况下带来了3倍的速度提升。期待在Mac Mini上测试带有MTP草稿模型的量化版Gemma 4！

AI HOT原文

Daily

AI 日报 · 5月9日

01模型发布/更新2 条

02产品发布/更新8 条

03行业动态6 条

04论文研究4 条

05技巧与观点8 条

阅读完整日报