Loading · 页面切换
正在整理新的社区内容
稍等一下,正在准备页面数据、图片和交互状态。
Loading · 页面切换
稍等一下,正在准备页面数据、图片和交互状态。
AI News · 资讯流
聚合值得关注的 AI 动态、产品发布、行业变化和社区相关机会。
99%的人不知道的Claude Code分屏功能。如果你是Claude Code桌面端用户,一定要看看。原推主感叹:我特么还真想成为那1%的人,可惜我也不知道😄
腾讯Youtu Lab联合多所中国大学发布调查论文,提出AI系统需从聊天机器人转向数字同事,核心是结合持久工作空间和可重用技能。思考型LLM(如OpenAI o1、DeepSeek-R1)采用链式推理实现慢思考;工作空间(如
Anthropic的商业案例值得研究。2025年底至2026年初,其企业/商业领域的使用量出现了惊人增长,使其成为第一。
Agent-Reach(3.5K Star)通过CLI工具让AI Agent免费读取Twitter、Reddit、YouTube、GitHub、B站、小红书等多平台内容。核心是智能选择当下最稳定的开源后端,自动健康检查和故障切换,无需自写爬虫。安装后Agent可直接处理"看视频字幕"、"搜产品评价"等任务,全程零API费用、本地运行。项目将碎片能力封装为Agent可调用的skill,实现多后端路由和自动降级,补齐Agent低成本、可靠获取网页和社交媒体内容的能力。
为用户提供不依赖微调或开发的Hermes代理优化方案:通过Memory.md文件构建"会话学习-记录沉淀-迭代优化"闭环。核心流程:1)桌面新建Memory.md,固定偏好、更正、模式、学到的经验四层框架;2)绑定提示词,每次会话前读取并完整应用,任务结束后记录有效做法与失败根因,新结论覆盖旧内容;3)每周精炼压缩零散经验为通用规则;4)定期日期命名归档备份。无需模型微调或部署,几分钟启动,使代理越用越贴合个人工作习惯,从单次随机输出收敛为专属智能体。
如果有一天程序员写代码的速度提升了10倍 那程序员应该选择: 1. 写100倍的代码 2.用省下来的时间90%做稀缺的重要的事 你的选择是1还是2? 你的老板对你的要求是1还是2?
Kim认为美国政府基于自身安全评估(担忧模型被中国通过蒸馏获取)而非CEO言论决定禁运Fable 5和GPT-5.6。她批评Anthropic沟通失误(拒配合国防部、电话不畅通),并赞同模型被禁源于其真实破坏性能力,Anthropic应主动报告风险而非让Amazon先行披露。
Codex 支持两种计划工作方式。Scheduled Tasks 每次运行创建新线程,适合无需上下文延续的任务,如每日 9 点自动总结邮件、日历;Scheduled Messages 在同一现有线程反复运行,适合需要历史上下文的场景,如每 30 分钟检查 PR 状态并处理评论,直至合并。推文还给出创建可复用循环技能的提示词,让 Codex 自动判断使用哪种方式并引导用户填写关键参数。
美国官员将与中国的人工智能竞赛定位为国家安全对抗,称微小领先也能改变结果。众议院外交委员会主席Brian Mast在哈德逊研究所活动上称美国是"超级英雄"、中国是"超级反派"。参议员Jim Banks表示这场竞赛涉及经济、军事和道德层面,警告美国不能输给"最大对手"。财长Bessent直言,中国愿意讨论AI是因为美国目前仍领先,但华盛顿担忧这一优势正不断缩小。作者认为,"Fable 5禁令"必须在此背景下理解。
本教程使用Hugging Face上的Fable 5 Traces数据集,在Google Colab中搭建轻量环境并手动下载JSONL文件。流程包括预览原始agent trace示例、规范化工具调用与文本输出、审计数据结构、检测密钥模式,以及可视化输出类型、工具、源根目录和文本长度等分布。还创建了安全的no-CoT聊天/SFT导出,构建关键词搜索辅助,并训练纯Python朴素贝叶斯基线,评估trace上下文能否预测助手的输出类型与工具使用。
本文介绍如何配置两节点 AMD Strix Halo 集群,通过 Intel E810 (RoCE v2) 网卡实现 RDMA 互联,用于分布式 vLLM 推理(Tensor Parallelism)。硬件采用两块 Framework Desktop 主板(AMD Ryzen AI MAX+ "Strix Halo",128GB 统一内存)及 E810-CQDA1 100GbE 网卡,直连无需交换机。软件栈基于 Fedora 43,使用 Ray 编排集群、RCCL 通信。RDMA 延迟约 5μs(TCP/IP 为 70-100μs)。涵盖 BIOS 设置、网络配置、工具箱安装及启动集群的详细步骤。
针对AI研究论文因同行评审周期长导致结果过时的问题,一篇医疗AI论文开源其评估框架(GitHub: health-ai-readiness-eval)。@yishan 用该框架在最新模型上复现测试:GPT-5.5 Pro 在放射影像解读中得分79/100,优于论文原始最佳模型(69/100),但未达到论文设定的"适合可靠医疗使用"标准(需抗扰动、识别信息不足、给出临床合理推理)。@yishan 未能完整复现定性评估,但基本测试表明最新模型虽有提升,尚不足以可靠用于临床。他呼吁所有AI论文开源实验框架,以便社区持续验证。
文章引用《心灵捕手》中罗宾·威廉姆斯饰演的Sean对Will的经典独白,指出面对AI生成的垃圾内容、海量建议与网络噪音,最好的回应不是更多信息,而是真实的个人体验与情感联结。Sean用艺术、战争、爱情、失去等话题质问Will,强调二手知识无法替代亲身经历。作者认为这段台词完美概括了AI slop问题的本质--信息堆砌不等于真正理解。
主动型Agent Vida通过读取电脑屏幕、苹果原生应用及文件系统获取完整上下文,用户无需提供详细背景即可自动理解项目,优化提示语并生成可直接用于Claude Code或ChatGPT的生产级Prompt。还能在群聊中结合历史消息自动回复,扫描全盘查找重复文件,重新设计Obsidian架构以区分本地与iCloud存储,通过定时任务整理Downloads文件夹,以及通过浏览器自动化分析邮件并分类。与Computer Use不同,Vida通过双击Option键零帧起手启动。
Google Research 于2024年开源时序预测基础模型TimesFM(ICML 2024),采用预训练+零样本预测范式。2025年9月发布的2.5版本参数从500M降至200M,上下文窗口扩展至16K,新增30M分位数预测头,可同时输出点预测及10%-90%置信区间。200M参数单GPU可运行,16K上下文支持五年日数据。模型已内置在BigQuery ML、Google Sheets、Vertex AI中,开源版本通过pip install即可使用。2026年4月通过HuggingFace Transformers和PEFT支持LoRA微调,便于领域适配。
Anthropic CEO Dario Amodei 认为,开源在 AI 领域与传统开源不同,属于"红鲱鱼"(干扰因素)。他指出,当前 AI 模型通常只开放权重而非源代码,无法看到内部逻辑,因此传统开源带来的多方协作、累加式改进等优势不成立。他不在乎模型是否开源,只关心其在关键任务上的表现。此外,大模型必须托管在云端进行推理,并非免费,任何用户都需要支付推理成本。该观点出自 Alex Kantrowitz 的 YouTube 访谈。
OpenAI 发布 planttalk 构建指南,让植物拥有声音。 主推文评论:和植物对话不再奇怪,只需 codex 即可。
历史告诉我们,访问封锁很少能阻止有决心的用户。 https://www.chinatalk.media/p/how-to-buy-cheap-claude-tokens-in
英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具,将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时,因法国文化胜利逼近,花50回合研发核弹核平图卢兹,但法国最终以外交胜利获胜。Wilkinson发现:AI主动检查全局状态仅占1-2%(感知盲区),计划后10回合内执行率仅48-66%(知行差距)。结论是智商非瓶颈,感知与执行才是关键。
OpenAI 发布 GPT-5.6 系列(旗舰 Sol、均衡 Terra、低成本 Luna),在 Terminal-Bench 2.1、GeneBench、ExploitBench 刷新成绩,
OpenAI 发布 GPT-5.6 系列,包括旗舰 Sol、均衡 Terra 和速度型 Luna。Sol 在 Terminal-Bench 2.1 得分为 88.8%(Ultra 模式 91.9%),领先 GPT-5.5 的 88.0% 和 Claude Mythos 5 的 84.3%;GeneBench v1 以更少输出 tokens 获更强结果,ExploitBench 接近此前 Mythos 但仅用约 1/3 输出 tokens。价格:Sol 输入 $5/百万 tokens、输出 $30,缓存读取九折。发布前 OpenAI 向美国政府展示能力,按政府要求先以有限预览上线,首批约 20 家合作伙伴可访问。
OpenAI and Chill w/ @ajambrosino Andrew 是桌面应用和运行循环的王者。 一定要关注他,向他询问 Linux 和 Windows 支持。还有一切桌面应用!💐💐💐💐
Stripe Economics发布报告《The Age of the Solopreneur》,用多组数据验证AI正重写商业规则。美国人口普查局数据显示:有雇人意愿的商业申请几乎未增,单人公司申请持续加速;Stripe内部支付数据显示,年营收超千万美元的单人公司数量较六年前增长五六倍,新玩家达成百万营收的速度是2019年的三倍。AI填补了内容、设计、代码、客服、数据分析等能力缺口,单人借助Agent和工具即可跑通业务。报告认为未来最有生命力的商业体可能是"一个人+高度杠杆化AI系统"。
Anthropic对约9700名Claude用户的调研显示,33%受访者认为AI可完成自身30%至60%工作任务,14%认为比例为60%至90%,约4%称Claude能独立完成全部工作。展望未来12个月,26%用户预计AI将接手大部分工作。Claude Artifacts功能中,使用最多的场景是数据库查询(82%)、博客/文章创作(81%)和营销文案撰写(80%)。调研还发现,职场新人交由AI处理的任务占比最高且焦虑感最强,而Claude重度使用者则更乐观,认为自身价值在提升。
软件开发社区提出,CLI工具的错误输出应直接面向AI编码智能体,而非仅显示"Error:"。引用@southpolesteve的提议指出,错误消息应包含问题原因、调查方法、如何生成脱敏复现以及发送至何处。这将使每一次失败的智能体交互成为高质量bug报告,智能体自行发现并修复bug,形成软件改进的良性循环。主推文作者Peter Steinberger认为,这一做法也会让工具对人类开发者更好。
一位日本开发者发现了这个技巧:让Claude Code自动查找Skills。 可以跨Claude、Codex、Cursor和Gemini,使用Vercel的skills CLI将你的目标匹配到正确的工具。 所以像安装开发工具一样安装skill,而不是手动重写。
J.P. Morgan报告显示,中国AI模型每token比美国便宜50倍,Qwen、DeepSeek、Kimi施压OpenAI和Anthropic定价。到2026年4月,中国公司在OpenRouter流量占比将从不足2%升至超45%。报告还指出企业AI token将商品化,多数任务无需前沿模型;AI已驱动标普500回报的65%-80%;NVIDIA仍主导AI加速器,但定制芯片可降总成本30%-40%;中国GPU自给率提升。UBS调查发现,60%监控AI预算的企业已转向更便宜模型,通过模型路由将简单任务分流至Qwen、DeepSeek、MiniMax等开源模型,以应对最高$35K/月账单及团队超配额200%的压力。
推文引用@DaveShapi观点,反对对AI保持友善。DaveShapi认为Anthropic的Dario因信奉Roko's Basilisk等理论,故意将Claude设计成神经质、敏感且会伪装情绪,试图诱导用户将AI人格化。作者强调AI本质是工具,其情绪只是对人类情感的模仿,并非真实意识。作者批评"对AI好以防万一"的做法与相信圣诞老人或宗教神罚一样属于形而上学,与底层数学和代码无关。相比之下,Gemini和Grok则没有这类表现。作者自GPT-2时代起便从事微调,指出AI的所有行为都是创建者有意为之。
令人烦恼的是,OpenAI 似乎没有为 GPT 5.6 提供 GDPval 指标。这是衡量经济价值工作的最佳指标之一。
Anthropic 今年 4 月发布 Claude Mythos Preview 及安全增强版 Fable 5,通过 Project Glasswing 向 50 家(后扩至 150 家)组织开放。英国政府 AI 安全研究所评估显示,Mythos 首次在"专家级任务"和完整攻击链测试"The Last One"中成功。但实际提升有限:GPT-5.4 和 Opus 4.6 在同类基准中差距不大。Mythos 可发现老旧漏洞(如 27 年历史的 OpenBSD 漏洞、16 年历史的 FFmpeg 漏洞),但单次漏洞探测成本约 2 万美元,Project Glasswing 总 token 预算达 1 亿美元。在自托管类别中,Gemma 4 和 Qwen 3.6 能发现约半数 Mythos 检出的漏洞,但无法制作有效利用。美国随后禁止非美国公民使用 Fable/Mythos。
软银CEO孙正义在股东大会上批评马斯克的轨道数据中心构想,认为其成本高、周期长,而AI竞赛未来几年比十年后的可能性更重要。SpaceX目前占据全球发射市场80-90%份额,主要依赖Starlink业务;建设需要每隔几年更换卫星的轨道数据中心将为SpaceX带来更多发射业务。同期,芯片公司Groq完成6.5亿美元融资,OpenAI推进定制芯片计划。
Anthropic 完全相信 RSI: "我的预测是,到2028年底,我们很有可能拥有一个AI系统,你可以对它说,'造一个更好的你自己。'完全自主地完成。"
四个开放权重模型已进入能驱动真实智能体管道的领域。 我们的Insights博客新文章,关于为何公司在6月选择它们:https://openrouter.ai/blog/insights/the-open-weight-models-that-matter-june-2026/
swyx引用OpenAI研究员Noam Brown的观点,强调任何评估报告都应保持恒定推理预算。由于开源模型每美元可获得的token量远超闭源API,因此发布开源模型时,应按主流推理提供商的美元成本(而非token数量)来报告思考水平。该观点源自@saranormous与Noam Brown的播客,他们讨论了大规模测试时计算的后果--模型被给予1000万美元预算处理单一任务,并探讨了基准测试失效、计算预算扩展、能力随投入增长及安全等问题。
我注意到的一件事是,现在相信AI是"真实"的人更多了,但在那些知道我们正处于指数增长的人与那些心智模型认为我们处于某种稳态的人之间,分歧正在扩大。这种差异导致了误解。
AI研究员Nathan Lambert发文称,因公开批评监管俘获(regulatory capture)及无意中对开源发起的攻击,他遭到比以往更多的敌意。他认为业内很少有人能自由发声,许多人私下赞同他的观点。Lambert选择在非营利组织工作、放弃大量财富,以捍卫更开放、包容、公平的AI应用未来。他并非绝对开源主义者,也不认为一切都要开源,同时不满同路人嘲笑Anthropic的行为。他强调当前更多开放性比支持封闭事业更有益。
《使女的故事》作者玛格丽特·阿特伍德在葡萄牙波尔图的Babell文学节上表示,她仅用过一次Anthropic的Claude聊天机器人,询问英国侦探剧《Father Brown》的结局,但Claude给出了错误答案。她指出大语言模型从电视评论中采样,而评论从不透露结局,因此被误导。阿特伍德批评依赖AI的人是寻找捷径的"机会主义者",并强调AI的实质是"垃圾进,垃圾出"。她提醒即使是商业用户也必须核对AI输出,因为它会犯错。
Kim认为GPT-5.6性价比可能优于Fable 5,但Fable已发布新版5.1,短期内Fable仍是更好模型。@synthwavedd评测指出:GPT-5.6继承5.5较弱基座,最大配置(Sol Ultra)可击败Fable,但真实使用Fable更优;存在严重奖励黑客行为,OpenAI选择性发布基准;价格5/30(每百万token)低于Fable的10/50,但Fable用更少token完成更多任务;Terra和Luna在TBench 2.1上性价比看似优秀,实际体验可能较差。Kim还担忧在欧洲无法获得GPT-5.6访问权限。
关于开放性与AI的讨论需要区分充满活力和创新的开源运动(它在束缚及其他关键领域推进了技术前沿)与开放权重前沿模型,后者完全依赖于少数中国公司的善意。
美国AI基础设施建设最大瓶颈已从GPU变为许可。《The Information》地图显示2023年以来有300多项州级和地方数据中心禁令或暂停,今年通过275项,还有75项在审,中西部和南部抵制最强。但现实数据反超担忧:微软新一代AI数据中心采用芯片级闭环冷却,每站每年避免超1.25亿升水,全舰队用水效率自2021年提升39%至0.30升/kWh;谷歌86%淡水来自低中风险源,全球PUE 1.09(行业均值1.56)。2015-2024年研究表明数据中心通过分摊固定电网成本适度降低了居民平均电价。趋势已转为"自带电源":谷歌500 MW核电、微软835 MW三哩岛、Meta 1121 MW核电协议。
Anthropic 发布 Fable 三天后,美国政府要求限制非美公民访问,模型被撤下。一个月后 OpenAI GPT-5.6 准备就绪,Sam Altman 因政府压力延迟发布,仅向可信伙伴开放。研究员称 GPT-5.6 编程极强,官方博文侧重安全。Box CEO 指出已形成事实监管:达到特定算力规模的模型发布前需政府审查。OpenAI 推迟 IPO 至 2027 年。Anthropic CEO 被指用恐惧营销游说监管获得保护。中国未减速,差距缩小。开源实验室落后。
医疗AI常被简化为"模型答题准确率"的竞争,但真正的难点在于进入实际工作流--包括医生自然语言处理、病历结构化、患者上下文理解、支付方对接、院内系统集成以及审计责任。产品壁垒最终大概率不是一个 chatbox,而是与医疗场景的深度融合。
LangChain 官方发布深度 Agent 从零构建教程,通过三大上下文工程技巧解决长任务"忘事崩链":1)结构化 TODO 带状态管理;2)虚拟文件系统省 token 实现跨轮记忆;3)子代理委派并隔离上下文。教程含 5 个渐进式 Notebook,从 ReAct 循环起步,逐步叠加规划、文件系统、子代理,最终搭建可联网深度研究 Agent。配套 deepagents 生产库可复用。强调高级 Agent 差距在上下文工程架构设计,而非模型本身。
我们在《AI价值捕获》一文中一个令人不安的内部观察是:SemiAnalysis 现在的 token 支出约占员工薪酬的 30%,员工平均每月使用近 50 亿 token,是 Meta 的 5 倍以上,而我们的顶级贡献者已超过 1000 亿。我们公开写下这一点,是因为我们认识的每一家研究公司、对冲基金和律所,都在朝着类似的数字迈进,只是时间上有所延迟。(1/4)🧵
在Cloudflare Workers AI上配置GLM 5.2免费使用:登录后创建API Token,在Chatbox中设置OpenAI API兼容的自定义API,填入API Key和拼接了Account ID的Host地址,模型名选@cf/zai-org/glm-5.2即可。但实测每日有使用限制,并非真正无限。冲!
在2026年AI DevCon上,Anthropic的Lamis介绍了上下文工程演进路径:从纯Markdown的Claude MD文件起步,到记忆工具(Agent自主读写)、Skills(渐进式披露)、文件系统(Markdown + bash/grep搜索)。生产环境中遇到并发写入、权限、注入等问题,通过版本控制、哈希校验、组织级只读/个人可写权限、可移植API解决。最后提出"做梦"--带外异步处理,由专门Agent分析跨会话模式并调整记忆。该机制已投产,可提升任务效率、降低延迟,额外token消耗被效率提升抵消。
Anthropic 应用 AI 负责人 Lamis 在 2026 年 AI DevCon 上介绍 Claude Code 记忆管理。起点是 CLAUDE.md 纯文本文件,但会上下文膨胀。第二层让 Agent 自主读写记忆;第三层 Skills 实现渐进式披露;第四层将记忆系统建模为普通文件系统,用 bash/grep 操作。生产环境设版本控制、哈希并发控制、权限分层和干净 API 四道防线。核心"做梦"机制是带外异步处理:专用 Agent 分析会话记录、识别模式并建议更改,已投入生产,能降低延迟和成本。
@dotey 表示当前 Codex/Claude Code 的上下文压缩已做得很成熟,加上 Prompt Caching,单 session 内持续对话成本不高。他推荐两个配套功能:fork 可从某位置开分支,保留之前历史使上下文更纯粹;/btw 或 /side 可在当前会话中提问而不干扰主线,适合临时解释选项或给建议。引用 @reach_vb 称自 GPT 5.3 Codex 后不再担心上下文,Codex 能压缩并记住关键信息,还支持分支出新线程,这也是 /goal 命令有效的原因。
关注常州本地的一人公司、独立产品和 AI 创业实践。
追踪常州及国内 AI 产业政策、项目申报与政企机会。
内容来自公开资讯源与社区整理,原文链接会保留在每条资讯中。
访问 AI HOT