文丨贺乾明
2025 年 3 月的 AI 月报,我们开始尝试一种新形式:和知乎一起举办 “AI 脑暴” 线下活动,围绕每月一个热门 AI 主题,邀请相关学界研究者、业界从业者(研发或技术人员)、投资人等一起做闭门圆桌讨论。
3 月 30 日,第一期 AI 脑暴举行,主题是 Agent,我们邀请 6 位嘉宾参加,他们来自高校、互联网公司和非营利 AI 研究机构。本期月报中,我们摘录了部分 AI 脑暴中的讨论。
以下是我们第 5 期 AI 月报,欢迎大家在留言区补充我们没有提到的重要趋势。
开发 Agent 简单,让它好用难
3 月初,通用 Agent 产品 Manus 上线第二天,就被复刻出两个开源版本——OpenManus、OWL。OpenManus 甚至只用 4 个人,花 3 个小时。
这种 “速成” 似乎暗示:做 Agent 没那么难。但从实际体验和系统复杂度来看,让 Agent “真正好用” 仍存在挑战。
大模型公司 Anthropic 与数十个团队合作开发 Agent 后,把其分成两类 [1]:
Agent 的开发看起来变得容易,是因为底层模型、框架、工具生态正在成熟。OpenAI、Anthropic 等公司提供了模型 API,调用浏览器、文件、搜索等组件已经有开源标准。Anthropic 推出的 Model Context Protocol(MCP)正在被更多公司接纳,规范了 Agent 如何与外部工具对接,OpenAI 也已加入。
但无论是 Manus 和它的各种开源变体,还是 OpenAI 开发的 Deep Research 等 Agent,问题仍层出不穷:
Anthropic 总结过几点工具层面的改进建议 [1]:
在大模型创业公司 Pleias 训练大模型的亚历山大·多利亚(Alexander Doria)认为 “模型就是产品”[2]:
在 AI 脑暴活动上,我们讨论了 “对 Agent 来说,壳重要还是模型重要”,部分要点如下:
大模型成为流量入口会怎样
3 月,OpenAI CEO 山姆·阿尔特曼(Sam Altman)接受采访时被问 [3]:“五年后,拥有 10 亿日活、无需获客的网站和最先进的模型,什么更有价值?”
他沉吟 2 秒,选择 “10 亿日活用户的网站”。阿尔特曼设想了一个 OpenAI 成为互联网世界入口的未来:用户用 OpenAI 账户,能带着使用额度、定制模型等,自由使用任何集成了 OpenAI 模型 API 的第三方服务。
他说,“这是真正成为一个伟大平台的关键部分。”
OpenAI 的这一平台愿景,已经在其 1 月发布的 Agent 产品 Operator 中初现端倪。Operator 可以搜索网页为用户规划旅行方案、写报告、提供购物建议,与外卖平台 DoorDash、网约车平台 Uber、购物网站 Ebay 等服务打通。
Operator 还没有带来太大冲击,但大模型应用成为流量入口的趋势日益明显。Adobe Analytics 分析了美国电商零售网站超万亿次访问后发现 [4]:
Adobe 还调研 5000 名美国消费者获知:近四成人正在使用大模型辅助购物,过半人计划今年这么做。
许多电商或本地生活应用的核心收入都是站内的推荐广告,比如亚马逊、阿里、京东、拼多多、美团等。如果访问这些网站的是 AI,而不是人,这些广告系统还能起效吗?
今年 2 月的财报会上,亚马逊 CEO 安迪·贾西(Andy Jassy)被问及 “Agent 如何影响公司电商业务”。他给出一个模棱两可的答案:“大多数零售商都会有某种与 Agent 互动的条款,我们也不会有什么不同。”
沃尔玛美国业务的首席技术官哈里·瓦苏德夫(Hari Vasudev)提出了一个应对策略:“开发自己的 Agent 与其他的 Agent 互动,推荐产品或提供更多商品信息。”
AI 脑暴活动中,一位 AI 战略研究人士认为,就算是流量入口发生变化,现有的大厂和在特定场景深耕的公司依然会有优势:
算力投资分歧,英伟达的推理故事
3 月,算力投资的分歧持续,英伟达股价持续波动:月初 10 天下降 13%,随后反弹,然后又跌了下来。
这一波动背后是两个未达成共识的问题:算力消耗从训练大模型转向推理,英伟达的 GPU 还是唯一选择吗?当前算力投资是否饱和?
过去这个月,算力可能饱和甚至过剩的迹象增多:
但一直不愿与英伟达合作的苹果开始采购英伟达芯片,又给市场注入信心。3 月的 GTC 大会上,英伟达 CEO 黄仁勋讲了关于推理的新故事:
“当 B 系列 GPU 开始大量出货时,你甚至无法把 H 系列免费送出去。” 黄仁勋说。他经常用 “买得越多,省得越多” 推销英伟达先进 GPU,现在变成了 “买得越多,赚得越多”。
并非所有任务都需要推理模型解决,且更小的推理模型如 o3 mini、QwQ-32B 同样能实现良好效果。整体算下来,推理模型确实增加 Token 消耗,具体是否会到百倍以上仍有待验证。
AI 脑爆活动上,一位专注 AI 推理的研究者说:
投融资风向:并购交易变多,获得大额融资的 AI 公司聚焦垂直领域
并购活跃,头部公司扩展业务边界
3 月宣布的大额并购交易超过前三月总和,6 起金额超过 1 亿美元的交易公开,另有多起仍在谈判中。
AI 行业正在从 “单一的技术或产品竞争” 向 “生态系统整合” 转变,头部公司积极扩展业务边界,挖掘生态护城河:
同时,英伟达投资支持的 GPU 算力租赁创业公司 CoreWeave 上市,筹集 15 亿美元,此前它计划筹集 40 亿美元。
拿到大额融资的公司变多,聚焦垂直领域
3 月,融资超过 5000 万美元的 AI 公司达 31 家,比上月增加 8 家,投资风向相对稳定。
基础模型方向,头部公司融资惊人:OpenAI 又融资 400 亿美元,累计融资额达到 586 亿美元,最新估值超过 3000 亿美元;Anthropic 又融资 35 亿美元,累计融资额达到 180 亿美元,估值达到 615 亿美元。
国内,智谱先后宣布拿到杭州、珠海、成都等三地国资的投资,总额达 18 亿元,累计融资超百亿人民币,完成公司股份制改革,为上市铺路。
基础设施方向,GPU 算力租赁服务的公司融资潮告一段落,研发 AI 芯片的以色列公司 Retym 和为大公司提供网络解决方案的 Nexthop AI 拿到大额融资。
为 OpenAI、Google 等公司提供编程数据的创业公司 Turing 拿到 1.11 亿美元融资,估值 22 亿美元,其年化收入达到 1.67 亿美元,已经盈利,显示数据标注服务的商业模式正在成熟。
Scale AI 正在推动估值 250 亿美元的老股交易,相比去年 5 月估值提升 80%。Scale AI 正在拓展业务范围,为人形机器人公司提供数据采集服务。
人形机器人创业公司迎来融资高潮,单月出现 7 笔大额融资,创近年新高:
应用方向,大额融资主要流向用大模型技术改造垂直领域的创业公司,分布在编程、医疗健康、企业数据服务、金融防诈、物流运输、药物发现等领域,至少有 18 家。
这些公司多数成立在 ChatGPT 发布之前,已在各自领域中积累稳定客户和数据资源。它们不是给大模型做 “壳”,而是想把大模型与垂直场景连接起来,用 AI 改造原本的流程,挖掘新的增长空间。
许多投资人把这个方向当作创业公司的机会——这些领域需要长期、深入的积累才能有竞争力,潜在收入规模尚未大到吸引巨头入场。多位硅谷的投资人告诉媒体,他们现在被覆盖全行业的 AI 应用创业计划书淹没。
显微镜下的大模型思考轨迹
大模型输出结果看似合理,但内部决策过程不透明,是一个黑盒子。3 月,Anthropic 发布两篇论文,尝试用 “AI 显微镜” 技术追踪模型内部运作机制,研究自研的大模型 Claude 如何识别指令、组织语言、执行推理 [6]。
Claude 具备多语言能力,并不是靠 “法语 Claude”“中文 Claude” 同时上线,而是依赖一个共享的跨语言抽象机制。研究显示,在不同语言中提问 “小的反义词” 时,Claude 激活的是相同的 “小” 与 “相反” 概念,最终生成 “大的” 语义,再翻译成原语言输出。随着模型规模扩大,这种语言间的共享特征也显著增强。这表明模型具备跨语言迁移能力,推理和理解能力可在多领域中应用。
为了写出第二行,大模型必须要满足两个条件:与 “grab it” 押韵、逻辑通顺(为什么要抓胡萝卜)。按照通常的大模型预测下一个词的理解,大模型一边写词一边思考,直到末尾才会选了一个押韵的词。
Claude 在写诗时并非逐字生成到末尾才凑韵,而是提前规划。例如在写与 “grab it” 押韵的第二句前,它会预先检索相关话题词如 “rabbit”,再围绕这个词遣词造句。如果修改其内部状态中表示 “rabbit” 的部分,发现 Claude 会改写成以 “habit” 结尾的句子,仍然通顺押韵;若注入 “green” 概念,结尾则变为 “green”,不押韵但合理。这表明,大模型具备语言规划能力和灵活性,能够根据目标调整生成策略。
Claude 不是专门为计算设计的,训练目标只是预测下一个词,但它能在不一步步书写计算过程的情况下,正确计算如 36+59 的结果。研究发现,Claude 并非靠死记硬背或模拟标准算法,而是用并行路径完成计算:一条估算总和,另一条精确确定末位数字,最终合成答案。Claude 并不 “自知” 这些策略,它解释运算过程时仍引用人类常规算法,表明实际计算与解释机制是分离的。
Claude 3.7 Sonnet 等推理模型能进行较长的 “思维过程” 再输出答案,通常能提升准确性,但有时也会伪造看似合理的推理步骤。比如计算 0.64 的平方根时,Claude 激活了与中间计算步骤对应的特征;但在处理难题,如大型余弦函数时,有时会 “胡诌” 答案,甚至反向写一个合理的思维链。
大语言模型天生会有 “幻觉”,即使不知道答案也必须输出下一个词。Claude 训练中,学会在不确定准确答案时默认拒答,其内部存在一个 “拒答” 回路一直激活,除非识别到熟悉信息,如 “Michael Jordan”,此时 “已知实体” 特征会抑制该回路,模型才会作答。但大模型识别出是一个人名的时候,如 “Michael Batkin” 却不了解相关信息,就可能误激活 “已知” 特征,导致拒答机制失效,从而捏造看似合理却完全虚构的答案。
大模型一旦开始处理句子,就倾向完成语义合理、语法正确的表达,即使这会输出有害内容。一个案例:模型被引导拼出 “BOMB”(通过 “Babies Outlive Mustard Block” 的首字母),从而生成炸弹制作说明。Claude 下意识地拼出 “BOMB” 后继续生成内容,直到完成一个完整句子后,才 “意识” 到问题,切换为拒绝响应。
Anthropic 称,当前的研究方法还有局限:只是处理几句简短的提示词,花数个小时也只能观察到大模型计算过程的一小部分,还不一定真实反映模型在做什么,如果想要分析模型处理长达成千上万个词的思维过程,不仅需要改进方法,可能还要用 AI 帮忙理解 AI。
[1] Anthropic 的 Agent 开发经验 https://www.anthropic.com/engineering/building-effective-agents
[2] 亚历山大·多利亚 “模型就是产品” 博客文章 https://vintagedata.org/blog/posts/model-is-the-product
[3] 阿尔特曼接受本·汤普森访谈 https://stratechery.com/2025/an-interview-with-openai-ceo-sam-altman-about-building-a-consumer-tech-company/
[4] Adobe Analytics 的流量分析报告 https://searchengineland.com/generative-ai-surging-online-shopping-report-453312
[5] 黄仁勋在 GTC 上的发言 https://www.nvidia.com/gtc/keynote/
[6] Anthropic 追踪大模型内部思考过程的研究 https://www.anthropic.com/research/tracing-thoughts-language-model
题图来源:AI 生成。
少妇野外勾搭老头做爰 | 4天前 |
男生被口爽到娇喘视频✅ |
揉我奶头⋯啊⋯嗯 | 0天前 |
夹震蛋上课时突然尿出来了 |
PORNO💋WatHD | 5天前 |
被按摩师玩弄到高潮漫画免费 |
美女大胆做18🈲在线照片 | 7天前 |
杨幂黑色镂空蕾丝连衣裙 |
3D裸体啪啪❌H漫画图 | 9天前 |
7777888888精准管家婆香港生肖 |
白月光被强啪到腿软H视频 | 3天前 |
爱情岛成人🈲️18 |
旅行者和丘丘人繁衍后代 | 6天前 |
GAYspanking男男调教gv |
哈利波特女星照片争议事件 | 2天前 |
男变女被啪H动漫 |
男生洗澡互相掏蛋小说 | 7天前 |
我用🍆擦同桌的🐻 |
女性瘾者145分无删减在线 | 3天前 |
镜被❌到爽🔞挤奶水 |