人人都有 AI,公司为什么还是没学会

13 分钟4,303 字Microboat

AI 摘要

  • AI 最先变便宜的不是智慧,而是中间稿:会议纪要、方案、评审意见、客服回复、分析笔记、代码、看起来像样的答案。
  • 公司不会因为这些东西变多就自动学会。只有昨天的工作改变了明天的工作方式,组织才算真的学到了。
  • 有用的区分是三层:产出、经验、组织记忆。产出是一份文档;经验是这份文档为什么对或错;组织记忆是让别人下次能复用这次经验的 checklist、agent、工作流、测试、规则或决策记录。
  • 真正好的企业 AI 案例,不是"人人都有聊天框",而是被验证过的判断进入了具体工作流:法律核验、支付校验、产品规划、客服分流、代码评审。
  • 风险不在于 AI 不会总结,而在于它太会总结,以至于公司把更多看起来完整的东西误认为学习。

一家公司开始大规模用 AI,最先变多的通常不是好决策,而是中间稿。

需求评审前,多了三版竞品分析。客户电话之后,多了五种纪要。上线之前,多了风险清单、应对清单、用户通知草稿、发布说明草稿和回滚方案。老板傍晚临时问一句,晚饭前就能收到一页看起来挺像样的判断。

刚开始,这很像进步。组织反应变快了。空白页少了。以前要等分析师、产品经理、法务或资深工程师起头的事,现在至少能先摆一版到桌上。

然后过两周。

上次为什么选这个价格?发布方案里哪个假设后来被证伪了?那份风险清单有没有进发布 checklist?客户反复问的那个问题,有没有改进到 onboarding 流程里?那条很有价值的代码评审意见,下一位同事能不能直接复用?

很多公司的答案都不太好听。

活干完了。公司没学会。

这是企业 AI 的第一条真正分水岭。AI 让一次工作更容易完成,但它不会自动让组织更擅长完成下一次类似的工作。

产出不是记忆

要把这个问题想清楚,可以先分开三件经常被混在一起的东西。

产出,是 AI 最擅长变便宜的东西:总结、草稿、方案、PR、表格、回复。

经验,是这个产出碰到现实之后留下来的东西:哪些事实重要,哪个假设错了,评审人卡在哪里,客户还是没看懂什么,线上事故真正教了团队什么。

组织记忆,是被做成可复用形态的经验:checklist、决策记录、测试用例、playbook、工作流、内部 agent、升级规则、数据模型、权限边界。

多数公司正在购买产出。少数公司正在积累经验。真正有纪律的公司,才会把经验变成记忆。

这就是"有 AI 账号的公司"和"能用 AI 学习的公司"之间的差别。

微软 2026 年 Work Trend Index 给了这件事一个名字:公司要变成一个 Learning System。那份报告里最有用的不是关于 agent 的预测,而是那句诊断:很多时候,人已经准备好了,周围的系统还没有。微软还发现,文化、管理者支持、人才实践这些组织因素,对 AI 影响的解释力高于个人行为本身。

说人话就是:键盘前那个人,已经不是完整故事了。他周围那套工作系统,决定了一份更好的草稿会不会变成一家更好的公司。

会议纪要陷阱

从最小的例子看:会议纪要。

现在的 AI 会议总结已经足够好,好到很多团队把它当成水电煤。会一结束,转录变成要点,行动项带上负责人,决策被标出来,风险被摘出来。总结发到群里,大家点个赞。

然后什么结构性的事都没发生。

行动项没有进项目系统。决策没有进决策记录。没谈拢的争议没有带到下次评审。风险没有变成发布 checklist。那句真正解释问题的客户原话,没有进用户研究库。过几天同一群人又坐下来,用更新鲜的措辞重新发现同一个不确定性。

那份纪要有用,但它不是记忆。

会学习的团队,会把总结当原料,而不是成品。会后它会问几个很无聊的问题:

这次会让什么发生了变化?

下一次类似工作,哪个环节应该因此不一样?

有什么东西以后不该再靠人记住?

这些问题重要,是因为 AI 已经让"写下来"变得很便宜。但组织学习从来不是写下来,而是让下一次工作因此变得不一样。

客服 AI 要么是听诊器,要么只是挡板

客服是最容易看出差别的地方。

一个客服 AI 把问题回答得更快,这是自动化。它可能有价值,可能省成本,可能缩短等待时间。但如果事情停在这里,它只是让前线安静了一点。

会学习的组织,把客服当听诊器。

如果一个 AI agent 每天回答一万次同一个账单问题,最有价值的不是第一万次回答,而是底下的模式:哪条政策没讲清楚,哪个页面误导了用户,哪个产品行为制造了困惑,哪篇帮助文档例子不对,哪种账户状态总是在制造本可以避免的工单。

这些信息应该往上走。产品要看到,文档要看到,财务运营要看到,onboarding 流程要变。下一版客服 agent 当然也要带上新答案,但更重要的是,公司修掉了问题来源,而不是模型更擅长礼貌地重复旧解释。

OpenAI 的企业报告里,Lowe's 是一个很具体的例子。Lowe's 部署了面向线上顾客的 Mylow,也把 Mylow Companion 给到门店员工,用来回答产品规格、项目知识和订单状态。真正有意思的,不只是模型每月回答接近一百万个问题,而是原本散落在门店、商品目录和老员工经验里的知识,变成了顾客和新员工都能触到的稳定工作界面。

所以难的问题不是"要不要上 AI 客服"。难的问题是:客户每天都在教公司的东西,公司是不是还把它们埋在已关闭工单里?

代码评审应该变成约束,而不是仪式

软件团队也在经历同一件事。

AI 编码工具让代码更容易被生产出来。这不自动等于好事。团队可能更快地产生 PR,同时更慢地理解系统。评审队列变长,测试缺口变多,同一个架构问题一个月出现第九次。资深工程师又写了一段很耐心的评论,解释为什么这个模块不应该直接调用那个服务。

如果这段评论死在 PR 里,组织就是付了一次学费,却没有买下这堂课。

会学习的工程组织,会寻找重复批评。评审人总在说"这条路径需要幂等键",那就该变成测试 helper、lint 规则、模板或框架边界。线上事故总是因为没设 timeout,那 timeout 策略就该进 client library。AI 生成的迁移脚本总犯同一种危险错误,那就改生成器,并把 review checklist 收紧。

重点不是用规则替代判断。重点是不要永远把人的判断花在同一种可预防错误上。

AI 在这里既可能帮忙,也可能添乱。一个代码助手可以再写一个实现。更好的用法,是让它把昨天的评审变成明天的护栏:生成失败测试,起草 lint 规则,更新内部模板,把架构规则写进仓库指南,并在未来变更里检查它。

这是非常实际的组织学习。公司不只是多合了一个 PR,而是少了一类未来 PR 争论。

法务判断值钱,是因为它被审核过

最干净的企业 AI 案例,往往没有 demo 那么炫。它们边界窄、经过审核,还有点无聊。

BBVA 在墨西哥的法律 chatbot 就是一个好例子。银行在某些交易前,必须确认公司代表是否有签署和代表公司行动的法律权限。过去这件事依赖专业法务团队回答网点反复提出的问题,延迟、瓶颈、稀缺法务资源全都压在一起。BBVA 后来围绕标准化、预先验证过的法律 FAQ 和文档指引,做了一个生成式 AI chatbot;内容由 Legal Services 团队开发和审核。OpenAI 报告称,这个系统每年自动处理 9000 多个查询,并释放了相当于 3 个全职岗位的法务能力。

这里最重要的词不是 chatbot,而是"预先验证"。

法务工作很适合检验一家公司是不是真的理解 AI,因为答错的成本很清楚。没人应该希望模型自由发挥公司代表签字权限。真正有用的是:被审核过的判断,在工作卡住的那个时刻,送到网点。

这个模式可以推广到很多地方。

AI 最适合复用的不是灵感,而是被验证过的判断:

已经确认过的政策。

已经约定好的例外路径。

已经争论过的风险分类。

已经通过法务审核的合同 redline。

在这种形态下,AI 不是聪明实习生,而是组织判断的分发机制。

被否掉的方案,常常才是记忆

产品工作里,还有一个更隐蔽的失败。

AI 让产品团队更擅长生成选项。一个 PM 可以在第二杯咖啡前生成五种定价方案、三套 onboarding 流程、一份竞品图谱、一个发布计划和一张风险表。有些会有用,很多会看起来很合理。

危险在于,合理的选项也让遗忘变便宜。

团队最后选了 A,没有选 B。真正的学习往往不在最后那页 slide,而在 B 为什么输了。也许 B 对激活更好,但会让企业采购更难。也许 B 解决了新用户问题,却让老用户困惑。也许 B 本来很诱人,直到客服数据说明那个所谓边缘场景根本不是边缘场景。

如果这些理由没留下,组织只记得结论。三个月后,新团队又把 B 提一遍,大家重新付一次争论成本。

这也是为什么 AI 时代的决策记录更重要,而不是更不重要。生成便宜以后,合理路径的数量会爆炸。真正稀缺的是:组织记得为什么某些路已经被关上。

一个好的产品 AI 工作流,不应该只帮你起草方案。它还应该保存坟场:

我们考虑过什么?

为什么否掉它?

什么证据出现时可以重开?

如果现在选错,谁拥有这个风险?

这没有一份自动生成的战略文档炫。但六个月后,它更值钱。

一张工作桌上,零散草稿、评审痕迹和可复用 playbook 从左到右逐渐收束,表达一次性产出变成组织记忆。

成熟用法看起来没那么神奇

最好的官方案例,有一种不浪漫的共同点。它们不是把 AI 像雾一样喷满公司,而是描述一个个窄循环。

微软写 BNY 时,提到的是有主管、有凭证、有评审流程、有明确边界的 "digital employees"。其中一个支付校验 agent,只做一件很窄的事:读跨境交易里的供应商地址,调用 mapping API,校验国家代码,再把修正后的支付提交给人复核。边界窄,不是因为技术做不了更多,而是因为银行每天移动巨额资金,AI 路径必须可观察、可审计、可控制。在这种环境里,信任来自约束,不来自大而全的自主性。

OpenAI 写 Moderna 时,讲的是 Target Product Profile 这类工作:团队要处理大型 evidence pack,抽取事实和假设,生成结构化草稿,并把潜在错误标出来给人监督。真正有意思的,也不是 AI 把文档写快了,而是一个原本持续数周、跨多个职能的知识流程,开始变成更可重复的工作流,中间产物也更清楚。

这些都不是科幻故事,而是办公室故事。一个支付字段被校验。一个法律答案送到网点。一个产品 profile 更快吸收证据。一个门店员工用更一致的专业知识回答顾客。

正因为这样,它们才重要。

企业 AI 真正落地,不是另起一个魔法盒子,而是改变普通工作的路径:问题从哪里进来,哪些事实被拉取,谁审核答案,什么被记录,什么变成规则,下一次哪里变好。

更多 AI,也可能意味着更快遗忘

这件事还有一个暗面。

NBER 工作论文 AI, Human Cognition and Knowledge Collapse 建了一个模型,讨论一个日常工作里也能感到的张力:agentic AI 可以提高当下的决策质量,但如果人因此减少了产生共享知识的学习努力,长期集体知识可能被侵蚀。也就是说,更好的个性化建议,可能和更弱的共同理解同时存在。

不用完整读懂模型,也能看到办公室版本。

AI 写了事故复盘,但 runbook 没改,公司遗忘得更快。

AI 起草了产品策略,但被否掉的假设没留下,公司遗忘得更快。

AI 回答了客户,但没人修掉产品里的误导界面,公司遗忘得更快。

AI 写了代码,而人不再注意架构,公司遗忘得更快。

风险不在于机器不会总结。风险在于它总结得太流畅,以至于组织把干净叙事误认为学到了一课。

三个小测试

那怎么判断一家公司是在用 AI 学习,还是只是在用 AI 生产?

别先看账号数。别先看 prompt 数。也别先看大家自报省了多少小时。

看三个小测试就够了。

第一,上次的好答案,别的团队能不能复用?

一个很好的客户回复、法律解释、产品分析、架构评审,如果只活在某一次聊天里,公司没有学到,只是租到了一瞬间。

第二,上次的坏判断,系统会不会提醒?

如果同一个被否掉的假设,每个季度都能换个标题重新出现,公司没有学到。它只是保存了结论,没有保存理由。

第三,上次花人命熬出来的经验,下一次是不是少花一点人命?

一条评审意见出现五次,第六次就应该变成规则、模板、测试、工作流或 agent 行为。不是每条经验都能自动化,但重复出现的经验,应该越来越容易被应用。

这些测试很小。正因为小,才管用。它们把 AI 价值重新拉回公司日常运转的机器里。

公司必须自己记住

AI 不会自动替公司记住什么。模型能生成答案,只有组织能决定这个答案要不要变成工作方式的一部分。

真正做对的公司,不会只是内部 prompt library 很漂亮。它们的工作流会在每次使用后变锋利一点:客服工单变成产品修复,评审意见变成系统约束,会议纪要变成决策,否掉的方案变成可复用上下文,法务判断变成安全的自助入口。

剩下的公司看起来也会很忙。也许比以前更忙。

它们会有更多总结、更多草稿、更多 PR、更多方案、更多内部 agent、更多仪表盘证明大家都在用 AI。

但等下一支团队问起上次为什么这么决定时,它们还是会在聊天记录里搜索。

分界线就在这里。AI 让一次工作更容易完成。学习系统让下一次工作更难被搞砸。


参考文献

  1. Microsoft WorkLab. 2026 Work Trend Index Annual Report: Agents, human agency, and the opportunity for every organization. 2026 年 5 月 5 日. 链接
  2. Microsoft WorkLab. The making of a Frontier Firm: How AI is redesigning work at BNY. 2026 年 5 月 12 日. 链接
  3. OpenAI. The state of enterprise AI. 2025 年 12 月 17 日. 链接
  4. Acemoglu, D., Kong, D., & Ozdaglar, A. AI, Human Cognition and Knowledge Collapse. NBER Working Paper 34910, 2026 年 2 月. 链接

相关文章