最近的研究给了一个很具体的信号
7 月 1 日,三位研究者在 arXiv 发布了关于微软内部 AI Coding Agent 推广的研究,分析了微软在 2026 年初向工程师推广 Claude Code 和 GitHub Copilot CLI 的过程。
这项研究值得企业管理者关注,不只是因为样本来自大型技术公司,更因为它研究的不是员工“怎么看 AI”,而是员工在真实组织环境中到底有没有采用、有没有留下来、有没有带来可观察的产出变化。
研究发现,AI Coding Agent 的首次采用主要通过社会网络扩散。换句话说,一个工程师是否开始使用工具,和身边同事、协作者、同一管理链条中的人是否已经在用,有明显关系。直接主管使用工具,也会提高员工尝试和持续使用的概率。
研究还指出,留存并不主要由人口统计特征决定,而更接近工作本身:原本就有较高编码活动的工程师,更可能持续使用。采用者在研究窗口内合并的 Pull Request 数量约比没有采用时高 24%。研究者也谨慎说明,合并 PR 只是产出的代理指标,并不等同于最终业务价值。
这组结论的价值在于,它把企业 AI 推广从“发通知、做培训、看活跃度”拉回到更真实的组织问题:AI 使用并不是均匀铺开的,它会沿着团队协作关系、任务密度和可见成果传播。
6 月 25 日,另一篇基于 OpenAI Codex 使用数据的研究也提供了类似方向的证据。研究显示,2026 年上半年 Codex 活跃用户增长超过五倍,增长最快的群体已经不局限于早期的软件开发者。在 OpenAI 内部,Codex 使用接近普遍,并在业务使用中很大程度上替代了 ChatGPT。研究还提到,超过 10% 的用户每周会在某个时间点同时管理三个或更多 Codex Agent,26.6% 的用户使用“skills”来共享复杂工作流指令。
这些信号共同说明:当 AI 从聊天工具进入 Agent 和工作流阶段,企业推广的重点会发生变化。过去关注的是“员工会不会问”,现在更重要的是“团队能不能形成可复用的工作方式”。
AI 使用率不等于 AI 采用
很多企业会用账号开通率、登录次数、提问次数、生成字数来评估 AI 项目。这些指标有必要,但它们只能说明工具被触达了,不能说明工具被纳入了工作。
一个员工偶尔用 AI 写邮件,和一个团队把 AI 固化到需求分析、资料检索、方案生成、代码评审、客户回复、财务核对或人力制度查询中,是两种完全不同的状态。
真正的 AI 采用,至少有几个特征:
如果没有这些特征,企业可能会看到一段时间的使用热度,但很难看到稳定的业务改善。
- 它出现在高频工作里,而不是只出现在演示和试用中。
- 它能被同事看见、学习和复用,而不是停留在个人技巧里。
- 它有明确的结果验收方式,而不是只统计调用量。
- 它能留下流程资产,例如模板、操作规约、复核清单、自动化脚本、知识库更新记录。
- 它能随着团队反馈不断调整,而不是一次培训后自然扩散。
为什么“同伴可见性”比统一培训更重要
统一培训可以降低入门门槛,但它通常解决的是最初 10% 的问题:工具在哪里、基本功能是什么、有哪些注意事项。
真正决定员工是否持续使用的,是他能不能在自己每天的工作里看到明确收益。而这种收益,最容易从身边团队中被看见。
一个销售看到同事用 AI 更快整理客户拜访纪要、生成行业背景和下一步跟进计划,会比听一场通用培训更容易理解 AI 的价值。
一个财务人员看到同组同事用 AI 辅助核对异常数据、生成报表说明和风险提示,会更容易判断哪些任务值得尝试。
一个研发团队看到资深工程师把 Agent 用于拆任务、补测试、改文档、排查缺陷,也会更容易形成新的协作标准。
这就是微软研究中“社会网络扩散”对企业的启发:AI 推广不是单点说服,而是组织内部的可见实践扩散。
企业不应只问“培训覆盖了多少人”,还应该问:
- 哪些团队已经产生了稳定的高质量用法?
- 这些用法是否被沉淀成可复用模板或流程?
- 其他团队能否看见真实案例,而不是只看到宣传口号?
- 主管是否亲自使用,并能判断哪些任务适合 AI?
- 高活跃用户是否在帮助团队形成新工作方式,而不是只提高个人效率?
企业推进 AI,应该先找到“高密度工作场景”
AI 落地不适合平均用力。越是想覆盖全员,越容易把项目做成泛泛培训和低质量试用。
更可行的路径,是先找到高密度工作场景:任务重复、信息量大、协作频繁、结果可验收、员工有足够动机改变工作方式。
例如:
这些场景有一个共同点:AI 不只是“帮员工写得快一点”,而是可以减少信息搜集、格式转换、初稿生成、重复检查和跨系统整理的时间。
但前提是企业要把任务边界、数据来源、复核规则和输出标准一起设计好。否则 AI 很容易变成“看起来很忙,但不知道贡献在哪里”的新工具。
- 研发团队的需求拆解、代码评审、测试补全、缺陷分析、文档维护。
- 销售团队的客户研究、拜访准备、方案初稿、竞品对比、跟进纪要。
- 客服团队的工单归类、知识检索、回复建议、升级判断、复盘摘要。
- 财务团队的报表说明、异常核对、经营分析初稿、制度问答。
- 人力团队的政策查询、员工问答、面试纪要、培训材料整理。
- 法务和合规团队的条款比对、风险提示、材料初审、法规变化摘要。
推广 AI 的关键角色,不只是 IT 和培训部门
很多企业把 AI 推广交给 IT、数字化部门或培训部门,这很自然,但不够。
IT 团队可以解决工具、权限、安全、集成和用量管理。培训部门可以解决基础认知和操作方法。但真正决定 AI 能否进入工作流的,通常是业务主管和一线骨干。
业务主管需要回答:本团队哪些工作值得用 AI,哪些结果可以采用,哪些必须复核,哪些指标能证明有效。
一线骨干需要回答:任务怎么拆给 AI,提示和上下文如何准备,结果如何检查,什么样的输出可以给同事复用。
管理层需要回答:AI 带来的时间节省应该流向哪里,是更多客户触达、更快交付、更高质量复核,还是更多创新探索。
如果这些问题没有被回答,企业很容易出现一种表面繁荣:员工用 AI 的次数不少,但每个人都在各自尝试,组织没有获得结构性能力。
衡量 AI 推广,不能只看热度
从管理角度看,企业应把 AI 采用指标分成三层。
第一层是触达指标,包括账号开通率、活跃人数、调用次数、使用频率。这些指标用于判断基础推广是否发生。
第二层是留存指标,包括连续使用率、团队内多角色使用率、高频任务覆盖率、复用模板数量、有效案例数量。这些指标用于判断 AI 是否从尝鲜进入日常。
第三层是业务指标,包括交付周期是否缩短、返工是否减少、客户响应是否更快、销售准备是否更充分、研发吞吐是否提升、知识维护是否更及时、人工复核质量是否改善。
只有三层指标连起来,企业才知道 AI 项目到底是“大家都试过”,还是“团队真的变快、变稳、变清楚”。
微软研究中使用合并 PR 作为产出代理指标,并提醒它不等于最终价值,这一点对企业尤其重要。企业不能为了让指标好看而只追求产出数量。AI 项目的最终价值,必须回到业务结果、质量和风险控制。
对正在推进 AI 落地的企业,建议先做五件事
第一,选择 3 到 5 个高密度场景,而不是一开始全员平均铺开。
优先选择任务频繁、员工痛点明确、结果容易验收、数据权限相对清楚的场景。小范围做深,比大范围做浅更容易形成可复制经验。
第二,找到团队里的真实示范者。
示范者不一定是最会讲 AI 的人,而是能把 AI 用进真实任务、能解释判断过程、能把经验沉淀给同事的人。企业应该让这些用法可见,而不是只依赖统一培训材料。
第三,把优秀用法沉淀成流程资产。
好的 prompt 只是起点。更有价值的是任务模板、资料清单、复核规则、异常处理方式、输出样例和适用边界。只有沉淀成资产,AI 能力才不会停留在个人手里。
第四,让主管成为使用者,而不是旁观者。
主管不需要成为技术专家,但必须知道 AI 在本团队能做什么、不能做什么、风险在哪里、成果如何验收。主管自己不使用,团队很难把 AI 当成正式工作方式。
第五,把节省下来的时间重新分配。
如果 AI 只是让员工更快完成原来的任务,而企业没有安排更高价值的后续工作,效率提升很容易被日常琐事吞掉。企业需要明确:节省的时间用于更多客户触达、更多质量检查、更快响应,还是更多产品和流程改进。
一个现实判断
企业 AI 落地的下一阶段,不会只属于工具更多的公司,而会属于更懂组织扩散的公司。
AI 工具本身正在变得越来越强,但企业内部的采用依然不均衡。有人快速进入 Agent 工作流,有人停留在偶尔问答;有些团队形成可复用方法,有些团队只留下零散尝试;有些企业能把 AI 用量转化为业务指标,有些企业只能看到热度曲线。
这背后的差别,不只是模型能力,而是组织设计。
真正成熟的企业 AI 推广,不是把账号发给所有人之后等待自然发生,而是从高密度场景切入,让真实示范者带动团队,把有效用法沉淀为流程资产,再用留存和业务结果验证价值。
当 AI 的好用法能在组织里被看见、被学习、被复用、被衡量,企业才算真正走过了从“买工具”到“建能力”的关键一步。