OpenAI平台工程负责人揭秘：AI如何重塑工程师的工作？

嘉宾：Sherwin Woo｜OpenAI API与开发者平台工程负责人｜领域：AI产品与未来趋势

背景与引子

2024年的某一天，Sherwin Woo——OpenAI API与开发者平台工程负责人——在内部数据中发现了一个让他自己都感到惊讶的数字：使用Codex的工程师比不使用Codex的工程师多提交了70%的代码PR。而且，这个差距还在持续扩大。

这不是一个关于效率提升的故事。这是一个关于职业彻底重塑的故事。

当全球的AI从业者还在讨论”AI会不会取代程序员”时，OpenAI内部的工程师已经率先完成了这场转变：从亲手敲每一行代码，到变成”管理AI agent舰队的指挥官”。他们不再写代码，他们念咒语——用自然语言下达指令，让AI去执行、去审查、去部署。

这场转变有多深刻？Sherwin在采访中说了一句几乎让人倒吸一口凉气的话：

“95%的工程师日常使用Codex。100%的PR由Codex审查。Kevin Whale（OpenAI VP of Science）有句口头禅——‘这是模型有史以来最差的一天。’”

当你听到这句话时，你才会意识到：我们正在见证的，不是一次技术升级，而是一场职业地震。而这场地震的余波，才刚刚开始向整个行业蔓延。

一、嘉宾是谁

Sherwin Woo，OpenAI API与开发者平台工程负责人。他领导着全球最大AI API平台的工程团队——这个平台支撑着几乎所有主流AI应用的底层能力，全球超过800万周活用户直接或间接依赖这套API。

但Sherwin的职业路径本身就很有意思。在加入OpenAI之前，他在OpenDoor（一家房地产科技公司）领导定价模型团队——用机器学习预测”这套房子应该出多少钱”。从房地产定价到AI基础设施，这个转身本身就说明了一个趋势：最聪明的工程师正在向AI领域聚拢。

在OpenAI，他既是平台的建设者，也是平台的最大用户。凭借这种独特视角，他比几乎任何人都更清楚：AI正在如何改变工程师的工作？企业在部署AI时踩了什么坑？未来12到24个月，AI的能力会走到哪里？

二、核心观点TOP10

1. AI已经在OpenAI内部”全票通过” 95%的工程师日常使用Codex，100%的代码PR由AI审查。使用AI的工程师提交代码的频率比不使用者高出70%，且这个差距还在持续扩大。

2. 工程师的角色正在从”代码写作者”变成”agent舰队管理者” IC（个人贡献者）正在变成tech lead。工程师同时管理10到20个并行的AI线程，下达指令、审核结果、纠正方向——但不再亲手写代码。

3. “巫师与咒语”的比喻正在成为现实 SICP（《计算机程序的构造与解释》）1980年就预言了编程是”巫师施法”。今天，工程师真的成了巫师：他们用自然语言”念咒”，AI完成具体执行。

4. “Sorcerer’s Apprentice困境”是真实存在的风险 Mickey给扫帚下命令后去睡觉，结果扫帚失控、发大水。今天的AI agent也一样：功能强大到可以失控，需要资深工程师持续”掌舵”。

5. Agent不工作的根因通常是”上下文不足” 当agent无法完成任务时，90%的情况是因为没有给足信息。解决方案不是换工具，而是把更多”隐性知识”编码进代码库——注释、文档、技能文件。

6. 管理者的核心任务变成了”赋能顶尖人才” AI放大了个体之间的差距。顶级工程师用上AI工具后生产力飞升。管理者的最优策略：把超过50%的时间花在top 10%的员工身上。

7. 单人10亿美元公司会催生”B2B SaaS黄金时代” 一个人可以创造10亿美元的公司 → 这意味着创建公司的门槛大幅降低 → 大量小而美的垂直SaaS工具将涌现。未来的创业生态可能是：1个独角兽 + 100个百万级小公司。

8. “别问顾客要什么”是AI时代的产品法则 顾客会说要”更好的向量数据库”、“更好的agent框架”——但模型正在”吞噬”这些基础设施。正确的策略是：为模型即将到达的能力而建，而不是为今天的能力而建。

9. 商业流程自动化是”被严重低估的机会” 硅谷的注意力都在软件工程师身上，但全球经济的大部分工作其实是”有标准操作流程的重复性业务”。这才是AI落地的真正蓝海。

10. 未来2到3年是”一生一次”的技术窗口期 Sherwin说：“我2014年入行，前面几年很平淡。但过去三年是我职业生涯最兴奋的时刻。接下来的2到3年会更精彩。不要错过。“

三、关键洞察

洞察一：代码正在”AI原住民化”，但审查正在成为新的瓶颈

当Codex可以生成几乎所有代码时，问题的核心转移到了”谁来确保这些代码是对的？”。

OpenAI内部的答案是：让Codex审查Codex。100%的PR都由AI先行审查，52模型尤其擅长代码审查——它可以从”10到15分钟的审查工作”压缩到”2到3分钟”。对于小型PR，甚至可以完全信任AI的审查结果，不再需要人工复核。

洞察二：“移除逃生通道”才能暴露真正的问题

OpenAI内部有一个团队正在进行一项极端实验：完全依赖Codex维护一个完整的代码库——没有”自己动手”的退路。这个团队遇到的挑战揭示了一个关键真相：如果真的要让AI接管工作，你需要把更多”脑子里知道但没写出来”的知识显性化、工程化。

这不是工具的问题，而是知识管理的问题。

洞察三：“Bitter Lesson正在AI开发领域重演”

AI行业有一个著名的”Bitter Lesson”（苦涩的教训）：不要在ML系统中加入太多人工归纳偏置，让模型自己学。

Sherwin发现，AI开发也正在上演同样的故事：2022年大家拼命搭”向量数据库+RAG”来增强模型效果，但随着模型能力提升，很多这类”脚手架”正在变得不再必要。模型自己就能完成检索，工具链正在被”吃掉”。

洞察四：AI部署失败的核心原因不是技术，而是组织

Sherwin透露了一个很多人不愿承认的事实：大量企业的AI部署ROI为负。根本原因？不是技术不行，而是缺乏bottom-up的采纳动力。

成功的AI部署需要两个条件：Top-down的支持（公司愿意投入资源）+ Bottom-up的拥趸（真正热爱技术的员工愿意探索、分享、 evangelize）。缺少任何一个，都会变成”员工被告知要使用AI，但没人教他们怎么用、为什么用”。

洞察五：管理者可以利用AI”预见”团队阻塞点

Sherwin在访谈中提到了一个他自己都没意识到的洞察：用ChatGPT连接公司内部知识（Notion、Slack、GitHub），询问”我的团队当前有哪些活跃的阻塞点？”

这是一个AI原生时代的管理工具——用AI来预测谁将被阻塞、什么时候会被阻塞、提前准备好”手术刀”。

四、精彩金句

“这是模型有史以来最差的一天。” —— Kevin Whale（OpenAI VP of Science）

解读： 这句话的意思是：模型每天都在变得更好。今天的模型永远是最差的。这是理解AI发展速度的最佳隐喻。

“感觉我们真的成了巫师。我们正在施展咒语，而这些咒语会出去帮我们完成任务。”

解读： 这不是比喻。工程师的真实工作已经变成了”描述你想要什么”，而不是”一行一行写出代码”。编程语言是咒语，AI是执行咒语的魔法。

“模型会吞噬你的脚手架。”

解读： 来自金融科技创始人Nicholas的一句话。今天你认为必备的agent框架、向量数据库、检索系统，可能在18个月后被模型能力完全取代。建在脚手架上的产品，最终会随脚手架一起崩塌。

“不要为模型今天的能力建产品，要为模型即将到达的能力建产品。”

解读： 正确的策略是：找到一个今天只有80%可行、但模型能力提升后可以完美实现的使用场景，然后等待。一旦模型能力跨越阈值，你的产品会瞬间从”勉强能用”变成”惊艳全场”。

五、实战案例

案例一：100% AI生成的代码库实验

OpenAI内部有一个团队正在进行一项极端实验：完全使用Codex维护一个完整的代码库，任何情况下都不”手动介入”。

他们遇到了真实的挑战：agent无法完成某些任务时，团队没有”自己来”的逃生通道。解决方法不是换工具，而是重新审视”上下文”：是信息不够吗？是否需要更多文档？是否需要把更多隐性知识编码进代码库？

这个实验正在产出大量有价值的”最佳实践”，团队计划发布一篇博客分享这些发现。核心教训：让AI接管工作的前提，是让知识变得可被AI访问。

案例二：ChatGPT做”员工绩效报告”

Sherwin在访谈中透露，OpenAI正在进行绩效评审。他用ChatGPT连接GitHub、Notion、Google Docs，让AI生成一份”员工过去12个月贡献的深度研究报告”。

过程极其简单：把内部知识库接入LLM，给它一个指令，等待结果。AI可以快速整合一个人在多个系统中的行为数据，生成一份结构化的评估报告。这是AI赋能管理者的一个实际案例。

案例三：代码审查的”AI化”

OpenAI内部已经实现了：所有代码PR先由Codex审查，再由人类检查。Codex的审查从10-15分钟压缩到2-3分钟，且质量相当。

对于小型PR，甚至完全跳过了人工审查——因为Codex作为”第二双眼睛”已经足够可靠。这不是偷懒，而是把人类注意力重新分配到真正需要判断力的地方。

六、行动建议

建议一：现在就去用Codex，不是”学好了再用”

为什么要做：AI工具的使用存在学习曲线，但”用得越多、效率越高”的关系是非线性的。那些已经深度使用AI的工程师，与不使用的工程师之间，差距正在以肉眼可见的速度扩大。

如何开始：安装Codex（或Cursor、GitHub Copilot），把一个日常任务完全交给AI处理。不要中途接管，观察AI在哪些地方出错、哪些地方超出预期。记录下来，形成自己的”与AI协作最佳实践”。

预期结果：你会发现自己的代码产出速度提升30%到50%——且这个数字会随着工具能力的提升持续增长。

建议二：把”隐性知识”编码进你的代码库

为什么要做：当AI agent无法完成你的任务时，90%的原因是”上下文不足”。模型不知道你的代码结构、业务逻辑、团队的编码习惯。

如何开始：在每个代码仓库中添加SKILLS.md、CONTEXT.md等文档文件。把团队的编码规范、业务背景、常见陷阱写进去。在每次遇到agent失败时，问自己：“我需要给模型什么额外信息？“然后把这些信息写进文档。

预期结果：Agent的工作成功率显著提升。长期来看，这会变成团队的”知识资产”——新人入职时也能快速上手。

建议三：找到你的”AI原住民”，让他们成为内部布道者

为什么要做：自上而下的AI部署往往失败，因为员工不知道如何落地、为什么落地。需要bottom-up的”病毒式传播”。

如何开始：在你的团队或公司中找到那个”最兴奋于AI工具”的人（通常不是最资深的工程师，而是技术能力强且好奇心旺盛的人）。给他们足够的时间去探索，然后让他们负责分享最佳实践、组织黑客松、写内部文档。

预期结果：你会得到一批”种子用户”，他们会用自己的热情和成果感染周围的人，AI adoption从”被迫使用”变成”主动探索”。

建议四：用AI辅助管理工作，而非仅用于技术任务

为什么要做：管理者面临的挑战是”知道团队每个人的阻塞点”。AI可以帮你整合来自Slack、GitHub、文档系统的信息，生成”团队状态报告”。

如何开始：尝试用ChatGPT（接入内部知识库）问这个问题：“我的团队当前有哪些活跃的阻塞点？我能做什么来帮助他们？“记录AI给出的答案，与实际情况对照，验证AI在这方面的可靠性。

预期结果：你获得了一个”团队状态雷达”，可以更早发现问题、更精准地分配管理注意力。

建议五：为模型未来的能力建产品，而非为今天的能力

为什么要做：今天你认为必要的”脚手架”（向量数据库、RAG系统、agent框架）可能在12到18个月内变得不再必要。但如果你为一个”模型能力阈值”设计产品，一旦模型跨越这个阈值，你的用户体验会从”勉强能用”变成”惊艳全场”。

如何开始：选择一个你相信12到18个月内模型能够完美支持的场景（哪怕今天只有80%可行）。开始构建产品原型，但不要过度投入在”今天的限制”上。持续观察模型能力的进展，估算”跨越阈值”的时间点。

预期结果：当竞争对手还在为”今天的能力”优化时，你会提前准备好一个”等待爆发”的产品。模型能力每提升一步，你的竞争优势就扩大一分。

七、我的总结

Sherwin Woo的这场访谈，揭示了一个正在发生但尚未被广泛理解的趋势：AI对工程师工作的改变，不是”增强”而是”重构”。

从亲手写每一行代码，到管理10到20个并行的AI agent；从逐行Review代码，到让AI先审、AI再审；从”跟客户要需求”，到”为模型即将到达的能力建产品”——工程师的整个工作范式正在被重写。

而更深层的洞察是：这场重写不只在技术层面发生，也在组织层面、商业模式层面发生。单人10亿美元公司的出现，将催生大量垂直SaaS工具；大量企业的AI部署失败，根源不在技术而在组织；而管理者如果能把AI变成自己的”团队状态雷达”，将获得前所未有的管理杠杆。

最后，Sherwin的那句话值得每个身处这个时代的人反复品味：

“未来的2到3年，将是技术领域最激动人心的时刻。不要错过。”

这不是一句客套话。这是一个身处AI浪潮中心的人，基于亲身经历给出的判断。而他的数字——95%的Codex使用率、70%的PR增长差距、100%的AI代码审查——已经证明了这不是预测，而是正在发生的事情。

关于作者

Lenny Rachitsky，Product Podcast主持人，专注于产品管理与AI趋势的深度对话。

本文参考来源

Lenny’s Podcast，Episode featuring Sherwin Woo, Head of Platform Engineering at OpenAI

📺 播客信息

发布时间：2026-02-12
时长：1小时19分钟40秒
播放量：79095 次观看
原版视频：『YouTube』