OpenAI平台工程负责人揭秘:AI如何重塑工程师的工作?

3 分钟阅读

OpenAI平台工程负责人揭秘:AI如何重塑工程师的工作?

嘉宾:Sherwin Woo|OpenAI API与开发者平台工程负责人|领域:AI产品与未来趋势


背景与引子

2024年的某一天,Sherwin Woo——OpenAI API与开发者平台工程负责人——在内部数据中发现了一个让他自己都感到惊讶的数字:使用Codex的工程师比不使用Codex的工程师多提交了70%的代码PR。而且,这个差距还在持续扩大。

这不是一个关于效率提升的故事。这是一个关于职业彻底重塑的故事。

当全球的AI从业者还在讨论”AI会不会取代程序员”时,OpenAI内部的工程师已经率先完成了这场转变:从亲手敲每一行代码,到变成”管理AI agent舰队的指挥官”。他们不再写代码,他们念咒语——用自然语言下达指令,让AI去执行、去审查、去部署。

这场转变有多深刻?Sherwin在采访中说了一句几乎让人倒吸一口凉气的话:

“95%的工程师日常使用Codex。100%的PR由Codex审查。Kevin Whale(OpenAI VP of Science)有句口头禅——‘这是模型有史以来最差的一天。’

当你听到这句话时,你才会意识到:我们正在见证的,不是一次技术升级,而是一场职业地震。而这场地震的余波,才刚刚开始向整个行业蔓延。


一、嘉宾是谁

Sherwin Woo,OpenAI API与开发者平台工程负责人。他领导着全球最大AI API平台的工程团队——这个平台支撑着几乎所有主流AI应用的底层能力,全球超过800万周活用户直接或间接依赖这套API。

但Sherwin的职业路径本身就很有意思。在加入OpenAI之前,他在OpenDoor(一家房地产科技公司)领导定价模型团队——用机器学习预测”这套房子应该出多少钱”。从房地产定价到AI基础设施,这个转身本身就说明了一个趋势:最聪明的工程师正在向AI领域聚拢。

在OpenAI,他既是平台的建设者,也是平台的最大用户。凭借这种独特视角,他比几乎任何人都更清楚:AI正在如何改变工程师的工作?企业在部署AI时踩了什么坑?未来12到24个月,AI的能力会走到哪里?


二、核心观点TOP10

1. AI已经在OpenAI内部”全票通过” 95%的工程师日常使用Codex,100%的代码PR由AI审查。使用AI的工程师提交代码的频率比不使用者高出70%,且这个差距还在持续扩大。

2. 工程师的角色正在从”代码写作者”变成”agent舰队管理者” IC(个人贡献者)正在变成tech lead。工程师同时管理10到20个并行的AI线程,下达指令、审核结果、纠正方向——但不再亲手写代码。

3. “巫师与咒语”的比喻正在成为现实 SICP(《计算机程序的构造与解释》)1980年就预言了编程是”巫师施法”。今天,工程师真的成了巫师:他们用自然语言”念咒”,AI完成具体执行。

4. “Sorcerer’s Apprentice困境”是真实存在的风险 Mickey给扫帚下命令后去睡觉,结果扫帚失控、发大水。今天的AI agent也一样:功能强大到可以失控,需要资深工程师持续”掌舵”。

5. Agent不工作的根因通常是”上下文不足” 当agent无法完成任务时,90%的情况是因为没有给足信息。解决方案不是换工具,而是把更多”隐性知识”编码进代码库——注释、文档、技能文件。

6. 管理者的核心任务变成了”赋能顶尖人才” AI放大了个体之间的差距。顶级工程师用上AI工具后生产力飞升。管理者的最优策略:把超过50%的时间花在top 10%的员工身上。

7. 单人10亿美元公司会催生”B2B SaaS黄金时代” 一个人可以创造10亿美元的公司 → 这意味着创建公司的门槛大幅降低 → 大量小而美的垂直SaaS工具将涌现。未来的创业生态可能是:1个独角兽 + 100个百万级小公司。

8. “别问顾客要什么”是AI时代的产品法则 顾客会说要”更好的向量数据库”、“更好的agent框架”——但模型正在”吞噬”这些基础设施。正确的策略是:为模型即将到达的能力而建,而不是为今天的能力而建。

9. 商业流程自动化是”被严重低估的机会” 硅谷的注意力都在软件工程师身上,但全球经济的大部分工作其实是”有标准操作流程的重复性业务”。这才是AI落地的真正蓝海。

10. 未来2到3年是”一生一次”的技术窗口期 Sherwin说:“我2014年入行,前面几年很平淡。但过去三年是我职业生涯最兴奋的时刻。接下来的2到3年会更精彩。不要错过。“


三、关键洞察

洞察一:代码正在”AI原住民化”,但审查正在成为新的瓶颈

当Codex可以生成几乎所有代码时,问题的核心转移到了”谁来确保这些代码是对的?”。

OpenAI内部的答案是:让Codex审查Codex。100%的PR都由AI先行审查,52模型尤其擅长代码审查——它可以从”10到15分钟的审查工作”压缩到”2到3分钟”。对于小型PR,甚至可以完全信任AI的审查结果,不再需要人工复核。

洞察二:“移除逃生通道”才能暴露真正的问题

OpenAI内部有一个团队正在进行一项极端实验:完全依赖Codex维护一个完整的代码库——没有”自己动手”的退路。这个团队遇到的挑战揭示了一个关键真相:如果真的要让AI接管工作,你需要把更多”脑子里知道但没写出来”的知识显性化、工程化。

这不是工具的问题,而是知识管理的问题。

洞察三:“Bitter Lesson正在AI开发领域重演”

AI行业有一个著名的”Bitter Lesson”(苦涩的教训):不要在ML系统中加入太多人工归纳偏置,让模型自己学。

Sherwin发现,AI开发也正在上演同样的故事:2022年大家拼命搭”向量数据库+RAG”来增强模型效果,但随着模型能力提升,很多这类”脚手架”正在变得不再必要。模型自己就能完成检索,工具链正在被”吃掉”。

洞察四:AI部署失败的核心原因不是技术,而是组织

Sherwin透露了一个很多人不愿承认的事实:大量企业的AI部署ROI为负。根本原因?不是技术不行,而是缺乏bottom-up的采纳动力。

成功的AI部署需要两个条件:Top-down的支持(公司愿意投入资源)+ Bottom-up的拥趸(真正热爱技术的员工愿意探索、分享、 evangelize)。缺少任何一个,都会变成”员工被告知要使用AI,但没人教他们怎么用、为什么用”。

洞察五:管理者可以利用AI”预见”团队阻塞点

Sherwin在访谈中提到了一个他自己都没意识到的洞察:用ChatGPT连接公司内部知识(Notion、Slack、GitHub),询问”我的团队当前有哪些活跃的阻塞点?”

这是一个AI原生时代的管理工具——用AI来预测谁将被阻塞、什么时候会被阻塞、提前准备好”手术刀”。


四、精彩金句

“这是模型有史以来最差的一天。” —— Kevin Whale(OpenAI VP of Science)

解读: 这句话的意思是:模型每天都在变得更好。今天的模型永远是最差的。这是理解AI发展速度的最佳隐喻。

“感觉我们真的成了巫师。我们正在施展咒语,而这些咒语会出去帮我们完成任务。”

解读: 这不是比喻。工程师的真实工作已经变成了”描述你想要什么”,而不是”一行一行写出代码”。编程语言是咒语,AI是执行咒语的魔法。

“模型会吞噬你的脚手架。”

解读: 来自金融科技创始人Nicholas的一句话。今天你认为必备的agent框架、向量数据库、检索系统,可能在18个月后被模型能力完全取代。建在脚手架上的产品,最终会随脚手架一起崩塌。

“不要为模型今天的能力建产品,要为模型即将到达的能力建产品。”

解读: 正确的策略是:找到一个今天只有80%可行、但模型能力提升后可以完美实现的使用场景,然后等待。一旦模型能力跨越阈值,你的产品会瞬间从”勉强能用”变成”惊艳全场”。


五、实战案例

案例一:100% AI生成的代码库实验

OpenAI内部有一个团队正在进行一项极端实验:完全使用Codex维护一个完整的代码库,任何情况下都不”手动介入”。

他们遇到了真实的挑战:agent无法完成某些任务时,团队没有”自己来”的逃生通道。解决方法不是换工具,而是重新审视”上下文”:是信息不够吗?是否需要更多文档?是否需要把更多隐性知识编码进代码库?

这个实验正在产出大量有价值的”最佳实践”,团队计划发布一篇博客分享这些发现。核心教训:让AI接管工作的前提,是让知识变得可被AI访问。

案例二:ChatGPT做”员工绩效报告”

Sherwin在访谈中透露,OpenAI正在进行绩效评审。他用ChatGPT连接GitHub、Notion、Google Docs,让AI生成一份”员工过去12个月贡献的深度研究报告”。

过程极其简单:把内部知识库接入LLM,给它一个指令,等待结果。AI可以快速整合一个人在多个系统中的行为数据,生成一份结构化的评估报告。这是AI赋能管理者的一个实际案例。

案例三:代码审查的”AI化”

OpenAI内部已经实现了:所有代码PR先由Codex审查,再由人类检查。Codex的审查从10-15分钟压缩到2-3分钟,且质量相当。

对于小型PR,甚至完全跳过了人工审查——因为Codex作为”第二双眼睛”已经足够可靠。这不是偷懒,而是把人类注意力重新分配到真正需要判断力的地方。


六、行动建议

建议一:现在就去用Codex,不是”学好了再用”

为什么要做:AI工具的使用存在学习曲线,但”用得越多、效率越高”的关系是非线性的。那些已经深度使用AI的工程师,与不使用的工程师之间,差距正在以肉眼可见的速度扩大。

如何开始:安装Codex(或Cursor、GitHub Copilot),把一个日常任务完全交给AI处理。不要中途接管,观察AI在哪些地方出错、哪些地方超出预期。记录下来,形成自己的”与AI协作最佳实践”。

预期结果:你会发现自己的代码产出速度提升30%到50%——且这个数字会随着工具能力的提升持续增长。

建议二:把”隐性知识”编码进你的代码库

为什么要做:当AI agent无法完成你的任务时,90%的原因是”上下文不足”。模型不知道你的代码结构、业务逻辑、团队的编码习惯。

如何开始:在每个代码仓库中添加SKILLS.md、CONTEXT.md等文档文件。把团队的编码规范、业务背景、常见陷阱写进去。在每次遇到agent失败时,问自己:“我需要给模型什么额外信息?“然后把这些信息写进文档。

预期结果:Agent的工作成功率显著提升。长期来看,这会变成团队的”知识资产”——新人入职时也能快速上手。

建议三:找到你的”AI原住民”,让他们成为内部布道者

为什么要做:自上而下的AI部署往往失败,因为员工不知道如何落地、为什么落地。需要bottom-up的”病毒式传播”。

如何开始:在你的团队或公司中找到那个”最兴奋于AI工具”的人(通常不是最资深的工程师,而是技术能力强且好奇心旺盛的人)。给他们足够的时间去探索,然后让他们负责分享最佳实践、组织黑客松、写内部文档。

预期结果:你会得到一批”种子用户”,他们会用自己的热情和成果感染周围的人,AI adoption从”被迫使用”变成”主动探索”。

建议四:用AI辅助管理工作,而非仅用于技术任务

为什么要做:管理者面临的挑战是”知道团队每个人的阻塞点”。AI可以帮你整合来自Slack、GitHub、文档系统的信息,生成”团队状态报告”。

如何开始:尝试用ChatGPT(接入内部知识库)问这个问题:“我的团队当前有哪些活跃的阻塞点?我能做什么来帮助他们?“记录AI给出的答案,与实际情况对照,验证AI在这方面的可靠性。

预期结果:你获得了一个”团队状态雷达”,可以更早发现问题、更精准地分配管理注意力。

建议五:为模型未来的能力建产品,而非为今天的能力

为什么要做:今天你认为必要的”脚手架”(向量数据库、RAG系统、agent框架)可能在12到18个月内变得不再必要。但如果你为一个”模型能力阈值”设计产品,一旦模型跨越这个阈值,你的用户体验会从”勉强能用”变成”惊艳全场”。

如何开始:选择一个你相信12到18个月内模型能够完美支持的场景(哪怕今天只有80%可行)。开始构建产品原型,但不要过度投入在”今天的限制”上。持续观察模型能力的进展,估算”跨越阈值”的时间点。

预期结果:当竞争对手还在为”今天的能力”优化时,你会提前准备好一个”等待爆发”的产品。模型能力每提升一步,你的竞争优势就扩大一分。


七、我的总结

Sherwin Woo的这场访谈,揭示了一个正在发生但尚未被广泛理解的趋势:AI对工程师工作的改变,不是”增强”而是”重构”。

从亲手写每一行代码,到管理10到20个并行的AI agent;从逐行Review代码,到让AI先审、AI再审;从”跟客户要需求”,到”为模型即将到达的能力建产品”——工程师的整个工作范式正在被重写。

而更深层的洞察是:这场重写不只在技术层面发生,也在组织层面、商业模式层面发生。单人10亿美元公司的出现,将催生大量垂直SaaS工具;大量企业的AI部署失败,根源不在技术而在组织;而管理者如果能把AI变成自己的”团队状态雷达”,将获得前所未有的管理杠杆。

最后,Sherwin的那句话值得每个身处这个时代的人反复品味:

“未来的2到3年,将是技术领域最激动人心的时刻。不要错过。”

这不是一句客套话。这是一个身处AI浪潮中心的人,基于亲身经历给出的判断。而他的数字——95%的Codex使用率、70%的PR增长差距、100%的AI代码审查——已经证明了这不是预测,而是正在发生的事情。


关于作者

Lenny Rachitsky,Product Podcast主持人,专注于产品管理与AI趋势的深度对话。

本文参考来源

Lenny’s Podcast,Episode featuring Sherwin Woo, Head of Platform Engineering at OpenAI


📺 播客信息

  • 发布时间:2026-02-12
  • 时长:1小时19分钟40秒
  • 播放量:79095 次观看
  • 原版视频:『YouTube