OpenAI研究员Karina：为什么软技能才是未来的核心竞争力

嘉宾：Karina ｜ OpenAI研究员 & 领先产品负责人｜领域：AI产品与未来趋势

背景与引子

2025年开年，OpenAI宣布了Stargate项目——5000亿美元AI基础设施投资。与此同时，ChatGPT已渗透到全球超过90%知识工作者的日常工作中，成为比Gmail、Slack更频繁使用的工具。这一切，不过发生在两年之内。

但真正令人好奇的不是AI有多强大，而是那些站在AI最前沿的人，他们每天在做什么、想什么、如何工作。

Karina就是其中之一。她曾是Anthropic的研究员，亲手打造过Claude与Slack的集成功能、100K上下文窗口等令人印象深刻的产品。现在她是OpenAI的前沿产品研究团队负责人，主导了Canvas、Tasks等突破性功能的研发工作。

最近一次深度对话中，Karina分享了AI模型如何被真正创造出来、哪些技能正在变得最具价值，以及她对工作未来的真实判断。信息密度极高，干货满满。

一、嘉宾是谁

Karina的履历本身就是一部AI行业的进化史。

在Anthropic期间，她领导了Claude 3模型的后训练与评估工作，打造了100K上下文窗口的文件上传功能——让Claude能够阅读整本书、整份财务报告后给出精准回答。她还负责了Claude与Slack的企业级集成，这个功能后来成为AI辅助办公的经典范式。

加入OpenAI约8个月后，她迅速组建了一支跨职能团队，成员包括应用工程师、设计师、产品经理和研究员，共同催生了Canvas和Tasks两个重要产品。Canvas让ChatGPT从聊天机器人进化为真正的协作写作与编程伙伴；Tasks则将AI从一个被动回答问题的工具，变成能够主动规划、定期执行任务的智能助手。

她的独特之处在于：既懂产品，又懂模型训练；既参与过创业公司早期的敏捷探索，也在万人规模的科技巨头中管理团队。这种跨界视角，让她对“AI时代需要什么样的人”这个问题，有着远比常人深刻的洞察。

二、核心观点TOP10

模型训练是一门艺术，而不是纯粹的科学。调试模型的方式与调试软件非常相似，需要大量的直觉和经验。
数据质量是模型训练最关键的因素之一。给模型提供矛盾的训练数据（比如既告诉它“你没有物理身体”，又让它执行需要身体的操作），它会陷入极度混乱。
数据墙是个伪命题。真正的瓶颈在于评估体系——我们还没有足够精确的方式来衡量模型是否真的变得更聪明。
合成数据将成为模型迭代的核心驱动力。用模型生成的数据来训练下一代模型，能够实现快速、可控的迭代循环。
评估（Evals）是产品开发的新基础设施。从“写PRD”进化到“写清楚什么是正确的样子”，这将是产品团队最重要的新技能。
小模型正在变得既聪明又便宜。蒸馏技术的突破让小模型的性能快速逼近大模型，成本却在急剧下降。
推理成本正在断崖式下降。同样的智能水平，几年后的成本可能是现在的百分之一。
软技能将成为最稀缺的职场能力。创意、沟通、同理心、优先级判断——这些正是AI最难学会的东西。
产品开发的核心将从“写代码”转向“定义什么是好的”。AI负责执行，人的价值在于判断。
AI取代的不是你的工作，而是工作中的重复性部分。最有创造力的人会借助AI完成前所未有的事情。

三、关键洞察

洞察1：AI的物理身体困惑——一个被忽视的训练难题

当训练数据既告诉模型“你没有物理身体”，又告诉它“去设置一个闹钟”时，模型会产生认知混乱，导致它过度拒绝用户请求，或者在不该犹豫的时候犹豫不决。这种看似荒诞的问题，实际上揭示了模型训练中最核心的挑战之一：如何在互相矛盾的信号中找到平衡，让模型既保持安全，又足够有帮助。

洞察2：合成数据不只是“模型自己生成自己”，而是一套精密的艺术

Canvas的三个核心行为——何时触发、如何编辑、如何评论——全部通过合成数据训练完成。具体来说，团队会先用o1模型模拟各种用户场景（比如“写一篇关于XYZ的文档”），然后注入不同的后续指令（“给这篇文章提点意见”），让目标模型学习在这些场景下应该如何表现。每一次训练迭代，都是对“正确行为”的重新定义和测量。

洞察3：评估体系是AI产品开发的隐形支柱

Karina反复强调的一个事实是：团队花费了大量时间帮助产品经理和设计师理解如何构建评估。这不仅仅是建一张表格，而是要定义清楚“在某个场景下，模型应该做什么，以及做到什么程度才算好”。比如Tasks功能中，模型能否准确提取用户输入中的时间信息并创建提醒——这需要大量确定性评估，也需要持续的人类偏好评估。

洞察4：小模型的崛起正在重新定义“AI能力”的边界

Karina提到，她在Anthropic期间发现Claude Haiku（小模型）实际上比Claude 2（大模型）更聪明。这一发现让她意识到，蒸馏技术的进步正在让“小而精”成为现实。这意味着AI能力不再是少数大公司的专利，而是会逐渐普惠到每一个开发者和用户手中。

洞察5：产品开发正在从“先设计再实现”转向“先定义正确再让AI执行”

传统的产品开发流程是：写PRD→设计→开发→评审。现在Karina看到的趋势是：先用AI快速原型→定义清楚什么是成功→让模型不断学习这个标准。这个转变意味着产品团队的核心工作不再是“指挥开发团队做什么”，而是“教会AI什么是对的”。

四、精彩金句

“模型训练更多是一门艺术而非科学。我们调试模型的方式，与调试软件非常相似。”

解读：技术工作中存在着大量无法用公式描述的直觉和经验，这是AI无法简单替代的核心能力。

“当你既告诉模型’你没有物理身体’，又让它去设置闹钟时，模型会变得极度困惑。”

解读：AI的局限性往往不在于它太笨，而在于训练数据中存在着人类难以察觉的逻辑矛盾。

“合成数据让我们能够极其快速地迭代模型，因为它便宜、可控，而且能够泛化到多种场景。”

解读：AI训练的成本和效率正在经历根本性变革，这让产品开发周期从几个月压缩到几周。

“我转行到研究是因为我意识到：AI正在变得非常擅长写代码。工程师的核心工作正在被改变。”

解读：职业规划需要提前看到技术趋势，而不是等变化发生后被动应对。

“在AI时代，最有价值的技能是创意、沟通、同理心和优先级判断——这些恰好是AI最难学会的软技能。”

解读：技术越强大，人类独特的软技能就越稀缺、越珍贵。

五、实战案例

案例：Canvas的诞生过程

Karina加入OpenAI后，提出了一个大胆的想法：让ChatGPT从聊天机器人，进化为一真正的协作伙伴。这个想法催生了Canvas项目。

整个团队只有几个人——研究员、应用工程师、设计师、产品经理——以高度扁平的方式快速协作。他们首先明确了三项核心行为：何时应该触发Canvas、如何编辑文档内容、如何做出有价值的评论。

对于“何时触发”这个行为，团队定义了非常具体的规则：当用户说“帮我写一篇长文”时应该触发，当用户只是问一个事实性问题时则不应该。这个判断标准被转化为合成训练数据，o1模型生成大量模拟对话，然后注入用户意图标签，训练目标模型学习这些模式。

整个产品从零到上线只用了四五个月。核心原因不是团队规模大，而是他们建立了一套快速验证、快速迭代的工作方式。

案例：Anthropic时代的“用AI做产品原型”实验

在Anthropic时期，Karina曾用AI模型做产品原型。她只是想验证一个功能想法——文件上传——于是直接用提示词向模型描述功能，然后和团队一起测试用户体验。结果用户非常喜欢这个功能，甚至主动要求提供API。这让她意识到：对于产品经理和设计师来说，掌握提示词工程就是在掌握一种全新的原型设计方式。

六、行动建议

建议1：学习如何构建高质量的评估体系

为什么要做：AI产品的好坏不再由代码质量决定，而由“模型在各种场景下的表现是否达到预期”决定。评估能力将成为产品团队的核心竞争力。

如何开始：选择一个你正在做的产品功能，尝试用表格记录：输入是什么、期望输出是什么、当前模型的输出差距在哪里。每周更新一次。

你能得到什么：能够在团队中扮演“质量把关者”的角色，成为不可替代的战略级产品人才。

建议2：每天花30分钟刻意练习提示词

为什么要做：提示词是未来所有人与AI协作的基础语言。掌握它，就等于掌握了与智能时代对话的能力。

如何开始：在工作中找一个重复性任务（比如写周报、总结文档），先用AI完成，然后逐步优化提示词，让输出越来越接近你想要的样子。记录你的调试过程。

你能得到什么：效率提升3-5倍的同时，你会发现自己在理解用户需求和定义产品标准上变得更敏锐。

建议3：把“创意生成”变成每天的刻意练习

为什么要做：Karina明确指出，AI在创意生成方面仍然很弱。原因不是AI不够聪明，而是真正的顶级创意人才太少，他们的思维模式还没有被系统性地训练进模型。

如何开始：每天给自己一个创意挑战，用5分钟想出10个点子，不要自我审查。记录下来，坚持一个月后回顾。

你能得到什么：你会发现自己思考问题的广度和深度都在提升，这是AI无法替代的核心能力。

建议4：主动承担跨职能协作的角色

为什么要做：OpenAI和Anthropic都在扁平化团队结构，产品、设计、工程、研究的边界越来越模糊。能够整合不同专业知识的人，正在成为组织中最稀缺的人才。

如何开始：主动参加其他职能团队的会议，主动理解他们在做什么、关心什么、面临什么挑战。不要只在自己的领域深耕。

你能得到什么：视野的扩展会让你在团队中的影响力倍增，也会让你更好地理解AI如何真正改变组织运作方式。

建议5：建立自己的“AI协作工作流”

为什么要做：Karina自己就在使用Lenny Bot（基于Lenny访谈内容训练的个人AI助手）来回答关于产品策略的问题。这种个性化的AI工具正在成为知识工作者的标配。

如何开始：从你现在每天重复做的事情开始，思考哪些环节可以用AI辅助。尝试用现成的AI工具组合出一套适合你的工作流，记录使用效果。

你能得到什么：你会发现自己有更多时间专注于真正需要人类判断和创造力的事情。

七、我的总结

这场对话最让人印象深刻的，不是某个具体的技术细节，而是一个清晰的信号：AI时代真正稀缺的能力，不是编程、不是设计、不是写作本身，而是判断什么是好、什么是对、什么是值得做的能力。

Karina从工程师转向研究员，因为她看到了代码将被AI替代的趋势。但她同时指出，在OpenAI最优秀的产品团队中，最核心的人仍然是那些既懂模型、又懂用户、又能带领团队高效协作的人。

模型会越来越聪明，成本会越来越低，执行会越来越快。但人类的判断力、创造力、同理心和优先级感知，这些软技能在未来5年内非但不会被替代，反而会成为整个智能生态系统中最高价值的组成部分。

这不是一个“AI取代人类”的故事，而是一个“人类借助AI完成前所未有的事情”的故事。 关键在于，你选择站在这个故事的哪一边。

📺 播客信息

发布时间：2025-02-09
时长：1小时14分钟34秒
播放量：23407 次观看
原版视频：『YouTube』