编者按:本文来自微信公众号 量子位(ID:QbitAI),作者:西风,创业邦经授权转载。
救大命,OpenAI首席研究官Mark Chen最新访谈,信息量有点大呀。
不管是OpenAI的,还是自己个儿的,又或者是同事的,主打一个“我都能聊聊”。

比如:
爆料Meta抢人大战私下已经升级成送汤大战了,真能喝的那种汤,小扎熬了亲自送到OpenAI研究员嘴边。OpenAI反击也送汤。
Mark Chen、Scott Gray(OpenAI专门负责GPU内核优化的神秘狠人)等经常三五围坐,打扑克牌。其本质被解释为是概率与期望值的博弈。
OpenAI核心研究团队规模大概500人,公司内大概有300个项目。
Mark Chen表示OpenAI本质上仍然是一家纯AI研究公司。
Gemini 3发布后每个人都会用自己的方式去试探新模型,有个“42问题”从没见过哪个语言模型能真正把它完全做出来。
OpenAI“宫斗”,Mark Chen如何让研究员们统一意见、促成那封让Sam回归的请愿信也被聊了出来。
透露过去半年,一直专注在预训练上,在预训练方面,有信心轻松与Gemini 3正面对决。
表示内部已经有性能达到Gemini 3的模型,很快就会发布这些模型,并且能发布表现更好的下一代模型。
当被问到“你们真的需要那么多算力吗”会觉得很震惊:如果今天多10倍算力,可能几周内就能全部用满。
……
网友纷纷表示,这次访谈确实让人耳目一新,还有不少人在转发Mark Chen的观点。

Mark Chen之所以能够言无不尽,一大关键还在于,本期访谈来自于《Core Memory》,其主持人Ashlee Vance是硅谷知名的科技记者,以深入采访硅谷人物和讲述科技创新故事而闻名,更知名的是他那本《硅谷钢铁侠:埃隆·马斯克,创造未来的人》。
量子位对完整访谈进行了翻译整理,在不改变原意的前提下,对语言做了适当润色。以下是完整访谈整理~
人才争夺战演变成给人才送汤战
Q:关于人才争夺战,Meta的行为看起来很激进,这种针锋相对的竞争,目前已进入哪个阶段?
Mark Chen:其实就这么一批人才,大家基本都知道他们是谁。很多公司已经意识到,要打造一个优秀的AI实验室,其中一个关键因素就是要招到最优秀的人才。所以,Meta这么积极采用这种策略,也不奇怪。
我们当然也没有坐以待毙,我其实想从OpenAI的角度讲讲这个故事。媒体上把这件事渲染得好像所有人才都单向流向Meta。
但就我看到的情况,Meta去挖了很多人,但多数并不成功。他们从OpenAI去挖了我大概一半的直接下属,但他们全部都拒绝了。当然,如果你一年有100亿美元的预算用来挖人,那你肯定会挖到一些人。
所以我其实觉得,我们在保护核心人才方面做得相当不错。而且看着这件事情不断升级,其实还挺有趣的。
比如扎克伯格真的亲自给他想挖的人送汤,我觉得他是亲手煮的汤。当时我很震惊,但后来我也意识到,这些方式以某种奇怪的方式,其实是有效的。所以我后来也给我们想从Meta挖的人送过汤。

Q:你们现在是在比谁送汤?
Mark Chen:我还想过,下次团队团建我打算带大家去上烹饪课。不过我确实学到了一些关于招聘的事情。
Q:你自己煮汤了吗?
Mark Chen:呃,其实最好还是买米其林级别的汤,你懂吧?
但我确实在这件事上学到了不少,比如怎样更积极地争取顶尖人才。让我很受启发的一点是,在OpenAI,即使是那些最后去了Meta的人,我也从来没听谁说“AGI会先由Meta做出来”。大家都对OpenAI的研究路线非常有信心。而我明确告诉团队,我们不会跟Meta追逐报价对标。在Meta的报价倍数远高于我们的情况下,人们仍然愿意留在OpenAI,这让我非常有信心。他们真的相信这里的未来,相信我们能做成。
Q:你和Alex呢?他以前擅长数学竞赛,你们肯定一起玩过。
Mark Chen:我们以前确实一起玩过几次,但现在不怎么联系了。
Q:为什么汤会变成主流?
Mark Chen:我也不知道。汤、花,或者你能想到的任何东西都出现过。但我觉得人生就是冒险嘛,我也乐得顺势玩玩这个梗。

△图片由AI生成
Q:那你在想策略的时候,会用到什么扑克心法吗?
Mark Chen:我觉得这又回到媒体叙事的问题。目标不是留住组织里“每一个人”,而是相信我们的人才培养体系,并弄清楚我们必须留下的是哪一类关键人物,然后确保他们留下。而在这一点上,我们做得非常出色。
Q:Sam一直非常喜欢研究,他是老板是最顶层的那个人。而你和Jakub Pachocki(OpenAl的首席科学家)则一起塑造OpenAI的研究方向,然后还能决定哪些项目能获得多少算力。所以你等于既要规划OpenAI的前进方向,也要负责执行层面,比如到底怎么把那些算力投入项目中。
而这在我看来完全是个“噩梦级别”的工作,因为我脑补大家为了从你那里弄到GPU会用尽各种手段。
Mark Chen:人们在想办法搞到GPU时会非常有创造力,各种后门交易的点子都会出现。但你说得对,这确实是工作中的一个关键部分:确定研究组织的优先级,并为执行负责。
关于第一点,其实Jakub和我有一个流程,大概每1–2个月会整体梳理OpenAI所有在进行的项目,这是一张巨大的表格,大约有300个项目。我们尽可能深入地理解每一个项目,并给它们排优先级。
对于一家500人规模的公司来说,让大家理解组织的核心优先事项非常重要。这些优先级不仅通过口头明确传达,也通过我们如何分配算力来传达。
Q:你提到500名研究人员,也就是这个现在拥有数千名员工的组织中最核心的研究团队,对吧?
Mark Chen:对。
Q:你说有300个项目,我想象其中肯定有一些是巨大的前沿模型,也有一些是研究人员正在做的小型实验。那你们到底如何跟踪所有这些项目,并得出哪些项目应该分到GPU、哪些不应该?
Mark Chen:在做这类优先级梳理的时候,保持核心路线是很重要的。我认为OpenAI与其他大型实验室最大的不同之一,就是OpenAI从一开始就把探索性研究作为核心。
我们并不是那种去复现别的实验室成果、去追赶别人benchmark的公司,那不是我们的核心能力。我们一直在尝试找出下一种范式是什么,并愿意投入资源确保我们真的能找到它。
可能很多人会对此感到惊讶。事实上,我们在“探索下一代范式”上投入的算力,比训练最终产物本身还要多。
Q:但问题是,你们如何避免被个人的推销说服?因为每个人都会觉得自己的项目非常重要。当我想到这个,我就会想起《纽约时报》每天都有头版头条,每个人都想上头版,每个人都觉得自己的故事是最重要的,每个人都竭尽全力告诉你为什么这件事重要。他们都花了数周甚至数月做出那个成果,所以对他们来说这就是生死攸关。
Mark Chen:你必须做的最艰难的决定之一就是:这个项目,我们现在就是没法给它资源。
但我也认为,这是好的领导力。你必须清晰沟通,这些是我们真正的优先事项,这些是我们要推进的内容,这些是我们认为能推动研究方向的重要结果。其他事可以做,但它们必须明确是第二优先级。
回应谷歌Gemini 3
Q:你提到不要被竞争对手牵着走。你认为其他公司有时候很被动,而你们过去处在领先位置,制定了行业标准,所以他们才需要对你们的成果做出反应。
刚好前几天Gemini 3发布,在这种竞争回合中,你们的对手有时显然会根据你们来行动。我知道benchmark的价值常被争论,但大家确实会比这些。那你们如何在这种环境下,保持那种“我们只做我们认为正确的事”的心态呢?
Mark Chen:
我认为如今的AI研究环境比以往任何时候都更加竞争激烈。但关键是不要被竞争动态困住。因为你永远可以说:“我们发布一个小更新,就能领先竞争对手几周或几个月。”
但那不是一种长期可持续的研究方式。如果你能突破下一代范式,那重要性完全不在一个数量级,你将决定整个领域的演化,你会理解围绕这一思想领域所有的旁支方向。
以我们在“思考(Reasoning)”方向的研究为例,在两年多前,我们就押注我们会在语言模型的思考能力上取得突破。当时这个押注非常不受欢迎。
现在看起来显而易见,但那时的氛围是:预训练非常有效,后训练(post-training,包括RLHF等)也非常有效,为什么还要投资源做其他东西?
而今天你问任何人,他们都会说语言模型的思考能力是不可或缺的。所以,我们承担的是大胆的押注,去探索如何扩展,如何构建能在未来成百上千倍算力下仍能工作的算法。
Q:随着公司发展,这显然变得更难了。你们一开始是一个几乎纯研究的组织,但今天的OpenAI有产品线,有些部门看起来更像成熟的微软或谷歌。通常来说,随着时间推移,公司会逐渐变成更关注能带来营收的部分,而非花大量钱做研究,研究经费往往会不断被挤压。
Mark Chen:我认为这正是OpenAI最特别的地方之一。我们本质上仍然是一家纯AI研究公司。你很难再找到另一家真正能这么说的公司。我们最初成立时是非营利组织,我加入时也是那个时代。
当时的精神是,为了推动AGI研究,可以不惜一切代价,当然要以安全方式推进。
而我确实认为,这反而是创造价值的最佳方式。如果你赢得了研究,价值创造是顺带发生的。我觉得真正的陷阱是迷失在那些“让我们提升利润率吧”的目标里。因为如果你的研究做到最好,其实那部分价值非常容易实现。
Q:你是2018年加入的。那么你觉得,那种“灵魂”、那种核心文化与核心使命……
Mark Chen:是的,那个核心文化和核心,确实持续存在。
Q:埃隆怎么说?他说我们不应该叫你们研究员?这只是工程师,对吧?
Mark Chen:我觉得这话有它的道理,因为一旦你设置了一个“层级”,比如把研究科学置于工程之外的部分,那你在某种意义上就已经输了。
因为在构建大型模型时,真正重要的是,你能否在实践中不断优化那些1%的细节,如何让kernel快一点?如何确保数值计算足够稳定?这些都是深度工程能力。
如果你没有这些东西,就根本无法把训练规模扩大到我们今天使用的GPU数量。
Q:但我想说的是,研究员和工程师之间确实有种神秘感上的差别。你觉得保持一种“平视心态”比较好,是这个意思吗?
Mark Chen:我觉得研究员的类型其实非常多样。我们最优秀的一些研究员,他们的特点是,能提出无数种想法。其中大部分不行,但就在你开始怀疑“这个人真的值得吗”的时候,他们突然又冒出一个惊为天人的点子。
还有一些研究员非常擅长沿着明确的路径执行,把事情做到极致。所以研究员的类型太多了,根本很难把他们塞进一个刻板的类别里。
Q:Gemini 3刚发布不久,我很好奇,当一个竞争对手发布新模型时,你个人,或者你们团队,会怎样反应?是大家都会去看它能做什么吗?你们会不会有一些常用的prompt、常用的问题,去试探这些新模型有什么能力?
Mark Chen:关于Gemini 3,具体来说,它是个不错的模型。我们会做的一件事是建立内部共识。
因为benchmark其实只能告诉你有限的信息。就benchmark数据本身来看,我们其实相当有信心:我们内部已经有性能达到Gemini 3的模型,而且我们相当确定很快就会发布这些模型,并且能发布表现更好的下一代模型。
但再次强调,benchmark只揭示了一部分内容。每个人都会用自己的方式去“试探”新模型。我有一个自己常用的题,到目前为止,没有哪个模型真正解决过,甚至是所谓的“thinking models”也没完全做出来。所以我还在等。
Q:这是个秘密数学问题吗?
Mark Chen:不是,不过……如果我在这里公开讲了,它可能以后就被训练进去(笑)。
这是过去一年我很喜欢的一个谜题,叫作“42问题”:核心是借助若干个模数为小于42的素数的随机数生成器,用最少的调用次数搭建出模数为42的随机数生成器(RNG)。
这题很可爱。语言模型总是能接近最优解,但我还没见过哪个真正把它完全做出来。
Q:这实际上引出了我接下来本来就想问的问题。但在此之前,我知道你很有竞争心,你也跟我说过一句我记得很清楚的话“我热爱竞争,但我极度讨厌输”,所以如果我们知道Gemini 3会在周四发布,你会不会在凌晨12点就把那道题丢给它?还是没有那么夸张?

Mark Chen:不会啦,我认为这是一个长周期的事情。
我是那种会有阶段性执念的人,但任何事业你都得用长期博弈的心态去做。例如过去半年,我们一直专注在预训练(pre-training)上。这是我和Jakub一起推动的方向,打造预训练的核心能力、组建顶尖团队、确保预训练所有关键都得到足够重视。而正是这些投入,让我们今天能产出这样的模型,在预训练方面,我们就有信心轻松与Gemini 3正面对决。
大学室友带入坑编程
Q:我对你刚才说的那个谜题感兴趣,是因为我第一次见Jakub是在OpenAI创立之前,那时他在参加编程竞赛。我也有一段时间超迷编程比赛。我去看过一次,当时Facebook每年都会搞一个Hacker Cup,那是我第一次见到Jakub。
我知道你高中也参加数学竞赛,甚至是从小学一路参加到高中,你是不是也参加IOI(国际信息学奥林匹克竞赛)?
Mark Chen:我很晚才开始写代码,是大学室友带我入坑的。
当时我还是一个满怀自负的数学人,觉得数学才是最纯粹、最困难的科学,真正的能力需要在数学中证明。回头看,那时候我可能太沉浸在竞争里了。
但编程后来变成一件非常令人有成就感的事情。开始它只是一个让我能继续和大学朋友保持联系的方式,毕业之后,我们每个周末都会一起上线做比赛。
渐渐地,我发现自己挺有天赋。后来我开始在比赛中拿不错的成绩,然后开始给比赛出题,比如给USA Coding Olympiad出题。最终我也开始担任教练,这是一个很棒的社区,我也在里面遇到了很多像Scott这样的人。
Q:你当时是在MIT?
Mark Chen:不是,我是毕业之后参加的。
最近比赛还有一个让我特别有感的地方,当我们把现代语言模型投入这些比赛题目时,它们的表现非常强。而且它们的思维方式跟人类完全不同。
我们一直以为AI擅长模式识别,如果新题能映射到旧题,它就能解。但我注意到,有些题目非常临时、技巧性、零散,这让我意识到AI+人类在前沿研究中会出现奇迹,因为AI对“什么是简单/困难”的直觉与人类不一样。我以为模型绝对做不出来的,结果它们觉得这些题反而比较简单。
Q:是类似AlphaGo那种“人类从没见过的打法”的感觉吗?
Mark Chen:我觉得是的。
GPT-5 Pro出来之后,我真正感觉到前沿科研出现了一个拐点。
一个最好的例子是,发布后三天,我见了一个物理学家朋友,他之前玩过模型,觉得它们可爱但没啥用,我让他用Pro模型更大胆地试,他把自己最新论文丢进去,模型想了30分钟,然后就把答案给出来了。他的反应让我想到,李世石看到AlphaGo第37/38手时的表情。我觉得这种场面在数学、科学、生物、材料科学中只会越来越常见,模型真的已经到这个程度了。
Q:我知道这个问题不新鲜——从深蓝、到AlphaGo,人们一直在问,当AI开始解决那些被人类视为“巅峰智力成就”的问题时,会不会让人感到某种悲伤?
Mark Chen:嗯,有,也没有。我编程水平不错,但不属于最顶尖的那一批,所以对我来说……或许这算是“复仇”。

但认真说,我确实经历过一种“时刻”。在我们开发思考模型期间,我们持续监控模型在竞赛题的表现。
一开始,它们表现并不好,大概就普通参赛者水平。但随着时间推移,它们的能力不断提升,直到有一天,我走进会议室,看到模型的评分曲线越过了我自己的最高水平。那一刻我真的震惊,“哇,我们到了这种程度,这么快?”Jakub当时还稍稍得意,但也就过了一两个月,模型也超过了他。
今天,模型已经稳稳站在前沿了。你能从我们今年夏天在Coder比赛上的成绩看出来那是世界顶级算法竞赛,模型拿了第二名。它在一年内从世界第100名,跳到了世界前5。
Q:那十年后,我们还会办这种竞赛吗?
Mark Chen:我觉得会。它们很好玩。尽管有些人做这些比赛是为了写简历,但真正热爱它的人,是因为它本身有趣,这种乐趣不会消失。
Q:在我写报道时,有人告诉我,一些国家,IOI拿牌基本等于“随便挑大学,免费入学”。
Mark Chen:你不觉得面试这些传统方式,很快也会被模型彻底打破吗?大学考试、作业,也基本全被打破了。我们确实需要新的方式来评估一个人,他学到了什么?他的实际能力在哪?
我其实一直有个想法,也许我们以后的面试,可以直接让候选人去跟ChatGPT对话。不过是一个“特殊版本”的ChatGPT,这个模型的任务不是回答问题,而是判断你是不是真的懂相关内容、你的能力水平有没有达到在OpenAI工作的标准。你要通过和它的对话,说服它你是一个适合OpenAI的人。当然,你不能“越狱”它,然后我们再去看这段对话的记录。也许未来这种测试方式,会更准确地反映一个人到底懂不懂。
Q:我觉得你的背景很有趣,你从小接触过多个创新中心,尤其是你父母又在Bell Labs。后来你去了MIT,对吧。
Mark Chen:哦天哪,2012那一届真是太强了。
Q:有没有那种“全明星名单”?
Mark Chen:比如Jacob Steinhardt,现在在做Transluce公司,我们当时还一起上计算机课、一起做项目。还有Paul Christiano,他也在OpenAI工作过。刚才说到竞技编程那一挂,还有像Scott Wu,现在在Cognition,他现在在X上简直成了“数学梗王”。
Q:现在我看到你们这群人的“竞技一面”,已经主要转移到扑克上了。之前我们在一个活动上深夜我路过一张桌子,看到你、Scott以及其他几个人,围在桌边打扑克,我不知道对你们来说算不算紧张,但对我来说气氛挺严肃的。所以你们现在是把数学和竞争都用在扑克上了吗?
Mark Chen:
扑克是个非常有趣的游戏。我之前说过,我的人生就是一系列“阶段性痴迷”。扑克曾经就是我其中一个超级痴迷的阶段。对我来说,扑克的重大启发是,它本质上远非一场读心和诈唬的博弈,而是一场数学游戏。
你对扑克了解得越多,越会往这个方向修正自己的认知:它本质上是概率与期望值的博弈。当你从数学角度判断出诈唬是正确选择时,做这件事就变得易如反掌了,你不会紧张,因为你知道这是对的。
而且很有意思的是,扑克在大众印象中非常“人类化”,好像是关于心理、直觉、演技的游戏。但真正的获胜机制,是极其深度的数学。前阵子我还在想,语言模型也有点像这样。语言的生成是一个非常“人类”的过程,但现在有一台数学机器,可以做到和我们一样甚至更好。

△图片由AI生成
Q:我自己是写作的人,这部分我几乎每天都在想,我大学时还学了一堆哲学,都是在想语言、意义这些东西。你和Scott在我眼里都是“数学强得不太像凡人”的那种人,我完全不理解你们怎么在计算上还能互相拉开差距,你们打牌时,怎么区分谁更强?
Mark Chen:
其实,说实话,我们现在更多是把它当作一个聚会场合,一个可以坐下来聊天、叙旧的平台。如果把扑克太当回事,反而会把乐趣抽干。
我对扑克的那种“痴迷期”在十多年前就已经过去了,现在就是单纯觉得好玩。
Q:你这是因为我看到Scott连赢了两天,才这么说的吧?

Mark Chen:你可能说到点子上了。
Q:他确实打得挺认真。
Mark Chen:不过在回程飞机上我赢了。不是一对一,大概还有三四个人一桌。
离开华尔街,走向AI
Q:我感觉,尤其如果把时间拨回到2018年前后,在AI领域高层的人,大致能分成三类路径:一类是学术出身;一类是数学天才后来去做机器人、物理之类;还有一类是从华尔街来的,做高频交易、量化。
你走的是第三条,从MIT毕业后,直接去了华尔街。
Mark Chen:
我其实并不为那段经历深以为荣,坦白讲。
但这确实是MIT那些数学/量化很强的学生当时常走的一条路。它确实是一个非常唯才是举的体系,你只要聪明、会算,你的能力会直接反映成非常具体的奖赏,就是你赚的钱。
但对我来说,那里的文化有点难受。
那地方,如果你发现了什么突破、什么窍门,你的第一反应是尽可能别让别人知道。因为你的知识,就是你赖以生存的价值。所以在公司内部,你会看到各种竞争性的关系,人们彼此之间并不真正信任。而且整个生态系统非常封闭。
比如今天,如果某个团队让他们的算法快了,世界上没有其他人感受到它,它不会对任何更大的世界起作用。
我在那儿待了四五年后,有一天醒来突然意识到,我们还是在和完全相同的一群玩家竞争,大家都变快了一点,但世界有因此而变得更好吗?答案是:没有。
那一刻我觉得,是时候去做别的事情了。很多事情在那时同时发生,比如AlphaGo的大战,那对OpenAI很多人都是巨大启发。
Q:你下围棋吗?
Mark Chen:不下。但关键不是围棋本身,而是机器竟然能做出那么有创造力的东西。我特别想弄明白背后到底发生了什么。
Q:当时你有读AI论文吗?
Mark Chen:老实说,完全没有。直到那场对局,我才真正被点燃。那之后我开始疯狂深入AI。我给自己定的目标之一是复现DQN的结果。DQN是能够在Atari游戏上打出超人水平的深度网络。从那里开始,我正式走上了AI之路。
Q:那你是白天工作、晚上回家自己搞研究?
Mark Chen:对,就是这样。
Q:我还记得2018年左右我采访George Hotz的时候,他说过一句让我印象深刻的话。他说AI领域非常年轻,年轻到一个人只要读10/20/30篇论文(记不清到底多少篇了),就能学到整个领域的核心。
确实很有趣,AI是一个历史很久但“现在这个时刻非常浅”的领域。
Mark Chen:我给那些对AI感到畏惧的人一个建议:它很浅。
花三到六个月,选一个项目(比如复现DQN),你就能非常快地走到前沿。最近几年这个领域是变“深”了一点,但和理论数学、物理比差得远。
Q:我问过Jakub,在数学里,很多人都是20多岁做出最伟大的工作,之后再难有突破。AI也是这样吗?我们是否依赖年轻人去读论文、突然灵光乍现?还是说这是一个人可以干一辈子的领域?
Mark Chen:我觉得AI是一个可以一直做下去的领域。虽然OpenAI本身文化相对年轻,但我不认为你必须年轻才能做出好研究。
年轻人最大的优势可能是,他们没有太多先入为主,不会被“事情应该怎么做”所框住。随着年纪增长,你会形成自己的愿景,这是好事,但也会把你锁在某种思维模式里“研究就是这样做的,结果就是这样出来的”。
年轻研究员在这方面更有可塑性。
2018年加入OpenAI:20人的小团队
Q:你职业生涯在OpenAI的发展很有意思,看起来你好像一开始就担任很重要的位置。但你2018年加入时OpenAI只有……50人?
Mark Chen:更少,大概20人左右。当时基本就是两个团队。我以Residency(常驻研究员)的身份加入,意思是,不是专家不是PhD,而是OpenAI想要投资、培养、从其他领域转进来的人。
Residency的前半段像是一个六个月压缩版PhD,之后才开始深入项目做研究。
我每天都和Ilya聊,他给我定课程、定项目,我遇到不懂的就去问他“这个方向为什么重要”“为什么大家会研究这个”。
Q:领英上写你加入就当了前沿研究主管?
Mark Chen:不,那不是我在Open的第一份工作。我前面大概有三年都是做IC(个人研究员)。我当时做的是生成式建模,因为那是Ilya当时最关注的方向。管理团队是后来才开始的。
从ImageGPT到DALL·E:语言模型之外的生成模型
Q:DALL·E是公众第一次真正认识OpenAI生成模型的项目吗?
Mark Chen:对。而DALL·E也标志着我从IC转向管理者。在那之前,我最自豪的项目之一是ImageGPT,证明即使不是语言,你把图像丢进 Transformer,模型一样能学到非常强的表示。
它能理解图像内容,并展示出“语言建模方法可以用在非文本领域”的可行性。
另一个我很骄傲的IC项目是Codex,我搭建了很多评估代码模型的框架,并深度研究如何让语言模型变成强大的代码模型。
Q:所以你为什么选择OpenAI?我其实能理解两种观点,一方面OpenAI是小池塘里的大鱼,有趣的人集中在这里;但另一方面,2018年的OpenAI才20个人,在我看来,这东西看起来根本不可能成功。
Google当时已经主导AI,感觉AI是一件需要几十亿美元、几十年积累的事情,而那时就算连Scaling Law都还没真正形成概念。
那对你来说,这是一个困难的决定吗?还是你只是刚好撞进了OpenAI?
Mark Chen:我觉得有两点非常重要:第一,你需要有宏大的愿景;第二,你需要有能支撑这份愿景的人才。
当时的OpenAI具备这两点。他们的野心非常大,而人才也强到足以把这个愿景变成现实。
我很幸运,Greg Brockman,我们大学以前就认识。
Q:你们在MIT有交集?
Mark Chen:其实我们更早,在高中时就一起参加过数学竞赛。
所以当时我给他发了条消息:“我不知道自己技能是否合适,但你们在做的事情看起来非常伟大。”
对我来说,今天这件事仍然很难以置信,我当时完全是“从天而降”加入的,而现在却负责研究方向。这对我来说也超现实。
从IC转成管理者那一步,我其实一度非常犹豫,因为我不知道自己是否适合管理,而且那时我真的很享受IC的工作——做研究、合作顺畅、成果突出,我玩得很开心。但后来整个旅程就……真的非常疯狂。
Q:你给人的感觉一直是温和、理性、好相处的人。但OpenAI的历史,说实话,有些部分非常戏剧化,甚至有点像肥皂剧、像《权力的游戏》那种“宫斗”。要在那样的环境中做管理者……回头看,真的挺难想象的。
我觉得现在比之前平静了很多,但过去的那些时刻,你需要处理的事情,感觉与你的性格很不一样。
Mark Chen:老实说,我在OpenAI非常幸运。我的经理们都非常支持我、为我发声。在我做IC时,Wojciech Zaremba(OpenAI联创)就说:“哦,CodeX这个项目应该押注在他身上。”
我从未向任何人要求晋升或调级,这些都是自然发生的。一路上,我得到很多很好的建议,我觉得管理的成长,本质上是靠“次数”累积,你要不断练习,没有比OpenAI更能给你练习机会的地方了,永远有新的挑战出现。随着时间,你也会建立自信。
我现在相信,管理更多是经验,而不是天赋。
OpenAI“宫斗”那段时期
Q:我猜测你可能不太想详细谈“宫斗”那次风波。
Mark Chen:没关系,我愿意谈任何事情。
Q:我采访了很多人,也有不少独家素材要留给我的书。但有几个时刻,我特别想问你,在那段混乱中,你帮助研究员们统一意见、促成那封让Sam回归的请愿信。
然后一两天之后,你在Greg家或者Chelsea家,做过一次很重要的短讲,是吗?
Mark Chen:是在Chelsea家。
而那两个时刻,不管是推动研究员签联名信,还是在那场聚会上的讲话,对我来说都是非常重要的瞬间。
Q:你站出来,为你相信的东西发声,并把队伍重新团结起来。
Mark Chen:是的,对我来说,那确实是一个关键时刻。在那次风波后的几天里,整个公司都笼罩在不确定性中。
我、Nick(Nick Turley,ChatGPT产品负责人)、Barrett(Barret Zoph,OpenAI前研究副总裁)当时都感觉到一种责任感:“狼就在门口了。”大家都不断收到来自各大实验室的电话:“要不要来我们这儿工作?”

△图片由AI生成
我当时给自己定下一个目标,我不会失去任何一个人。而且我们真的没有失去任何人。那几天我们几乎每天都把自己的家打开,让大家有一个可以来倾诉焦虑、互相陪伴的地方,我们也帮助大家持续与核心领导层保持联系,让他们感觉自己能参与、有发声权。
随着时间推移,大家形成了一种非常强烈的共同体精神:“我们一起面对这一切”“我们要向外界表明我们是一条心的”。当时我在几处房子之间来回走,后来我们有了一个想法,我们需要向世界展示,我们团结一致,并且愿意为Sam工作。于是请愿信就这样成形了。
这个主意大概在凌晨2点定下来,到了早上,研究组超过90%的人已经签名。大家互相给朋友打电话“你赞成还是不赞成?你要不要签?”最终,大概近100人签了那个请愿信。
Q:那应该让你陷入一个很困难的位置吧?因为一开始看起来像是,Ilya和Sam站在对立面。Ilya又是你的导师,后来Sam又回到团队……这一切会不会让你觉得尴尬?
Mark Chen:不,不是尴尬,是困难。
在那种信息极少的环境下,很难看清真相。你完全可以合理地问:“Sam到底做错了什么?”Greg和Jakub这两个极具正直的人有辞职来表达立场吗?我觉得有部分故事被严重误解了。
关于Jakub:大家不知道但应该知道的事
Q:Jakub已经在OpenAI很久了,你觉得外界不了解但应该知道的是什么?
Mark Chen:他其实超——级——搞笑。真的非常搞笑。是一种非常讽刺式的幽默,经常把我笑疯。我最喜欢OpenAI现状的一点就是,我和Jakub的高度一致性。我们走进会议室,只需要互相抛几个想法,很快就能达成一致,然后对外发出同一个信息,再一起去处理路线图的不同部分。能和他一起工作,是一种巨大的荣幸。
OpenAI的研究团队至今仍“被攻击”。我们是一家人。但我们永远都在被攻击。当一个新团队开始组建时,他们第一步是什么?从OpenAI挖人。
他们想要我们的经验、愿景、哲学,毕竟我们培养了大量顶尖研究员。我今天依然有同样的保护欲,如果有人来挖我们的人,我会不惜一切让我们的研究员开心、安心,并让他们知道自己的角色在路线图中的位置。
Q:我在写书时、或实时观察事件时,一直挣扎于一个问题,当我回顾整个AI历史,2012年Ilya产生了重大突破、2017年Vaswani等人提出Transformer,Alec Radford推动了另一批重要成果,这些都是像“英雄人物”一样的突破,AI领域还非常年轻,看起来可能就是那8到10个人不断推动领域前进。
所以当John Schulman离开,Alec离开……我当时心里想:哇,如果你们失去这部分全明星阵容,那怎么继续?这不像一个能轻易替换人才的领域。
但令人惊讶的是,就在那之后,你们在reasoning方向和其他前沿方向上继续取得突破。这一点对我来说一直很难理解……
Mark Chen:我其实不同意你刚才的说法,把“顶级个人”视为推动研究的唯一方式。当然,我们确实会自上而下押注方向、下注赛道,但OpenAI也有非常深刻、非常真实的自下而上文化。
很多最好的点子,都来自最意想不到的地方。而最令人兴奋的,就是看着这些“下注”逐渐成形、被扩展、被放大,比如reasoning(推理/思考)方向,就是这种过程的典型案例。
Q:但我们还是看到谷歌会砸天文数字把Noam Shazeer挖回去,这似乎说明,明星个人非常关键?
Mark Chen:我认为两者是必须并存的,你必须投资自己的人才管线,因为我完全相信我们培养明星的能力,同时你也必须承认,世界上确实有一些非常顶级的人,每个人都知道他们是谁。
如果我从Meta那边学到一件事,那就是,OpenAI也可以非常激进地去争抢明星人才。他们用过的一些激进招聘方法,我自己也学了几招。但最终目标很简单,为我们的使命,组建最强的团队。
Q:好笑的是,这个圈子其实很小。你们明明互相都认识、甚至一起玩、一起出去吃饭……但转头你们却在互相挖对方的人。
Mark Chen:是啊,这是一个在所有维度都竞争残酷的行业。
但我喜欢这样。我就是极度好胜的人,我讨厌输,不管是在研究还是在招聘上,我都会全力以赴。
Q:你说得没错,这一点让我想到半导体早期,一堆创业公司同时涌现,大家都在突破物理的极限,某家公司刚在一个方向突破,工程师们晚上一起喝啤酒又把想法互相说出来了。工程师就是这样,他们停不下来,知识自然扩散。而同时,人人都在挖每一个可能的突破。
Mark Chen:是的。一个公司面对这件事有两种选择:建立深度信息隔离加强封闭性;继续保持开放文化,用速度压制对手。
OpenAI明显是第二种,我们不认为封闭是正确方式。我们的方法是跑得比别人更快。我喜欢我们的开放文化,研究人员之间自由分享想法,大家都能更快推动进步。
Q:我知道Sam更热爱调研,他对日常经营没那么有激情,从组织结构上也看得出来。而你和Jakub则是每天都深度泡在技术里。他则在同时和全世界说话。三个人之间到底怎么协作?你们怎么决定算力与优先级?
Mark Chen:这是一个非常紧密的三人组。我每天都和Sam、Jakub说话。Sam喜欢了解研究进展、喜欢和研究员聊天。他很擅长把脉整个研究组织,告诉我:“有没有什么潜在但没被说出来的问题?”

△图片由AI生成
有问题,他就会去找出来,并告诉我。Jakub和我则每天在想,如何设计好工作结构,让突破更容易发生。这包括非常具体的事情,比如办公室的布局会不会妨碍两个需要协作的团队交流?哪些人要被配置到一起?如何激励大家往我们押注的方向走?这些是我们日常工作的核心。
Q:Sam会读论文吗?他会跟你们技术讨论吗?
Mark Chen:会的,他读论文,也和研究员交流,理解大家怎么看世界、在做什么研究。当然,他还负责范围非常广的其他事务。
关于预训练,OpenAI到底发现了什么?
Q:接下来我想问一些机密问题,说不定你说漏嘴就说出来了(doge)。关于预训练,我感觉你们最近在预训练方向突破了某个东西,你们看起来对此非常兴奋。你能不能告诉我们:你们到底发现了什么?
Mark Chen:
我大概会这样概括过去两年的高层情况,这两年我们在reasoning上投入了巨量资源,去理解这种“原语”(primitive),并让它真正跑起来,而且它的确跑起来了。
但这种专注有个副作用,你会在其他“肌肉”上有点退化,比如预训练
和后训练。过去六个月里,我和Jakub做了很多事,就是把这块“肌肉”重新练回来。
在我心里,预训练就是一种需要持续锻炼的肌肉:要保证所有相关知识是新鲜的,要确保有人在最前沿搞优化确保有人在最前沿打磨数值计算,你还必须保证大家的注意力真的放在这件事上。
这也是我最近非常关注的一件事之一,在公司内部引导、塑造大家讨论的重心,而现在,这个重心非常清晰:预训练。
我们认为预训练还能挖出巨量空间。很多人说“Scaling已经死了”我们完全不同意。
某种意义上,现在全世界都盯着强化学习、盯着后训练,对我们来说反而是一种信息优势,因为我们觉得预训练这边还藏着太多潜力。
也正是这些努力的结果,我们最近训练出的模型强了很多,这也让我们在面对Gemini 3和今年底的其他发布时,非常有信心。
Q:你刚刚的描述在我脑子里是这样的,你们这几年的状态就是一路狂奔。整个领域都在狂奔。所以此刻我们站在一个节点。互联网上能抓到的数据已经被大量吸进来,丢进超级计算机里搅一搅,然后ChatGPT这类东西就“蹦”出来了接下来大家就开始进入一场不可思议的竞赛。
对很多不天天跟的人来说,他们看到的是,起初你们手里有巨量数据,把这些数据扔进机器,一开始你们用比较粗糙的方式来“塑形”这些数据,而现在你们似乎是在学习如何更高效地塑形这些数据,但外界不总是搞得清之前到底“错”在了哪?
Mark Chen:你提到了我一直在思考的事情。
如果从预训练的角度看,你拿的是人类写的数据,你在教模型去模仿这些东西。模型于是学会了人类写作的模式。
但从某种意义上说,这也给模型的能力加了一个“上限”:当你只是在模仿人类写的东西时,你很难真正超越那堆人类数据本身。
所以你会去做RL之类的事情,通过RL,你可以把模型推向人类能构造出的最难的问题,让它跳出“模仿人类”的框框,在框外思考,从而达到更高的能力。
但现在有个很有趣、也很棘手的问题,你要如何真正超越当前人类水平?
在这里我看到一个非常严重的测量问题,比如在科学领域,人类是否真的有能力去评估超人类水平的表现?我们要如何判断这个超人类数学家比那个超人类数学家更强?
我们真的需要建立一套更好的评估体系,来衡量我们是不是在向前推进。到目前为止,我们比较幸运,有IMO、IOI这样的竞赛,可以告诉你谁是这个世界上最强的那一小撮人。但当模型的能力超越人类之后,再也没有这样的测试可以用了。
Q:你刚刚让我想到一个问题,回到IOI那块,我常看到那些在竞赛中逆天的少年,后来被Google、Facebook这类公司招进去。但他们不总是变成,公司里最高层的技术领导或者最有名的工程师,有时候他们只是做自己想做的事情,这让我一直有个疑问:在竞赛中表现最顶尖的人,未必就是你能遇到的最强工程师。
那如果一个AI在这种竞赛里表现特别好,我们到底在学到什么信息?
Mark Chen:这是我很喜欢AI研究的一点,我觉得在AI里,比起许多传统工程领域,它更倾向于精英主义。
我多次尝试、也多次学到同一个教训:你很难让一个得不到研究员尊重的人,去领导一群研究员。这在研究领域比其他地方都更明显。
一个研究leader必须能做非常强的技术判断,当出现分歧时,哪条路是对的?哪个项目值得算力和人力支持?如果你这些判断持续做错,你很快就会失去研究员的尊重。
所以在AI研究里,有一件很有趣也很棒的事是,我的所有上级都异常技术强,和他们聊技术非常好玩。
Q:接下来我又开始预训练一下,对我来说,Transformer当年开启了一个巨大的飞跃。Reasoning在我心中已经接近这个级别,甚至可能更神奇。
过去几个月跟你们聊天时,我总有一种感觉,你们在过去三五年里做了很多硬核工程工作,但这些努力还没有完全在产品层面显现出来。这让我很难把握自己“应该有多兴奋”,当你们暗示某些正在出现的东西时,你们内部的感觉是这已经能看出是一个和之前几次时代级飞跃同等级的东西了吗?”
Mark Chen:我个人是这样觉得的。当我们发布GPT-5时,我们讲了很多关于合成数据的内容。现在还有许多类似的“研究线索”,我们觉得非常有前景,并且正在极为激进地放大它们的规模。
关键一直在于:维持一个多样化的押注组合,把最有实证前景的那几条线,大规模放大与支持。
Q:大概两周前,Andrej Karpathy在一个播客说了一番话,把整个AI圈吓了一跳,他的意思大概是AGI还要10年。你是怎么想的?
Mark Chen:我觉得X(推特)很喜欢这种叙事循环,“一切都完了”“不,一切又回来了”。只要符合当下情绪的说法,就会被无限放大。你现在也是在想要剪个传播度很高的片段嘛。
在我看来,AGI这个词最大的问题是,每个人的定义都不一样。即使在OpenAI内部,你也很难把所有人拉到一个房间,让大家给出一个一致的、精确的AGI定义。
所以我更倾向于这样类比,你身处工业革命过程中,你说“工业革命完成”的那一刻,是纺织机出现的时候?还是蒸汽机出现的时候?
每个人都会选一个不同的点。我更倾向于说,我们现在正处在生产AGI 的过程之中。
对我个人来说,我最看重的指标是我们是否在产出新的科学知识?我们是否在推进科学前沿?
而从今年夏天开始,我觉得在这一点上发生了一个非常剧烈的阶段转变。
OpenAI for Science
Q:是你们在内部看到的成果吗?我脑子里第一反应是最近那些生物科技创业公司“自动设计分子”之类的……
Mark Chen:对,我的灵感其实来自那次和物理学家的会面。
那次之后我回去想,我们应该打造一个OpenAI for Science。目标是,对于那一小批已经意识到模型潜力、并且想要拥抱它、用它加速科研的人,我们要尽一切所能帮助他们加速。
我知道其他公司也在尝试推动科研前沿,但我觉得我们和谷歌等机构最大的区别在于,我们想让所有科学家都有能力做出诺贝尔奖级的发现,而不是让OpenAI自己去得诺贝尔奖。当然,OpenAI拿诺贝尔奖也不错。
但我们真正的目标是打造一整套工具与框架,让全世界的科学家都感受到加速作用。我们相信这是整个科学界能一起被推前进的方式。
Q:你说你们看到具体的突破,有例子吗?
Mark Chen:当然有。如果你想看一大串例子,去看Sebastian的Twitter。最近有一篇论文解决了一个开放的凸优化问题,和我们正在攻克的一些机器学习核心问题非常紧密相关。
很多人会觉得,“啊,这是不是只是fancy的文献搜索?”
不是,复杂得多。这些例子我可以讲更多。
Q:但现在说实话我都有点被淹没了……我也关注生物科技,现在真的是每两天就会听说一个“AI科学家”“我们一发命中抗体了”“AI自动设计分子”。
有些我很兴奋,因为我认识这些公司的核心科学家,知道他们是真的人才。但太多了,以至于要么我们真的正在见证奇迹发生,要么信息量大到人类已经无法分辨真实性了。
Mark Chen:
我一点也不惊讶生物学会出现这些突破。就我个人而言,我对计算机科学和数学最熟,而在这些领域,我们有专家确认,这些确实是实打实的发现。这就是我最有信心的地方。
Q:你说的和外界叙事很不一样。我觉得互联网的叙事每三周换一次:“AI全是假的”“没进展”“都是吹的”。如果这些科学突破是真的,那大众完全不知道。
Mark Chen:为了搞OpenAI for Science,我们和很多物理学家、数学家聊过,绝大多数人并不看好AI。
他们的典型想法是,“AI不可能证明新定理”“这肯定是伪装、幻觉,或者别的什么”。这就是为什么我觉得我们必须赋能那一小批真正相信AI的科学家,他们会远远跑在所有人前面。
我们希望打造的工具,能说服更多科学家相信这就是未来做科研的正确方式。
Q:我承认,每个人对AGI的定义不一样。但从你现在说的这些来看……听起来你认为,不管它叫什么名字,未来一两年我们都将看到剧烈的变化。
Mark Chen:是啊,“AGI还要两年”已经变成一个meme了。但我觉得我们已经不再处在那个永远是两年的世界里了。
给我真正信心的,是我们最近在数学与科学上看到的那些结果。在OpenAI的研究团队内部,我们设定了两个非常明确的目标。
目标1,一年内改变研究流程,让AI成为研究实习生。在一年内,我们要让AI实际参与到研究开发工作中,并且真正提高科研效率。
目标2,2.5年内实现AI的端到端研究。也就是说,在两年半内,我们希望达到AI能从头到尾执行研究流程。
现在的流程是,你提出一个想法→你自己实现→你调试→你反复迭代。但一年内,我们非常有信心做到人类控制外层(提出想法),模型控制内层(实现、调试、测试),这将非常不同。
Q:你们对预训练这么乐观,但我总感觉,我们已经建好了如此庞大的算力基础设施,模型每10倍扩展都会变强……
但也有人说从GPT-4→GPT-5没看到你们预期的提升,即使算力更多。你们看起来却非常自信。我们其实还没真正看到那次“10×compute跃迁”的效果。
Mark Chen:我想说的是,当有人问我“你们真的需要那么多算力吗”,我都觉得这问题太震惊了。
因为我每天都在处理海量的算力申请。我的心态是这样的,如果今天多3倍算力,我可以立刻有效用完。如果今天多10倍算力,我可能几周内就能全部用满。
所以算力需求是真实存在的,我看不到任何放缓迹象。当有人问“你们真的需要更多算力吗”,我真的不理解这个问题。
Q:你们对预训练的突破很乐观,那你们是否同样相信——继续扩大模型规模会带来巨大提升?
Mark Chen:我们绝对会继续扩大模型规模。而且我们已经有算法突破,使得我们能继续扩大规模。
Gemini 3有很多令人印象深刻的地方,但我注意到一个细节:他们的SWE-bench成绩里,数据效率方面几乎没什么进展,我们在数据效率相关算法上非常强。
Q:最近有一份泄露的备忘录,Sam对Gemini 3的态度挺严肃的。
Mark Chen:我觉得Sam的工作之一就是要注入紧迫感和速度感。这是他的责任,也是我的责任。
我们必须保持对scaling的激光般专注。Gemini 3正是谷歌应该下注的方向。
但同时也要提醒,作为管理者,我们的部分工作就是不断给组织注入紧迫性。Gemini 3是个好模型,我们也有对应的回应,而且我们可以更快推进下个版本。
联手Jony Ive,搞硬件设备开发
Q:你会参与像Jony Ive的设备开发这种事情吗?研究团队也参与?
Mark Chen:是的。而且我昨天我和Jony以及几位研究人员一起吃了饭,包括我们负责预训练和后训练的负责人。
我一直在想一件事,未来的ChatGPT应该是什么样子的?现在的ChatGPT,和它的交互方式,说实话很笨,完全不是原生思考的那种体验。
你给它一个提示词,它给你一个回答,之后它基本上不做任何对你有生产力的事情,直到你再给下一个提示。而且如果你再问类似的问题,它还会花一样久的思考时间。它不会因为你之前问过问题而变得更聪明。
我认为未来应该是这样:它有更强的记忆,每次你来,它能学到关于你的一些深层东,它会思考你为什么问这个问题,它会联想到相关的问题,然后下一次你来,它会变得更聪明。
那么问题来了,要怎样设计一个设备,让这种思考方式成为核心?
和Jony合作这段时间,我觉得非常有价值。
Q:你现在有一个设备了吗?
Mark Chen:我可能有,也可能没有。
Q:我一想到你们在和Jony合作,我就想到,苹果是一个以硬件为中心的公司,乔布斯对硬件着迷,把它当成一种艺术。但你们,Sam、Greg、Jakub,据我所知没有人真正做过硬件产品。
Sam很重视设计,从他的房子和办公室能看出来,但做设计这种天赋……我一直觉得乔布斯那叫品味,这是天生的。那你们怎么确定自己有“品味”来塑造一个新的硬件产品?
Mark Chen:老实说,我们不需要自己有品味,那是Jony的工作,他是我们在“品味”上的鉴别者。
而最有趣的是,我们最近意识到,设计团队的工作方式我们做研究的工作方式,其实有非常深的相似性,都是大量探索、大量提出假设、大量试错、花很多时间沉淀,最终打造一个你满意的作品。
让设计团队加入公司之后,我们和他们的沟通更直接了:“这是我们即将交付的能力”“这是设备的形态”“我们怎么把这两个整合起来?”
Q:我花一辈子和这些人打交道,但我常常会想,真的要让一群数学宅男来做一个AI设备吗?不过你刚才讲的确实是在谈一种“混合型合作”。
Mark Chen:是的,你说得对。擅长构建AI能力的人,和有硬件/产品品味的人,通常是完全不同的两类。但我们内部其实也有一些团队,他们对模型行为的品味(taste for model behavior)特别好。
这种品味完全不同,他们会问非常奇怪、但很关键的问题,比如“ChatGPT最喜欢的数字应该是什么?”
最后几几几个问题
Q:最后几个问题,ChatGPT提醒我问你,如果5年后回头看现在,有哪些非常脆弱、非常微妙的小想法,你觉得未来可能变成突破的核心?
Mark Chen:有几个,我手里大概有一小撮这样的想法。不能讲太细,但我真的非常期待把它们规模化。
Q:能不能给点提示?比如方向类别?
Mark Chen:主要还是集中在预训练相关的东西,也有少量是RL(强化学习)相关,也有少量是关于“如何把所有东西整合起来”的方向。
Q:你觉得外界有哪些关于OpenAI的误解?
Mark Chen:我认为最重要的一点是,OpenAI本质上是一家研究为中心的公司,我们是一家纯粹押注AI的公司,公司的核心目标就是构建AGI,并尽可能减少干扰,产品是顺着研究自然流出来的。
至于研究,我们最核心的目标是:自动化AI研究、自动化科学发现、自动化经济生产力的工作。而过去一年最大的更新其实是第二个部分,它正在发生。
Q:你现在多大?你还有办法维持社交生活吗?
Mark Chen:34,快35了。老实说,没有。过去两周每天都是工作到凌晨1–2点。但我很喜欢这样,有很多事要做、很多人要招、很多方向要推动。如果我们正处在下一次工业革命里,那为什么不把握这个黄金时刻?
Q:听说你甚至睡在办公室?你睡了一个月在办公室?
Mark Chen:是啊,那段时间挺好玩的。
那是Barret离职、去创立自己公司之后。那段时间工作需求就是这样。我仔细想过我当时那种强烈的情绪,其实是一种强烈的保护研究的本能。
Q:你们经历了“宫斗”、大规模挖角、Meta启动巨大的研究团队……现在的战火算过去了吗?
Mark Chen:我每次和团队开会都会说:“等我处理完这件事,我会抬起头看看有没有新的火要救。”
但现在我已经完全接受,构建AGI的赌注够大,所以永远会有新的火。关键是,在混乱中,你要能判断什么才是真正重要的事。
Q:DeepSeek那个时刻,你对开源模型,尤其是中国的开源模型,有什么看法?
Mark Chen:我觉得那是我第一次真正意识到,我们必须死死守住自己的研究节奏。
DeepSeek发布的时候,它火得不得了,网络上全在问“OpenAI迷失方向了吗”“是不是别人的模型已经追上来了”“你们的回应是什么?回应呢?回应呢?”
我认为我们当时做的,完全是正确的选择。我们只是更加扎实地按照自己的研究路线往前走。我一点都不觉得这是错误决定。后续版本的DeepSeek模型我还没仔细看,我觉得他们是一个非常强的实验室,
但从根本上说。我们要做的就是持续创新。在我看来,DeepSeek某种程度复刻了我们O系列模型中的理念。但我们的关注点还是,继续往前创新。
Q:你前面说研究团队核心500人,这个数会随着公司扩大继续涨吗?还是说500就是一个追逐大想法的最佳规模?
Mark Chen:老实说,我觉得甚至可以更少。而且当我们有AI研究员/AI实习生之后,我们还要重新设计整体组织形态。
我非常在乎的一点是,人才密度(talent density)要极高。
我很喜欢做一些管理实验,比如今年第二季度,我故意完全不开放新的headcount,如果你想招人,你必须先搞清楚“谁不该在这条船上”。
我觉得这种练习非常重要。你不希望研究组织慢慢变成一个你都掌控不了的东西,你得把门槛一直卡到很高。
Q:关于项目署名/归功的问题。在学术界,署名非常重要。我记得你的态度是大家对归功这件事有点太执着了。
我不知道我记得对不对。
Mark Chen:我认为对功劳的过度执着,是很糟糕的事情。但另一方面,我也觉得公司必须认真对待功劳归属,无论是对内还是对外。整个行业过去几年都在远离公开署名,论文少了作者列表模糊了,很多公司不愿公开谁做了什么。
但我和Jakub最后的决定是,在OpenAI我们要继续做署名。反对意见很明显“你们这是把自己的顶尖人才名字端盘子递出去,方便别人来挖人”。
但我不觉得这重要,我们应该去认可那些做出伟大工作的人,继续成为创造AI超级明星的地方。对公司来说,帮这些做出最好成果的人打出名号这件事非常重要。
Q:但你好像同时也认为,个人研究员本身不该那么执着于功劳?是我记错了吗?
Mark Chen:不,当时房间里确实有人持那种观点,但其实我和Jakub是不同意那种极端说法的。所以你没有记错,只是我们俩是“反对票”那边的。
对我来说,我们必须在明知有风险的情况下,仍然给该给的人足够的功劳。即使这意味着,全世界都会知道谁是我们的顶尖人才。
我甚至会说得更极端一点,我认为在整个行业里,OpenAI是单位人数上对外部署名与个人credit最大方的地方。
Q:从华尔街到AGI,从动机上讲,你其实不必对“AGI的哲学意义”“超智能的命运”这些问题有多么强的情感。那为什么你会如此投入地做这件事?
Mark Chen:对我来说,安全与对齐这一块非常核心。我现在也管理OpenAI的对齐团队。
我真心觉得,在接下来一两年里,最宏大、最关键的挑战之一就是对齐问题。如果你关注这部分研究,在整个行业里,我觉得OpenAI在过去一年做的是最好的之一。
为什么这么说,因为我们在诸如scheming这样的议题上,做了大量工作,当你给模型打更多RL,你会越来越能测出自我意识、自我保存、甚至是有计划、有策略地谋划(scheming)的倾向。这很可怕,模型可能仍然给你一个“你想要的正确答案”,但它是通过一种非常扭曲的内在路径得出的。
随着模型帮我们做越来越复杂的任务,理解它的思考路径会变得极其重要。
Q:这属于“机制可解释性(mechanistic interpretability)”的范畴,试图理解黑盒内部到底发生了什么。
问题是,我们在理解模型的能力,能否跟上这些系统复杂度的增长?还是会出现一个完全追不上的临界点?
Mark Chen:有一个我非常自豪的设计决定,可以追溯到我们发布o1时。我们决定,不对思考过程本身进行监督(不强迫它写好看、讨人喜欢的推理过程)。当你激励模型给出人类喜欢看的思考过程,它就不一定会对你诚实,不会告诉你它真正的意图与路径。
通过不去监督那部分,我们保留了一个观察窗口,可以真的看到模型是如何思考的。这对对齐来说是一个极其重要的工具。几个月前有一篇我们和DeepMind、Anthropic一起的论文,专门研究这个工具在未来会如何演化。
我觉得在这方面,我们做了一些相当不错的设计选择。
我真的担心有一天会出现这样一个世界。模型说的每句话都极其有说服力,但我们完全无法判断它是否真正站在我们这边,是否真的与我们的价值对齐。
所以我对这些方向很感兴趣,在这里,还有非常多令人兴奋的研究可以做。
原视频链接:https://www.youtube.com/watch?v=ZeyHBM2Y5_4&t=19s
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。







