专访谷歌CEO皮查伊:Gemini只是起步,微调还能让它更强

2023-12-08
在Gemini发布前夕,《麻省理工学院技术评论》杂志在谷歌位于加州山景城的办公室采访到了皮查伊,与他讨论了Gemini对谷歌、其产品、人工智能以及整个社会的深远影响。

编者按:本文来自微信公众号 腾讯科技(ID:qqtech),编译:金鹿,编辑:腾讯科技 郝博阳,创业邦经授权转载。

美国当地时间周三,谷歌发布了其最新一代的人工智能模型Gemini。这个新模型体现了谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)多年努力的成果。

皮查伊此前曾负责谷歌的Chrome和安卓业务,向来以痴迷产品而闻名。早在2016年,他就开始为谷歌的人工智能发展定下了基调。在他作为首席执行官的首份创始人信中,他预测:“我们将从移动优先的世界转向人工智能优先的世界。”从那时起,皮查伊开始逐步推动谷歌所有产品的人工智能化,从安卓设备到云计算,无一不包。

然而,尽管谷歌在人工智能领域有着深厚的基础,但其风头近来逐渐被OpenAI盖过。OpenAI去年推出的DALL-E和GPT-3.5,以及今年的GPT-4,无疑在人工智能行业掀起了巨大的波澜,引发了初创公司和科技巨头之间的激烈竞争。

Gemini的诞生,无疑使谷歌在这场竞争中重新获得了有力地位。该系统由谷歌DeepMind推出,这是由德米斯·哈萨比斯(Demis Hassabis)领导的新整合部门。现在,用户可以在谷歌的聊天机器人Bard中体验到Gemini的功能,谷歌预计将在2024年将其全面整合到自家产品线中。

在Gemini发布前夕,《麻省理工学院技术评论》杂志在谷歌位于加州山景城的办公室采访到了皮查伊,与他讨论了Gemini对谷歌、其产品、人工智能以及整个社会的深远影响。

以下为专访全文:

问:Gemini为何如此引人注目?能否分享一下你对人工智能的整体看法?它的潜力、应用以及其在谷歌所有产品中的发展前景?

皮查伊:Gemini之所以令人瞩目,其中一个重要原因是它从根本上就是一个多模态模型。就像人一样,它不仅从文本中学习,还能通过视频、音频和代码进行学习。因此,这个模型天生就具备了更强大的能力,我相信这将推动我们开发出更多新功能,并推动该领域的进步。这确实令人振奋。

另一个令人感到兴奋的原因在于,在32个主要基准测试中,Gemini在30个中都是最佳表现,尤其是在多模态基准测试中。在MMLU(大规模多任务语言理解)测试中,它更是取得了巨大的进步。我个人认为,作为领先基准之一的MMLU,Gemini跨越了90%的门槛,这是一个意义重大的里程碑。回想两年前,当时的水平只有30%,然后是40%。这充分展示了该领域所取得的巨大进步。在57项测试中,Gemini的表现有89%与人类专家相当。这是第一个达到这一标准的模型。

我本人也感到很激动,因为Gemini终于要应用于我们的产品中了。它将向开发者开放。人工智能是一个深刻的平台变革,比网络或移动变革还要深远。因此,这对我们来说代表着迈出了重要的一步。

问:让我们来谈谈这些基准测试。虽然Gemini似乎在几乎所有测试中都领先于GPT-4,但领先优势并不明显。而GPT-4本身就是一个巨大的飞跃。我们是否开始触及这些大语言模型技术的极限,或者你认为仍然存在巨大的提升空间?

皮查伊:首先,展望未来,我们确实看到了巨大的提升空间。有些基准已经很高了。但我们必须意识到,当你试图从85%开始突破时,你已经处于曲线的末端。虽然看起来进展不大,但确实意味着我们仍在取得进展。我们还需要开发新的基准测试,这也是我们研究MMLU多模态基准的部分原因。对于其中一些新的基准,目前的技术水平仍然很低,未来还有很大的提升空间。比例定律依然有效:随着模型的扩大,我们会看到更多的进展。从整体来看,我真的觉得我们才刚刚开始探索人工智能的潜力。

问:在你看来,Gemini的关键创新是什么?这些创新将如何被实际应用?

皮查伊:人们可能难以想象即将到来的种种突破。我们正在提供应用程序开发接口(API),使人们能够以前所未有的方式体验它。我相信多模态基准将取得巨大的进展。随着我们教会这些模型进行更多的推理,将会出现越来越大的突破,而且更深远的突破还在后头。

以Gemini Pro为例,它在基准测试中的表现非常出色。但当我们将其集成到Bard中时,我可以亲身感受到它的优势。我们一直在对它进行测试,所有类别任务的好评率都有显著的提升。因此,我们将其称为迄今为止最大的升级之一。当我们进行并行评估时,它的表现确实令人印象深刻。因此,这些更好的模型在基准上不断改进,取得了显著的进步。我们将继续训练和学习。

然而,我迫不及待地想将Gemini应用于我们的产品中。这些模型具有强大的能力。在接下来的几个月里,设计出能够充分利用这些模型优势的产品体验将是令人兴奋的挑战。

问:虽然Gemini在各个方面都略微领先于GPT-4,但你认为从GPT-4的发布中学到了什么?在这段时间里,有哪些方法发生了变化?

皮查伊:至少在我看来,这并不是一个零和游戏。想想看,向人工智能的转变是多么深刻,我们还处于早期阶段,前方充满了无限的机会。

关于你的具体问题,这是一个我们都在快速进步的领域。我们发表了很多文章,研究像GPT-4这样的模型在现实世界中是如何工作的。我们从中学到了很多经验教训。安全是一个重要的领域。因此,在Gemini项目中,我们已经学习并改进了一些安全技术,这些技术是基于模型在现实世界中的运作方式而改进的。它表明了微调等各种技术的重要性。我们在Med-PaLM 2中展示的一个例子是,采用一个像PaLM这样的模型,并对其进行微调以适应特定的领域,结果表明它可以胜过最先进的模型。这就是我们学习到微调的方式之一。

当我们研发Gemini时,很多这样的经验都被应用到了其中。我们花费更多时间研发Gemini Ultra(更先进的Gemini将于明年推出)的部分原因是为了确保我们对其进行了严格的安全测试。同时,我们也在对其进行微调,以充分发挥其潜能。

问:当这些模型在现实世界中应用时,有时候会出现产生幻觉或泄露训练数据中私人信息的情况。考虑到模型所使用的数据,如果这是不可避免的,那么这在技术中有多少是固有的?如果无法避免,你们会采取哪些措施来限制这种情况的发生?

皮查伊:你提出的问题非常关键。事实上,我们最近发表了一篇论文,揭示了这些模型如何通过一系列提示泄露训练数据。虽然目前还没有解决幻觉问题的方案,但我认为我们都在朝着这个方向努力,只是还需要做更多的工作。我们需要克服一些基本的限制。举个例子,如果我们使用Gemini Ultra,我们正在积极与外部第三方合作,他们是这些领域的专家。

在多模态等方面,我们希望能够更大胆、更负责任。在推出多模态模型时,我们会更加谨慎,因为错误用例的可能性更高。但是,你指出的问题仍然是开发中技术所面临的挑战,它们并不适用于所有情况。在搜索中,我们会更加仔细地考虑如何使用它、何时使用、在哪里使用以及何时触发。这些模型具有惊人的能力,但也存在明显的缺陷。这是我们所有人都需要解决的艰巨挑战。

然而,未来的人工智能系统可能与我们今天所拥有的系统截然不同,就像有人曾认为计算机无法装进口袋一样。同样地,对于这些系统,如果有人说无法设计出更好的系统,我并不同意这种观点。目前正在进行许多研究探索,思考如何解决这些问题。

问:你认为人工智能将带来深刻的变革。然而,在最近的一些转变中,比如向移动设备的转变,生产率的提高并不一定是必然的,甚至在很长一段时间内都保持不变。有观点认为,这甚至可能加剧了收入不平等。谷歌正在开展哪些工作来确保这种转变对社会更有益?

皮查伊:这是一个非常重要的问题。我从几个角度思考这个问题。在谷歌,我们一直关注的一件事是:如何让技术尽可能广泛地使用?即使在移动领域,我们利用安卓操作系统做了很多工作,但仍有数亿人无法使用手机。我们正在努力推出一款价格合理的智能手机,价格可能低于50美元。因此,让人工智能对每个人都有所帮助是我考虑的重点之一。我们尝试让尽可能多的人接触到这些技术。

同时,我们正在深入思考如何将人工智能应用于对人们有益的用例中。以洪水预报为例,我们早期投入该领域的原因是我们意识到可以探测到模式并做得很好。我们也将人工智能用于翻译1000种语言。我们现在确实在尝试用不同的语言提供内容,否则你将无法访问这些内容。

这并不能解决你提到的所有问题。但我们要慎重考虑在何时何地专注于解决什么样的问题。以AlphaFold等领域为例,我们为世界各地的病毒提供了一个开放的数据库。但是,谁会最先使用它?人工智能不会神奇地让某些更困难的问题变得更好,比如不平等问题或者它可能会加剧这种情况?

重要的是确保每个人都能使用技术。在早期开发阶段就让人们接触到技术并参与到对话中,这样社会就可以帮助测试技术并适应它。在这方面我们肯定比其他公司更早地参与其中。最近我们参加了英国人工智能安全论坛,并与美国国会和政府合作,我们正在尝试建立更多的公私合作伙伴关系,以更早地吸引非营利机构和学术机构参与进来。至于对就业等领域的影响,还需要深入研究,但我确实认为会带来惊喜。

我可以举很多例子来说明手机带来的好处,我认为人工智能技术也是如此。我们已经在糖尿病视网膜病变等领域展示了这一点,毕竟世界上许多地方没有足够的医生来检测这种疾病。就像我觉得让世界各地的人们都能使用谷歌搜索一样,我认为这是扩大人工智能使用范围的一种方式。

问:有些技术,如编程,明显提高了效率,但其普及也对就业市场构成了威胁。你如何看待这个问题?

皮查伊:技术的确在推动效率提升,但我们也不能忽视它对就业的潜在影响。然而,问题的答案并非非黑即白。以面部识别技术为例,尽管我们公司没有提供相关的API,但其他公司已经开发出了这样的技术。技术发展的脚步并不会因为某一家公司的决策而停止。这是一个比单一公司决策更为复杂的社会问题。如果我们不采用这些新技术,可能会影响到我们的经济竞争力,甚至可能导致更多的工作岗位流失。

我认为,我们应该以负责任的态度来部署这些技术,同时思考如何减轻其可能带来的负面影响。新的工作类型将会随着技术的发展而出现,人们将有机会从重复性的工作中解脱出来,有更多的时间和空间去进行深入思考和创造性表达。当然,这也会使得某些工作岗位变得不再必要。作为一个社会,我们需要思考如何对这些受到影响的人们进行再培训,帮助他们找到新的工作机会。

问:对于人工智能的发展,人们的看法出现了分歧。有的人支持安全第一,有的人则认为商业用例应该优先。有人支持加速开发,也有人担心出现世界末日。你如何看待这种分歧?

皮查伊:我是一个技术乐观主义者,我相信人类可以利用技术来造福社会。人工智能确实具有两面性,但我们不能因为恐惧而停止前进的脚步。我们需要大胆地向前迈进,同时也需要社会制定出相应的框架来应对可能出现的问题,如深度造假、工作岗位被取代等。这将是我们未来十年需要努力解决的最大问题之一。

问:围绕人工智能的法律法规也是一个悬而未决的问题。例如,有关于合理使用、版权保护等问题。对于知识产权来说,这似乎将是一件大事。你如何确保那些使用你产品的人有种安全感,不必担心为自己所做的事情而被起诉?

皮查伊:并不是所有的问题都有简单的答案。在人工智能之前,我们在开发搜索、YouTube等产品时,就一直在努力实现正确的价值交换。人工智能也是如此。我们将专注于确保我们的训练数据符合法律规定,同时让人们有机会选择退出。还有一个层面是关于什么是合理使用。为原创内容的创造者创造价值是很重要的。

随着时间的推移,会有新的法律框架出现。我们将努力遵守法律,并与内容提供商保持良好的关系。这是一个充满争议的领域,但我们正在努力寻找解决方案。我们必须创建一个双赢的生态系统,让所有这些元素都能长期共存并发挥作用。

问:如今,许多人对网络未来的担忧集中在搜索领域。当有一种技术能够根据网络信息为你提供答案时,有人担心人们可能不再需要访问这些网站了。这对谷歌会有影响吗?你是否在考虑自己的业务?

皮查伊:在搜索领域,谷歌的独特价值在于帮助用户发现和学习新事物,并找到答案,同时始终注重分享网络上丰富多样的观点。这也是我们产品开发的重要原则之一。我们相信人们在搜索时并不仅仅想要一个简单的答案,而是希望通过探索和学习,深入了解更多信息。因此,我们一直致力于提供高质量的搜索结果,并确保我们所做的事情是正确的。在这个过程中,保持平衡至关重要。

当然,我们也需要考虑商业价值。从台式机到移动设备,我们一直在面对类似的问题。但是,通过深入了解用户需求和对高质量广告的反应,我们对未来充满信心。以YouTube为例,我们已经推出了订阅模式,并且取得了很好的效果。

问:随着这些产品逐渐进入市场并开始与用户互动,你认为明年人们的体验会发生怎样的变化?

皮查伊:我认为,从现在开始的一年里,使用Google Docs的人将会期待一些不同的体验。如果我们给他们提供了全新的功能,然后再让他们回到2022年版本的Google Docs,他们会发现旧版本已经过时了。这就像我的孩子们一样,如果他们使用的Google Docs没有拼写检查功能,他们就会认为出了问题。与此同时,与其他公司相比,我们在搜索中融入了更多的人工智能技术,使得自动功能成为许多产品中理所当然的存在。这也是我们多年来学到的一个重要经验:让用户相信这些功能的存在是理所当然的。

随着我们开发多模态能力,人们将能够以一种以前无法做到的方式完成更复杂的任务。这将带来真正的用例和更强大的功能。总的来说,我们将继续努力改进我们的产品和服务,以满足用户的需求和期望。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。