
作者丨漫地
编辑丨关雎
头图丨Angelopoulos(右)Chiang(左)
最近,美国加州大学伯克利分校(UC Berkeley)学术研究项目孵化出的创业公司LMArena,成为了估值17亿美元(约人民币120亿元)的独角兽。而它仅仅成立一年。
其凭借构建的全球最大规模的用户偏好大模型实时数据集,来满足市场对AI可靠性评估的迫切需求,而这也让LMArena在资本市场上获得高度认可。
在短短一年时间内,LMArena完成了由Andreessen Horowitz(a16z)、Felicis Ventures等顶尖风投领投的两轮融资,包括种子轮1亿美元,A轮1.5亿美元的资金。
然而,其商业模式的可靠性正面临争议。一个搞AI测评的初创公司,凭什么跃升成为独角兽?


学术机构里跑出来的创业公司
LMArena脱胎于大型模型系统组织(Large Model Systems,LMSYS )。该组织起源于2023年,由加州大学伯克利分校、斯坦福大学、加州大学圣地亚哥分校、卡内基梅隆大学等多所大学合作发起。它于2024年9月注册为非营利性公司,旨在孵化早期开源和研究项目。
也是在2023年,一起在加州大学伯克利分校电子工程与计算机科学系攻读博士学位的Anastasios N. Angelopoulos和Wei‑Lin Chiang,受LMSYS资助,创立了Chatbot Arena,这即为LMArena的前身。
作为一个学术附属项目,Chatbot Arena拥有一个较为纯粹的初心:构建一个公开透明的评估平台,它能够真正地反映大型语言模型在现实世界中的应用情况。
大家都知道,我们日常使用的生成式人工智能所依托的大模型需要不断地被训练,而人们在使用过程中真实的使用体验和建议,可以最大程度地帮助大模型提升回答质量。“哪些人工智能模型对我来说最好用?” 作为用户,你也许也有这样的疑惑。
2023年5月,Chatbot Arena被正式推出。Chatbot Arena平台上会展示不同人工智能对同一问题的回答,每个用户都可以通过匿名的方式选择自己更喜欢的答案,对不同的人工智能模型进行投票。
2025年1月,Chatbot Arena注册为商业化实体LMArena,由Anastasios N. Angelopoulos任首席执行官、Wei‑Lin Chiang任首席技术官,Ion Stoica是联合创始人兼顾问。

Ion Stoica(左)Angelopoulos(中)Chiang(右)
三个人可谓强强联合。
Ion Stoica是UC伯克利大学的计算机系教授,同时领导着该校的天空计算实验室((SkyLab)。他还是位连续创业者,先后参与创办了Anyscale、Databricks、Conviva Networks等公司。
Angelopoulos 对于可信赖的人工智能系统、黑箱决策和医疗机器学习方面的研究颇深,他曾在谷歌 DeepMind 担任学生研究员,并计划在Stoica 那里开始博士后研究,专注于在高风险环境下评估人工智能。
Chiang则同样是在 Stoica 领导的天空计算实验室研究分布式系统和深度学习框架,此前曾在谷歌研究、亚马逊和微软从事研究工作。
目前,LMArena已经吸引了数百万参与者,截至2025年4月,已记录超过300万次比较,评估了400多个模型,其中包括商业化的GPT-4、Gemini、Bard以及开放权重的Llama和Mistral模型,很大程度帮助了用户以及企业理解这些模型的能力和局限性。
通常而言,大模型是基于互联网上开放的可用数据进行训练的,而大多数大模型基准测试也都是静态的。如果模型通过“记忆”污染数据就能在基准测试上获得高分,那么大模型的研发团队可能会过度优化模型以拟合这些有缺陷的指标,而非提升其实用性和解决真实世界问题的能力。这就像学生为了应付考试而死记硬背,却忽略了真正理解知识。
所以,LMArena利用实时评估来缓解这个问题,通过持续不断地收到来自真实用户的新反馈来进行修正。这些反馈会被梳理成开放的排行榜和技术文章,为大模型的性能提供重要意见,指导LLM的改进和持续开发。此外,LMArena还与开源和商业模型供应商合作,将他们的最新模型投放到平台社区进行预测试,使得这些模型在正式发布前可以进行调整。
具体来看,其运作流程是通过用户在LMArena上操作,就像是在一个类似豆包、Chatgpt等生成式人工智能平台。用户可以提出问题,平台则通过大模型生成两个不同风格或者版本的答案,用户可以在答案下方的反馈区对更偏好的答案进行选择“左边更好”、“右边更好”、“平局”、“都不好”。

图:Chatbot Arena界面
但是这样的一个平台,在人工智能领域似乎“技术含量”并不高。它靠什么一年内完成两轮融资跃升为估值17亿美元的独角兽?

做人工智能领域的评估者
在人工智能应用渗透进日常生活的时代里,如果说AI本身的运行性能决定了它能跑多快,那它生产出来的内容是否值得被信赖,则决定了它能走多远。
“这就是我们为什么投LMArena的理由”,位于硅谷的著名风险投资基金 a16z合伙人Anjney Midha说到。LMArena的两轮融资中都有a16z的身影。
在Anjney Midha看来,当模型变得足够可靠,无疑会给各行各业带来颠覆性的效果。比如医院可以信任大模型的诊断结果、法院也可以信任大模型的分析裁判结果。而目前政府机构也已经开始参与到可靠性的人工智能领域中来,受监管的行业也在试点部署。
所以,行业的需求信号已然很清晰——对于要运行重要领域内容的人工智能而言,中立客观的评估必不可少。
而这样的需求便是一个巨大的机会。如果大模型的“实战检验”未来可以成为人工智能领域的权威认证,那么LMArena目前已经构建的规模最大、基于人工智能输出的人类偏好实时数据集,则无疑将成为其在人工智能评估领域的先发优势。
投资人的钱总会流向更可能带来更大回报的项目。LMArena最近的A轮融资,由知名的风投机构Felicis Venture和UC Investments(加州大学投资部门)共同牵头,a16z、The House Fund、LDVP、Kleiner Perkins、Lightspeed Venture Partners和Laude Ventures也参与其中。
而在去年5月份的种子轮融资中,该公司筹集了1亿美元,由a16z和UC Investments领投。


“AI测评生意”够可靠吗?
目前,市场上对大模型做测评的企业数量并不少。从测评榜单这种形式来看,AI大模型排行榜呈现出“各司其职”的多元格局,每家有自身的特色。
LMArena被誉为业内的“黄金标准”或“人气榜”,其核心在于利用用户参与这种众包形式,人类主观偏好明显。它采用匿名双盲测试,让用户在不知模型身份的情况下对话并投票,再通过类似国际象棋的Elo系统进行排名。这种方法最直接地反映了各个模型的综合用户体验和对话流畅度,但可能更偏爱回答风格“讨喜”的模型。
与之形成鲜明对比的是由学术界推动的LiveBench,其背后平台由图灵奖得主、Meta首席AI科学家杨立昆(Yann LeCun) 联合Abacus.AI、纽约大学等机构共同推出的。Abacus.AI 是一家人工智能及机器学习研究商,它帮助LiveBench成长为一个每月更新的“防作弊系统”。其排名依据全部来自最新的数学竞赛、Kaggle数据集或arXiv论文,且有标准答案,旨在从根本上杜绝模型通过记忆旧数据“刷分”,专门检验模型在陌生问题上的真实推理和泛化能力,因此被视作衡量LLM模型“硬实力”的试金石。
此外, OpenRouter Rankings直接基于平台上的实际API调用量进行排名。OpenRouter的商业模式可以概括为“聚合调度+增值服务”。它本身不研发模型,而是作为一个中间层,整合了来自60多家供应商的400多个AI大模型(包括OpenAI、Google、Anthropic等主流厂商以及众多开源模型),然后通过统一的API向开发者提供服务,收取5%-5.5%的服务费 。其发布的模型用量排行榜在开发者和投资圈内也备受关注。

除了这些美国企业开发运营的国际榜单,还有像OpenCompass(上海人工智能实验室2023年12月开源)、SuperCLUE这样的国内榜单,它们重点关注模型在中文理解、文化背景及符合国内法规方面的能力,为本土化应用提供了关键参考。但是这些榜单大多是由政府研究机构和高校和在线社区主导,相对而言,中国在对LLM大模型评测方面的商业化程度较为空白。
回到LMArena本身的运作模式来看,其测评内容的可靠性其实本身也有诸多争议。
美国的数据标注公司Surge AI质疑LMArena的运作,称其完全依赖于不受控制的志愿者在平台上进行的游戏化劳动——随机的互联网用户花两秒钟快速浏览一下,然后点击他们最喜欢的答案。而实际上,这些用户自身并没有任何动力去认真思考作答。没有质量控制下的大模型系统打分能做到准确有效吗?
比如,针对一个关于蛋糕模具的数学问题,LMArena生成了两个答案供用户选择。但最后,用户投票支持了一个数学上不正确的答案,因为这个答案看起来似乎“更合理”。

图:LMArena的投票者奖励错误的数学计算
而LMArena的领导层也曾在公开场合谈到,他们采用了各种方法来克服用户输入数据质量低下的问题。他们承认,用户更喜欢大模型生成的带有表情符号和冗长的内容,而不是实质性高质量的内容。所以这种测评模式很可能无法真正筛选出能生产高质答案的大模型。
LMArena此轮融资虽猛,但是当潮水褪去,是否能留在牌桌上,还有待时间观察。
本文为创业邦原创,未经授权不得转载,否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问,请联系editor@cyzone.cn。







