谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

硅谷101·2025-10-31

在大模型激战的今天，谁才是真正的“最强AI”？传统的Benchmark测试正因“题库泄露”和“刷分”在失去公信力，而一个叫LMArena的平台，却用“匿名对战+人类投票”的方式，重新定义了大模型的评测标准。从GPT到Claude，从Gemini到DeepSeek，所有顶级模型都在这个虚拟竞技场中展开真正的较量。然而，随着Meta“刷榜”风波、数据不对称问题以及平台自身的商业化，LMArena的公平性也开始面临严峻挑战。

传统的Benchmark真的过时了吗？LMArena的“人类判决”又隐藏着怎样的偏见与漏洞？当AI评估进入下半场，我们又该如何定义和衡量真正的“智能”？