Chatbot Arena的偏见与透明性困境:AI评测体系的反思
在4月底的时候我简单写过Ben Thompson与Nat Friedman/Daniel Gross的一次访谈。其中有一段特别印象深刻:
“许多公司的CEO都在炫耀他们在MMLU(大规模多任务语言理解基准)上的表现。有趣的是,MMLU实际上是由Dan Hendrycks在他大学本科期间开发的评估工具。换言之,这些市值万亿美元公司的CEO们正在讨论他们在一个本科生创建的测试中的得分。尽管如此,MMLU确实是目前最重要的AI推理能力评估方法之一…
当前AI领域面临的一大挑战是缺乏优质的公开评估体系。在这种情况下,观察模型发布几周后用户在Twitter上的反馈,反而可能是一种更为有效的评估方式…”
前两天又看到一篇TechCrunch的文章提到另外一个广泛被引用的大模型排行榜 - Chatbot Arena受到的质疑,再次深感到大模型性能评测这个方面还有很大空间可以挖掘。其中的一些重点整理如下: