首个AI高考评测结果发布 GPT-4o拿下第二名-小易智趣

在人工智能的世界里，高考不再只是人类的舞台。最近，上海人工智能实验室用一场别开生面的“高考”，让我们见证了AI的学术实力。他们采用了OpenCompass评测体系，让包括GPT-4o在内的7个AI模型，接受了语文、数学和英语的全面能力测试。

这场测试采用的是全国新课标I卷，确保了所有参与的开源模型都是在高考前就已经开源，保证了测试的公正性。而且，这些AI的“答卷”是由有高考评卷经验的教师人工评判的，力求接近真实的阅卷标准。

参与评测的模型来自不同的背景，有法国AI创业公司Mistral开源的Mixtral8x22B对话模型，零一万物公司的Yi-1.5-34B，智谱AI的GLM-4-9B，上海人工智能实验室的InternLM2-20B-WQX，以及阿里巴巴的Qwen2系列。GPT-4o作为闭源模型参与评测，仅作为参考。

成绩揭晓，Qwen2-72B以303分的总分位列第一，GPT-4o以296分紧随其后，InternLM2-20B-WQX则以295.5分位列第三。这些模型在语文和英语科目上表现不俗，语文平均得分率达到了67%，英语更是高达81%。然而，在数学科目上，所有模型的平均得分率仅为36%，显示出AI在数学推理方面还有很大的提升空间。

阅卷教师对AI模型的答卷进行了全面分析。在语文科目中，模型们普遍阅读理解现代文较为得心应手，但在文言文和作文上则稍显不足。数学方面，模型们的公式记忆能力虽强，但在解题过程中的灵活运用上还有欠缺。英语科目整体表现良好，但在某些题型上，部分模型的得分率较低。

这次“大模型高考”不仅让我们看到了AI在学术领域的潜力，也揭示了它们在理解和应用知识上的局限性。随着技术的不断进步，我们有理由相信，未来的AI将变得更加聪明，更好地服务于人类社会。