【人工智能】超越ARC-AGI：GAIA和对真正智能基准的探索

小编 2025-08-10

　　智力无处不在，但其衡量标准却显得主观。我们最多只能通过测试和基准来粗略地衡量它。想想大学入学考试：每年都有无数学生报名参加，熟记备考技巧，有时还能拿到满分。一个数字，比如100%，是否意味着获得这个数字的人拥有相同的智力——或者他们已经达到了智力的极限？当然不是。基准只是近似值，而不是对某人（或某物）真实能力的精确衡量。

　　生成式人工智能社区长期以来一直依赖诸如MMLU（大规模多任务语言理解）之类的基准测试，通过跨学科的多项选择题来评估模型能力。这种形式虽然可以直接进行比较，但无法真正捕捉智能能力。

　　例如，Claude 3.5 Sonnet 和 GPT-4.5 在该基准测试中的得分相近。理论上，这表明它们拥有同等的性能。然而，使用这些模型的人都知道，它们在实际性能上存在显著差异。

　　ARC-AGI基准测试旨在推动模型向通用推理和创造性解决问题的方向发展，而随着新发布的发布，关于如何衡量人工智能的“智能”的争论再度升温。虽然并非所有公司都测试过 ARC-AGI 基准测试，但业界对此以及其他旨在改进测试框架的努力表示欢迎。每个基准测试都有其优点，而 ARC-AGI 是这场更广泛讨论中值得期待的一步。

　　人工智能评估领域近期另一个值得关注的进展是“人类的最后考试”，这是一项涵盖3000道同行评审、涵盖多个学科的多步骤问题的完整基准测试。虽然这项测试代表着一项雄心勃勃的尝试，旨在挑战人工智能系统达到专家级推理能力，但早期结果显示其进展迅速——据报道，OpenAI在其发布后的一个月内就取得了26.6%的得分。然而，与其他传统基准测试一样，它主要孤立地评估知识和推理能力，而没有测试对现实世界的人工智能应用日益重要的实用工具使用能力。

　　在一个例子中，多个最先进的模型都无法正确计算单词“strawberry”中“r”的数量。在另一个例子中，它们错误地将3.8识别为小于3.1111。这类失败——即使是小孩子或使用普通计算器就能解决的任务——暴露了基准驱动的进步与现实世界的稳健性之间的不匹配，这提醒我们，智能不仅仅是通过考试，还在于可靠地驾驭日常逻辑。

【人工智能】超越ARC-AGI：GAIA和对真正智能基准的探索(图1)

　　随着模型的进步，这些传统的基准测试已经显示出它们的局限性——尽管在多项选择题测试中取得了令人印象深刻的成绩，但在GAIA 基准测试中，带有工具的 GPT-4 在更复杂的现实任务上仅取得了约 15% 的成绩。

　　随着人工智能系统从研究环境转向商业应用，基准性能与实际能力之间的脱节问题日益严重。传统的基准测试侧重于知识回忆，但却忽略了智能的关键要素：收集信息、执行代码、分析数据以及跨领域综合解决方案的能力。

　　GAIA 是人工智能评估方法论的必要变革。该基准测试由 Meta-FAIR、Meta-GenAI、HuggingFace 和 AutoGPT 团队合作创建，包含 466 个精心设计的问题，涵盖三个难度级别。这些问题测试网页浏览、多模态理解、代码执行、文件处理和复杂推理——这些能力对于现实世界的人工智能应用至关重要。

　　一级问题需要大约 5 个步骤和一种工具才能人工解决。二级问题需要 5 到 10 个步骤和多种工具，而三级问题则可能需要多达 50 个步骤和任意数量的工具。这种结构反映了业务问题的实际复杂性，解决方案很少来自单一的操作或工具。

　　通过优先考虑灵活性而非复杂性，一个人工智能模型在 GAIA 上的准确率达到了 75%，超越了行业巨头微软的 Magnetic-1（38%）和谷歌的 Langfun Agent（49%）。他们的成功源于其结合了多种专门用于视听理解和推理的模型，其中以 Anthropic 的 Sonnet 3.5 为主要模型。

　　AI 评估的演变反映了行业更广泛的转变：我们正在从独立的 SaaS 应用程序转向能够协调多种工具和工作流程的 AI Agent。随着企业越来越依赖 AI 系统来处理复九游娱乐杂、多步骤的任务，像 GAIA 这样的基准测试比传统的多项选择题测试更能有效地衡量企业的能力。

　　人工智能评估的未来并非在于孤立的知识测试，而是在于对问题解决能力的全面评估。GAIA 为衡量人工智能能力设立了新的标准，使其能够更好地反映现实世界人工智能部署的挑战和机遇。

　　本文所发布的内容和图片旨在传播行业信息，版权归原作者所有，非商业用途。如有侵权，请与我们联系。所有信息仅供参考和分享，不构成任何投资建议。投资者应基于自身判断和谨慎评估做出决策。投资有风险，入市需谨慎。

　　恶魔！维珍航空金牌空姐遭头等舱富豪8小时虐待+死亡威胁，背后真相更令人毛骨悚然…

　　上海，女子与一男子相亲，点了2万元的酒后，女子称腹痛离开，男子刷爆信用卡支付2.5万元后报警，结果……

　　邪修学习法爆火？网友：学渣变学霸，都靠这些不上台面的野路子

　　AI、Web3、Meta聚合型精选内容分享。以前沿视角，探索科技未来；让每一个人，都走在时代的前沿

　　《编码物候》展览开幕北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律