ARC(抽象与推理语料库)由 François Chollet 于 2019 年开发,专注于评估人工智能从最小示例中学习和概括新技能的能力。与通常测试预先形成的知识或模式识别的传统基准不同,ARC 任务旨在挑战模型以动态推断规则和转换,这些任务人类可以直观地解决,但人工智能在历史上一直遇到困难。
ARC AGI 特别困难的是每项任务都需要不同的推理能力。,而必须适应每次 哥伦比亚电话数据 测试的全新挑战。例如,一项任务可能涉及识别几何变换中的模式,而另一项任务可能需要对数字序列进行推理。这种多样性使得 ARC AGI 成为衡量人工智能如何像人类一样思考和学习的有力衡量标准。
ARC AGI 测试任务示例
你能猜出输入转化为输出的逻辑吗?来源:OpenAI
ARC AGI 的 o3 性能标志着一个重要的里程碑。在低计算设置下,o3 在半专用待机设置上得分为 76%,这一数字远高于之前的任何型号。
当使用高计算设置进行测试时,它达到了更令人印象深刻的 88%,超过了通常被认为是人类水平性能的 85% 阈值。这是人工智能首次在这一基准测试中超越人类,为基于推理的任务设立了新标准。
O 系列在 ARC AGI 上的性能
O 系列性能来源:ArcPrize。
我们认为这些结果特别值得注意,因为它们证明了 o3 执行需要适应性和泛化性任务的能力,而不是死记硬背的知识或强力计算。这清楚地表明,o3 正在接近真正的通用智能,超越特定领域的能力,进入以前被认为是人类专属领域的领域。
o3 迷你是什么?
o3 mini 与 o3 一起推出,作为一种经济高效的替代方案,旨在为更多用户带来先进的推理功能,同时保持性能。 OpenAI 将其描述为重新定义了推理模型中的“性价比前沿”,使其可以用于需要高精度但需要平衡资源限制的任务。
o3 mini 的突出特点之一是其自适应思考时间,它允许用户根据任务的复杂性调整模型的推理工作。对于更简单的问题,用户可以选择省力推理以最大限度地提高速度和效率。