OpenAI o1-mini模型发布，专注于快速解决专家级推理问题

资讯 2个月前 admin

0 0

一、概述
发布日期：2024年9月12日
产品名称：OpenAI o1-mini
目标：推进成本效益高的推理能力
特点：专注于 STEM（科学、技术、工程、数学）领域的推理，尤其是在数学和编程方面

二、性能
基准测试：
数学：在高中数学竞赛 AIME 中，o1-mini（70.0%）与o1（74.4%）接近，显著优于 o1-preview（44.6%）
编程：在 Codeforces 竞赛网站上，o1-mini 达到1650 Elo，与o1（1673）接近，优于 o1-preview（1258）
STEM：在需要推理的学术基准测试中，如GPQA（科学）和 MATH-500 ，o1-mini 优于 GPT-4o人类偏好评估：在推理密集型领域，o1-mini 比 GPT-4o 更受偏好，但在语言密集型领域则不如 GPT-4o

三、速度
o1-mini 在处理问题时比 o1 快 3-5 倍

四、安全性
训练：使用与 o1-preview 相同的对齐和安全技术
安全性评估：
标准有害提示安全完成率：99%
挑战性有害提示安全完成率：93.2%（比 GPT-4o 的 71.4% 高）
良好完成率：在 StrongREJECT 越狱评估中，o1-mini 得分为 0.83，比 GPT-4o 的 0.22 高

五、限制与未来计划
限制：o1-mini 在非 STEM 领域的知识（如日期、传记、琐事）与小型语言模型如 GPT-4o mini 相当
未来计划：将改进这些限制，并探索将模型扩展到 STEM 以外的其他模态和专业领域

openai模型