AI新時代揭幕！會「思考解題邏輯」的OpenAI推理大模型登場

財聯社 · 09/13 07:30

①OpenAI o1模型（“草莓”大模型）标志着人工智能在复杂推理任务领域的崭新水平；②通过改变AI模型的行为方式，新模型能够有效提高回答质量，同时避免一些机制性缺陷；③OpenAI首发推出o1-预览版和o1 mini两款模型。

财联社9月13日讯（编辑史正丞）北京时间周五凌晨1时许，AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。

OpenAI在官网发布公告称，开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示，对于复杂推理任务而言，新模型代表着人工智能能力的崭新水平，因此值得将计数重置为1，给它一个有别于“GPT-4”系列的全新名号。

推理大模型的特点，就是AI会在回答之前花更多时间进行思考，就像人类思考解决问题的过程一样。以往的大模型，背后的逻辑是通过学习大量数据集中的模式，来预测单词生成的序列，严格来说并不是真正理解提问。

认知将跃升至“理科博士生水准”

OpenAI曾解释过，2023年发布的GPT-4类似于高中生的智能水平，而GPT-5则是完成AI从“高中生跃升至博士”的成长。这个o1模型就是其中关键的一步。

相较于GPT-4o等现有的大模型，OpenAI o1能够解决更加困难的推理问题，同时改善过往模型中存在的机制性缺陷。

举例而言，这个新模型能够数清楚strawberry里到底有几个“r”。

同时AI在解答编程问题时也会更有条理，在着手写代码前，把整个回答的流程全部思考完一遍，再动手输出代码。

例如在预设条件的写诗任务（例如第二句的最后一个单词需要以i收尾）中，“拿起笔就写”的GPT-4o的确给出了回答，但往往只会满足了一部分条件，同时不会自我纠正。这意味着AI必须在第一次生成时就能碰上正确的答案，否则就一定会出错。但在o1模型中，AI会不断试错并打磨答案，从而显著提高生成结果的准确率和质量。

有趣的是，点开AI思考的过程，还会出现AI表示“我在思考这个事情这么做行不行”、“啊时间不够了得尽快给出答案”等。OpenAI确认，这里展示的并不是原始的思维链，而是“模型生成的摘要”，公司也坦率承认这里有保持“竞争优势”的因素。

OpenAI的研究负责人Jerry Tworek透露，o1模型背后的训练与之前的产品有着根本性的区别。之前的GPT模型旨在模仿其训练数据中的模式，而o1的训练旨在让其独立解决问题。在强化学习的过程中，使用奖励和惩罚机制来“教育”AI使用“思维链”来处理问题，就像人类习得拆解、分析问题的方式一样。

根据测试，o1模型在国际数学奥林匹克的资格考试中，能够拿到83%的分数，而GPT-4o只能正确解决13%的问题。而在编程能力比赛Codeforces中，o1模型拿到89%百分位的成绩，而GPT-4o只有11%。

（图上显示，o1模型预览版的能力会比正式版低一截）

OpenAI表示，根据测试，在下一个更新的版本中，AI在物理、化学和生物学的挑战性基准测试中，表现能够与博士生水平类似。

该讲讲缺点和局限性了

不难理解，会自己思考问题的AI模型，对于程序员、创意工作者，以及几乎所有的理科相关专业工作者而言是有益的升级，但这个新模型也有局限性。

首先，OpenAI o1模型（至少目前）还不是多模态大模型，同时在回答事实性问题时也不如其他模型。所以在图像互动、常识问答、互联网搜索方面，GPT-4o依然是更胜一筹的选择。当然，OpenAI明确表示未来会给这个模型增加联网、文件和图像上传等功能。

另一个问题则是贵，而且是非常贵。o1-预览模型的定价是每百万个输入tokens 15美元，每百万个输出tokens 则要60美元，分别是GPT-4o的3倍和4倍。一百万tokens大致相当于75万个英文单词。

除了OpenAI o1-预览版外，OpenAI也同步推出了o1-mini模型。后者是一个更快、更便宜的模型，定价也会便宜80%，适用于需要推理但不需要广泛世界知识的场景。

而且从OpenAI“抠抠索索”的举动来看，这个推理模型恐怕非常消耗算力。公司宣布，从9月12日起，ChatGPT订阅用户可以访问这两个新模型，但目前o1-preview每周消息数量限制为30条，o1-mini则为50条。

企业版ChatGPT和教育用户可以从下周开始访问这两个模型。API使用等级达到5级的开发者可以立即开始使用这两个模型，每分钟的速率限制为20次。OpenAI未来准备向免费用户提供o1-mini模型，但目前还没有时间表。

编辑/Somer

①OpenAI o1模型（「草莓」大模型）標誌着人工智能在複雜推理任務領域的嶄新水平；②通過改變AI模型的行爲方式，新模型能夠有效提高回答質量，同時避免一些機制性缺陷；③OpenAI首發推出o1-預覽版和o1 mini兩款模型。

財聯社9月13日訊（編輯史正丞）北京時間週五凌晨1時許，AI時代迎來嶄新的起點——能夠進行通用複雜推理的大模型終於走到臺前。

OpenAI在官網發佈公告稱，開始向全體訂閱用戶開始推送OpenAI o1預覽模型——也就是此前被廣泛期待的「草莓」大模型。OpenAI表示，對於複雜推理任務而言，新模型代表着人工智能能力的嶄新水平，因此值得將計數重置爲1，給它一個有別於「GPT-4」系列的全新名號。

推理大模型的特點，就是AI會在回答之前花更多時間進行思考，就像人類思考解決問題的過程一樣。以往的大模型，背後的邏輯是通過學習大量數據集中的模式，來預測單詞生成的序列，嚴格來說並不是真正理解提問。

認知將躍升至「理科博士生水準」

OpenAI曾解釋過，2023年發佈的GPT-4類似於高中生的智能水平，而GPT-5則是完成AI從「高中生躍升至博士」的成長。這個o1模型就是其中關鍵的一步。

相較於GPT-4o等現有的大模型，OpenAI o1能夠解決更加困難的推理問題，同時改善過往模型中存在的機制性缺陷。

舉例而言，這個新模型能夠數清楚strawberry裏到底有幾個「r」。

同時AI在解答編程問題時也會更有條理，在着手寫代碼前，把整個回答的流程全部思考完一遍，再動手輸出代碼。

例如在預設條件的寫詩任務（例如第二句的最後一個單詞需要以i收尾）中，「拿起筆就寫」的GPT-4o的確給出了回答，但往往只會滿足了一部分條件，同時不會自我糾正。這意味着AI必須在第一次生成時就能碰上正確的答案，否則就一定會出錯。但在o1模型中，AI會不斷試錯並打磨答案，從而顯著提高生成結果的準確率和質量。

有趣的是，點開AI思考的過程，還會出現AI表示「我在思考這個事情這麼做行不行」、「啊時間不夠了得儘快給出答案」等。OpenAI確認，這裏展示的並不是原始的思維鏈，而是「模型生成的摘要」，公司也坦率承認這裏有保持「競爭優勢」的因素。

OpenAI的研究負責人Jerry Tworek透露，o1模型背後的訓練與之前的產品有着根本性的區別。之前的GPT模型旨在模仿其訓練數據中的模式，而o1的訓練旨在讓其獨立解決問題。在強化學習的過程中，使用獎勵和懲罰機制來「教育」AI使用「思維鏈」來處理問題，就像人類習得拆解、分析問題的方式一樣。

根據測試，o1模型在國際數學奧林匹克的資格考試中，能夠拿到83%的分數，而GPT-4o只能正確解決13%的問題。而在編程能力比賽Codeforces中，o1模型拿到89%百分位的成績，而GPT-4o只有11%。

（圖上顯示，o1模型預覽版的能力會比正式版低一截）

OpenAI表示，根據測試，在下一個更新的版本中，AI在物理、化學和生物學的挑戰性基準測試中，表現能夠與博士生水平類似。

該講講缺點和侷限性了

不難理解，會自己思考問題的AI模型，對於程序員、創意工作者，以及幾乎所有的理科相關專業工作者而言是有益的升級，但這個新模型也有侷限性。

首先，OpenAI o1模型（至少目前）還不是多模態大模型，同時在回答事實性問題時也不如其他模型。所以在圖像互動、常識問答、互聯網搜索方面，GPT-4o依然是更勝一籌的選擇。當然，OpenAI明確表示未來會給這個模型增加聯網、文件和圖像上傳等功能。

另一個問題則是貴，而且是非常貴。o1-預覽模型的定價是每百萬個輸入tokens 15美元，每百萬個輸出tokens 則要60美元，分別是GPT-4o的3倍和4倍。一百萬tokens大致相當於75萬個英文單詞。

除了OpenAI o1-預覽版外，OpenAI也同步推出了o1-mini模型。後者是一個更快、更便宜的模型，定價也會便宜80%，適用於需要推理但不需要廣泛世界知識的場景。

而且從OpenAI「摳摳索索」的舉動來看，這個推理模型恐怕非常消耗算力。公司宣佈，從9月12日起，ChatGPT訂閱用戶可以訪問這兩個新模型，但目前o1-preview每週消息數量限制爲30條，o1-mini則爲50條。

企業版ChatGPT和教育用戶可以從下週開始訪問這兩個模型。API使用等級達到5級的開發者可以立即開始使用這兩個模型，每分鐘的速率限制爲20次。OpenAI未來準備向免費用戶提供o1-mini模型，但目前還沒有時間表。

編輯/Somer

声明：本內容僅用作提供資訊及教育之目的，不構成對任何特定投資或投資策略的推薦或認可。更多信息

AI新时代揭幕！会“思考解题逻辑”的OpenAI推理大模型登场

AI新時代揭幕！會「思考解題邏輯」的OpenAI推理大模型登場

认知将跃升至“理科博士生水准”

该讲讲缺点和局限性了

認知將躍升至「理科博士生水準」

該講講缺點和侷限性了

風險及免責聲明

聲明