OpenAI 全新發布 o1 模型，我們正式邁入了下一個時代

2024.09.13

分享至

TechFlow Selected深潮精選

OpenAI 全新發布 o1 模型，我們正式邁入了下一個時代

我們通往AGI的路上，已經沒有任何阻礙。

2024.09.13 - 02:28:27

OpenAIo1

專注 Web3 行業深度報導，洞察潮水流動的方向

我們通往AGI的路上，已經沒有任何阻礙。

作者：卡茲克

大半夜的，OpenAI抽象了整整快半年的新模型。

在沒有任何預告下，正式登場。

正式版名稱不叫草莓，草莓只是內部的一個代號。他們的正式名字，叫：

為什麼取名叫o1，OpenAI是這麼說的：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

翻譯過來是：

對於複雜推理任務來說，這是一個重要的進展，代表了人工智能能力的新水平。鑑於此，我們將計數器重置為 1，並將這一系列命名為 OpenAI o1。

這次模型的強悍，甚至讓OpenAI不惜推掉了過去GPT系列的命名，重新起了一個o系列。

炸了，真的炸了。

我現在，頭皮發麻，真的，這次OpenAI o1發佈，也標誌著，AI行業，正式進入了一個全新的紀元。

“我們通往AGI的路上，已經沒有任何阻礙。”

在邏輯和推理能力上，我直接先放圖，你們就知道，這玩意有多離譜。

AIME 2024，一個高水平的數學競賽，GPT4o準確率為13.4%，而這次的o1 預覽版，是56.7%，還未發佈的o1正式版，是83.3%。

代碼競賽，GPT4o準確率為11.0%，o1 預覽版為62%，o1正式版，是89%。

而最牛逼的博士級科學問題 (GPQA Diamond)，GPT4o是56.1，人類專家水平是69.7，o1達到了恐怖的78%。

我讓Claude翻譯了一下o1的圖，醜是醜了點，但是能看的懂每項數據意思就行。

什麼叫全面碾壓，這就是。

特別是在測試測試化學、物理和生物學專業知識的基準GPQA-diamond上，o1 的表現全面超過了人類博士專家，這也是有史以來，第一個獲得此成就的模型。

而整個模型之所以達到如此成就，基石就是Self-play RL，不知道這個的可以去看我前兩天的預測文章：新模型草莓到底是個啥？

通過Self-play RL，o1學會了磨練其思維鏈並完善所使用的策略。它學會了識別和糾正自己的錯誤。

它也學會了將複雜的步驟分解為更簡單的步驟。

而且噹噹前的方法不起作用時，它也學會了嘗試不同的方法。

他學會的這些，就是我們人類，最核心的思考方式：慢思考。

諾貝爾經濟學獎得主丹尼爾·卡尼曼有一本著作，名叫：《思考，快與慢》。

非常詳細的闡述了人類的兩種思考方式。

第一種是快思考（系統1），特點是快速、自動、直覺性、無意識，舉幾個例子：

看到一個笑臉就知道對方心情很好。
1+1=2 這樣簡單的計算。
開車時遇到危險情況立即踩剎車。

這些就是快思考，也就是傳統的大模型，死記硬背後學得的快速反應的能力。

第二種是慢思考（系統2），特點是緩慢、需要努力、邏輯性、有意識，舉幾個例子：

解決一道複雜的數學題
填寫稅務申報表
權衡利弊後做出重要決定

這就是慢思考，我們人類之所以強大的核心，也是AI要通往下一步AGI路上的基石。

而現在，o1終於踏出了堅實的一步，擁有了人類慢思考的特質，在回答前，會反覆的思考、拆解、理解、推理，然後給出最終答案。

說實話，這些增強的推理能力在處理科學、編碼、數學及類似領域的複雜問題時絕對極度有用。

例如o1可以被醫療研究人員用來註釋細胞測序數據，被物理學家用來生成量子光學所需的複雜數學公式，以及被各個領域的開發人員用來構建和執行多步驟工作流，等等等等。

o1也絕對是全新一代的數據飛輪，如果答案正確，整個邏輯鏈就會變成一個包含正負獎勵的訓練示例的小型數據集。

以OpenAI的用戶級別，未來的進化速度，只會更恐怖。

寫到這，我忽然嘆了口氣，我覺得我跟一年以後的o1比起來，可能就是個純廢物了，真的。。。

目前，o1模型已經逐步向所有ChatGPT Plus和 Team用戶開放，未來會考慮對免費用戶開放。

分為兩個模型，o1預覽版和o1 mini，o1-mini就是更快更小更便宜，推理啥的都不錯，極度適合數學和代碼，就是世界知識會差很多，適用於需要推理但不需要廣泛世界知識的場景。

o1預覽版每週30條，o1-mini每週50條。

雪崩，甚至不是按以前的3小時來限制的，是每週30條，也能從側面看出來，o1這個模型，有多貴了。

對於開發者來說，只對已經付過1000美刀的等級5開發者開放，每分鐘限制20次。

都挺少的。

而且在功能上閹割挺大，但是畢竟早期，理解。

API的價格上，o1預覽版每百萬輸入15美元，每百萬輸出60美元，這個推理成本...

o1-mini會便宜一些，每百萬輸入3美元，每百萬輸出12美元。

輸出成本都是推理成本的4倍，對比一下GPT4o，分別是5美元和15美元。

o1-mini還是勉強有一些經濟效應的，不過還是開始，後面等著OpenAI打骨折。

既然說o1已經對Plus用戶開放，我就直接去我的號上看了眼，還不錯，拿到了。

那自然，第一時間試一試。

目前不支持曾經的所有功能，也就是沒有圖片理解、圖片生成、代碼解釋器、網頁搜索等等，只有一個可以對話的裸模型。

我先是一個曾經很致命的問題：

“農夫需要把狼、羊和白菜都帶過河，但每次只能帶一樣物品，而且狼和羊不能單獨相處，羊和白菜也不能單獨相處，問農夫該如何過河。”

思考了6秒時間，給了我一個很完美的回答。

還有之前一個坑遍所有大模型的調休問題：

“這是中國2024年9月9日（星期一）開始到10月13日的放假調休安排:上6休3上3休2上5休1上2休7再上5休1。

請你告訴我除了我本來該休的週末，我因為放假多休息了幾天？”

在o1思考了整整30秒以後，給出了一天不差的極度精準的答案。

無敵，真的無敵。

再來一個更難的，就是曾經姜萍那個比賽的奧數題：

別問我題目什麼意思，我看不懂，我是廢物，這題曾經屠殺所有的大模型，這次，我們讓o1也來試一下看看。

在o1思考了整整1分多鐘之後，他給出了答案。

...

全...對...

我裂開了。

目前我自己試下來，感覺Prompt，未來可能也要重新摸索，在GPT為代表的快思考大模型時代，我們有很多所謂的一步一步思考之類的玩意，現在全都無效了，對o1甚至還有負效果。

OpenAI給出的最佳寫法是：

保持提示簡單直接：模型擅長理解和響應簡短、清晰的指令，而不需要大量的指導。
避免思路鏈提示：由於這些模型在內部進行推理，因此不需要提示它們“逐步思考”或“解釋你的推理”。
使用分隔符來提高清晰度：使用三重引號、XML 標籤或章節標題等分隔符來清楚地指示輸入的不同部分，幫助模型適當地解釋不同的部分。
限制檢索增強生成 (RAG) 中的附加上下文：提供附加上下文或文檔時，僅包含最相關的信息，以防止模型過度複雜化其響應。

最後，我想說一下這個思考的時長。

現在o1是思考了一分鐘，但是，如果是真正的AGI，說實話，思考的越慢可能會越刺激。

當他真的，可以去做證明數學定理，去做癌症藥物研發，去做天體研究呢？

每一次的思考，可以達到幾小時、幾天、甚至幾周呢？

最後的結果，可能會讓所有人震驚的難以置信。

現在，沒有人能想象到，那時候的AI，會是一個什麼樣的存在。

而o1的未來，在我看到，也絕對不止是一個普普通通的ChatGPT。

而是我們前往下個時代，最偉大的基石。

“我們通往AGI的路上，已經沒有任何阻礙。”

現在，我毫不猶豫的堅信著這句話。

星光熠熠的下一個時代。

在今天。

正式到來了。

歡迎加入深潮 TechFlow 官方社群

Telegram 訂閱群：https://t.me/TechFlowDaily

Twitter 官方帳號：https://x.com/TechFlowPost

Twitter 英文帳號：https://x.com/BlockFlow_News

原文連結

添加收藏

分享社交媒體

作者

数字生命卡兹克

OpenAI 全新發布 o1 模型，我們正式邁入了下一個時代

TechFlow Selected深潮精選

OpenAI 全新發布 o1 模型，我們正式邁入了下一個時代

相關文章

《紐約客》深度調查文解讀：OpenAI 自己人為何認定 Altman 不可信？

OpenAI 收購硅谷當紅科技脫口秀 TBPN，IPO 前夕搶佔敘事入口？

OpenAI 創下史上最大融資紀錄，估值逼近萬億

日燒百萬美元仍留不住用戶，OpenAI 砍掉 Sora：迪士尼 10 億美元合作隨之崩盤

Cursor 對 Anthropic 和 OpenAI：謝謝養育之恩，我來搶市場了

扒了 OpenAI、Anthropic 的招聘頁，發現了它們不想公開的計劃

OpenAI 關停 Sora，迪士尼 10 億美元打水漂，AI 視頻市場重新洗牌

OpenAI 曝光「北極星」項目，「2028 大失業」可能真要來了

華爾街為 OpenAI IPO「摸底」，投資機構不待見？

給 OpenAI 造機器人的人，看見了可怕的未來

7x24h 快訊
更多>

深潮精選
更多>

OpenAI 全新發布 o1 模型，我們正式邁入了下一個時代

TechFlow Selected深潮精選

OpenAI 全新發布 o1 模型，我們正式邁入了下一個時代

相關文章

《紐約客》深度調查文解讀：OpenAI 自己人為何認定 Altman 不可信？

OpenAI 收購硅谷當紅科技脫口秀 TBPN，IPO 前夕搶佔敘事入口？

OpenAI 創下史上最大融資紀錄，估值逼近萬億

日燒百萬美元仍留不住用戶，OpenAI 砍掉 Sora：迪士尼 10 億美元合作隨之崩盤

Cursor 對 Anthropic 和 OpenAI：謝謝養育之恩，我來搶市場了

扒了 OpenAI、Anthropic 的招聘頁，發現了它們不想公開的計劃

OpenAI 關停 Sora，迪士尼 10 億美元打水漂，AI 視頻市場重新洗牌

OpenAI 曝光 「北極星」項目，「2028 大失業」可能真要來了

華爾街為 OpenAI IPO「摸底」，投資機構不待見？

給 OpenAI 造機器人的人，看見了可怕的未來

7x24h 快訊更多>

深潮精選更多>

OpenAI 曝光「北極星」項目，「2028 大失業」可能真要來了

7x24h 快訊
更多>

深潮精選
更多>