OpenAI向開源模型邁出重要一步:六年來首次推出開放權重模型。
OpenAI首席執行官山姆·奧爾特曼當地時間8月5日宣布,公司將在未來幾天里帶來許多新東西,其中周二迎來一項“小而重磅”的更新——預熱已久的開源模型GPT-OSS。
兩款模型都以寬松的Apache 2.0許可證發布,企業在商用前無需付費或獲得許可。
奧爾特曼在社交媒體表示:gpt-oss是一個重大突破,這是最先進的開放權重推理模型,具有與o4-mini相當的強大現實世界性能,可以在你自己的電腦(或手機的較小版本)上本地運行。我們相信這是世界上最好、最實用的開放模型。
同時,亞馬遜宣布將首次向客戶提供OpenAI的模型,計劃在其Bedrock和SageMaker平臺上提供OpenAI的開放AI權重新模型。這是云計算巨頭亞馬遜首次提供OpenAI的產品。
gpt-oss-20b和120b的發布標志著OpenAI戰略轉向的重要節點,此前該公司多次推遲開放權重模型發布,并進行了廣泛的安全測試和評估,以確保模型不被惡意利用。
OpenAI介紹,兩款gpt-oss模型采用了其最先進的預訓練和后訓練技術,特別注重推理、效率和跨部署環境的實用性。它們都是使用專家混合(MoE)架構的Transformer,以減少處理輸入所需的活躍參數數量。
gpt-oss-120b每個token激活5.1億參數,總參數量為1170億;gpt-oss-20b激活3.6B參數,總參數量為210億。模型使用交替的密集和局部帶狀稀疏注意力模式,支持高達128k的上下文長度。
OpenAI稱gpt-oss-20b是一款中型開放模型,gpt-oss-120b則是可在“大多數臺式機和筆記本電腦”上運行的大型開放模型。
OpenAI表示,較小的模型至少需要16GB顯存或統一內存才能發揮最佳性能,并且“非常適合高端消費級GPU和搭載蘋果芯片的Mac電腦”。較大的全尺寸模型則需要至少60GB顯存或統一內存。
在性能評估方面,OpenAI披露,gpt-oss-120b在核心推理基準測試中接近OpenAI o4-mini的表現。較小的gpt-oss-20b模型在相同評估中達到或超過OpenAI o3-mini的性能。
gpt-oss-120b在競賽編碼(Codeforces)、通用問題求解(MMLU和HLE)以及工具調用(TauBench)方面均優于OpenAI o3mini,并匹敵甚至超越了OpenAI o4-mini。它在健康相關查詢(HealthBench)和競賽數學(AIME 2024和2025)方面的表現甚至超過o4-mini。
即使規模較小,gpt-oss-20b在上述同類的評估中也匹敵甚至超越了OpenAI o3mini,甚至在競賽數學和健康方面也超越了后者。
順便一提,作為毫無驚喜的預告,奧爾特曼同時強調本周晚些時候會有一項“重大更新”。鑒于公司這段日子不斷吊業界胃口的舉動,市場普遍預期OpenAI下一個重磅更新將是推出GPT-5。
OpenAI對開放權重模型的安全性給予了特別關注,因為一旦發布,對手可能對模型進行惡意微調。該公司在預訓練期間過濾了與化學、生物、放射性和核(CBRN)相關的有害數據。
為直接評估風險,OpenAI對模型進行了專門的生物學和網絡安全數據微調,創建了攻擊者可能制作的特定領域非拒絕版本。經過內部和外部測試,這些惡意微調的模型無法達到其準備框架中的"高能力"閾值。
OpenAI此次發布開放權重模型很大程度上受到市場競爭壓力驅動。OpenAI總裁Greg Brockman在本周二的記者會上表示:"看到生態系統的發展令人興奮,我們很高興能為此做出貢獻,真正推動前沿發展,然后看看會發生什么。"
OpenAI與英偉達、AMD、Cerebras和Groq等芯片制造商合作,確保模型在各種芯片上良好運行。英偉達CEO黃仁勛在聲明中稱:OpenAI向世界展示了在英偉達AI上可以構建什么——現在他們正在推進開源軟件的創新。
值得注意的是,谷歌 DeepMind 8月4日宣布推出第三代通用的世界模型 Genie 3 ,可以生成前所未有的多樣化交互式環境,給出文本提示,Genie 3 可以生成動態世界,可以以每秒 24 幀的速度實時導航,并以 720p 的分辨率保持幾分鐘的一致性。
DeepMind 在模擬環境領域已有十余年的深厚積累。從訓練能玩轉即時戰略游戲的 AI,到為機器人開發開放式學習環境,這些研究都指向了一個共同的目標:構建強大的世界模型。
與前代模型(如 Genie 1/2)和視頻生成模型(如 Veo 2,Veo 3對直覺物理學的深刻理解)相比,Genie 3 是第一個允許實時交互的世界模型,同時與 Genie 2 相比,其一致性和真實感也得到了提升。
Genie 3的終極目標之一是為具身智能體(Embodied Agent)提供一個無限豐富的訓練場。DeepMind已將其與通用智能體SIMA進行結合測試。研究人員可以為SIMA設定一個目標(如在面包房里找到工業攪拌機),SIMA則通過向Genie 3發送導航指令來嘗試完成任務。Genie 3像一個真正的世界一樣,根據SIMA的行為實時反饋結果,從而讓智能體在海量的what if場景中學習和成長。
每日經濟新聞綜合公開資料