OpenAI、谷歌等深夜更新多款模型展示開源、智能體、世界模型進展

2025-08-06 13:00:00來源：第一財經

責任編輯：第一黃金網

摘要

北京時間8月6日凌晨，多家海外大模型廠商發布了最新產品。AI創業公司Anthropic發布了Claude Opus 4.

北京時間8月6日凌晨，多家海外大模型廠商發布了最新產品。AI創業公司Anthropic發布了Claude Opus 4.1，稱這一模型是Opus 4在代理任務、現實世界編碼和推理方面的升級版。谷歌推出了新一代世界模型Genie 3，并表示這是公司第一個支持實時交互的世界模型。OpenAI則開源了gpt-oss-120b和gpt-oss-20b兩個推理模型，這是OpenAI時隔六年再次開源模型。

這三家大模型廠商的新產品面向的使用場景各不相同，但不難看出，通過此次新品發布，OpenAI和Anthropic都展示了產品策略上變化。

其中，OpenAI的開閉源策略發生了轉變。隨著DeepSeek引領開源的方向，今年4月，OpenAI CEO山姆·奧爾特曼（Sam Altman）就表示，OpenAI認為推出強大、有推理能力的新開源模型“非常重要”。此次OpenAI兌現了推出新開源模型的承諾。山姆·奧爾特曼稱，這兩款開源模型是OpenAI耗資數十億美元的研究成果。

此次OpenAI開源的gpt-oss-120b參數量為1170億，采用MoE（專家）架構，激活參數量51億。另一個開源模型gpt-oss-20b參數量為210億，同樣采用MoE架構，激活參數量36億。

據OpenAI公布的基準測試結果，gpt-oss-120b在競賽編碼、工具調用基準測試中的得分接近或超過閉源的o4-mini模型，gpt-oss-20b在基準測試中的分數則與o3-mini相當或超過o3-mini。這兩款模型的推理性能在開源模型中都屬于第一梯隊。

值得注意的是，此次OpenAI更新的重點不僅在于開源，還在于讓新模型可以在電腦、手機這類端側設備上本地部署。

gpt-oss-120b可以在單張80GB容量的GPU上運行，gpt-oss-20b可以16GB內存的消費級設備上運行。據OpenAI展示的視頻，將gpt-oss-120b本地部署在電腦上，該模型可以根據提示詞生成一個射擊類游戲，改變提示詞后，還能將游戲中的圖標變成草莓的形狀。山姆·奧爾特曼表示，這兩款開源模型能在筆記本上本地部署，gpt-oss-20b還能部署在手機上。

Anthropic的策略改變，則是決定更頻繁地推出產品漸進式更新，而不是只專注于更新重大版本。此次Anthropic推出了Claude Opus 4.1。該公司表示，以往公司只專注于發布重大版本更新，此次更新意味著公司轉向推動編碼模型漸進式改進，公司還將在未來幾周內推出更多更新。

從新發布的產品看，Claude Opus 4.1主要是在深入研究、數據分析、代理（agentic）搜索方面的能力也比前一代有所提升。Anthropic表示，新產品擅長處理復雜的多步驟問題，該公司將其定位為更有效的AI智能體（Agent）。

在SWE-bench Verify基準測試中，Claude Opus 4.1得分74.5%，超過Opus 4的72.5%，顯示編碼能力較前一代有所提升。此外，該模型在Terminal-Bench（代理終端編程）、GPQA Diamond（研究生級別推理能力）、MMMLU（多語言問答）基準測試中的得分分別為43.3%、80.9%、89.5%，超過Opus 4的39.2%、79.6%、88.8%。據Anthropic介紹，GitHub平臺用戶、Rakuten Group客戶的反饋顯示，Opus 4.1在代碼修改精準度和調試效率上有明顯改善。

谷歌則是沿著世界模型的路徑往前邁了一步。

在去年推出Genie 1和Genie 2世界模型以及Veo 2和Veo3視頻生成模型的基礎上，此次谷歌推出通用世界模型Genie 3。不同于以往，Genie 3是谷歌第一個允許進行實時交互的世界模型。谷歌稱，世界模型是邁向AGI（通用人工智能）的關鍵墊腳石，因為世界模型允許AI智能體在豐富的模擬環境中不受限制地訓練，同時能為機器人訓練提供場所。

據谷歌介紹，Genie 3可以生成多樣化的交互環境。該模型對世界物理特性的建模可以模擬水、光等自然現象，可以生成包含動物、植物在內的生態系統，還可以創造動畫角色，并模擬復雜環境下各種元素的相互作用。在Genie 3生成的動態世界里，可以以每秒24幀的速度進行導航，并在720p的分辨率下保持長達幾分鐘的畫面一致性，該模型的視覺記憶還可以追溯至一分鐘前。

據谷歌發布的演示視頻，生成機器人跑步的畫面，Genie 2只能生成8秒具有一致性的畫面，而Genie 3可以生成長達幾分鐘的畫面；Genie 3可以模擬燈光節期間在水面上行駛的摩托艇，摩托艇撞到燈籠、岸邊的效果十分真實；輸入提示詞“教室前的黑板寫著Genie-3，下面用粉筆畫著蘋果、咖啡和樹，教室空無一人，窗外是樹木和行駛的汽車”，Genie 3生成的畫面是一個推進的視角，展示了黑板，然后鏡頭轉向旁邊的窗戶，能看到窗外的汽車和樹木，畫面十分自然逼真。

不過，谷歌也指出，雖然Genie 3突破了世界模型的能力邊界，但仍有局限性，例如，可執行的動作空間有限、難以在一個共享環境中模擬多個智能體的交互、難以準確模擬真實世界的位置、交互持續時長無法長達數小時。

雖然標志著基礎大模型迭代的GPT-5遲遲未能面世，但這些頻繁的大模型更新，仍展示了AI的能力在繼續升級。無論是開源可供端側部署的模型、推動智能體技術演進還是讓世界模型變得可以交互，都讓大模型的可用性有所增加。

更多資訊可關注第一黃金網微信公眾號

更多精彩財經資訊，點擊這里下載第一黃金網APP

31 收藏

標簽：

還未登錄

/ 注冊

相關閱讀

日本央行上調物價上漲率預期

國際
日本央行7月31日把2025年度不含生鮮食品的消費者物價上漲率預期上調...

2025-07-31 16:01
突發！巴西前總統被軟禁禁止離家外出須佩戴電子腳鐐通信設備遭沒收！

國際
當地時間8月4日，巴西聯邦最高法院法官亞歷山大·德·莫賴斯宣布，前總統...

2025-08-05 09:00
布倫特原油期貨、WTI原油期貨漲幅擴大至1%

國際
布倫特原油期貨漲幅擴大至1%，報68.349美元/桶；WTI原油期貨漲...

26分鐘前
落實“兩國方案”高級別國際會議在聯合國閉幕

國際
當地時間7月30日，和平解決巴勒斯坦問題和落實“兩國方案”高級別國際會...

2025-07-31 09:00
推動中美經貿關系穩定健康發展

國際
當地時間7月28日至29日，中美經貿會談在瑞典斯德哥爾摩舉行。根據會談...

2025-07-31 07:00
日本第218次臨時國會正式召開

國際
日本第218次臨時國會于當地時間8月1日正式召開。據此前介紹，在本次...

2025-08-01 09:00
韓建立電池材料自主開發實驗室

國際
韓國科學技術院材料科學研究團隊3日宣布，通過與POSCO未來技術研究院...

2025-08-05 08:00
烏克蘭全境拉響防空警報

國際
當地時間8月2日傍晚，包括首都基輔在內的烏克蘭全境拉響防空警報。（央視...

2025-08-03 00:00
“黑天鵝”來襲！全線下跌！

國際
美國拋出“對等關稅”新表格，引發全球市場再動蕩，歐美股市周五全線收跌。...

2025-08-02 09:00
普京：俄方期待繼續與烏克蘭對話

國際
新華財經莫斯科8月1日電（記者包諾敏）據俄羅斯總統網站消息，俄總統普京...

2025-08-02 00:00