北京時間8月6日凌晨,多家海外大模型廠商發布了最新產品。AI創業公司Anthropic發布了Claude Opus 4.1,稱這一模型是Opus 4在代理任務、現實世界編碼和推理方面的升級版。谷歌推出了新一代世界模型Genie 3,并表示這是公司第一個支持實時交互的世界模型。OpenAI則開源了gpt-oss-120b和gpt-oss-20b兩個推理模型,這是OpenAI時隔六年再次開源模型。
這三家大模型廠商的新產品面向的使用場景各不相同,但不難看出,通過此次新品發布,OpenAI和Anthropic都展示了產品策略上變化。
其中,OpenAI的開閉源策略發生了轉變。隨著DeepSeek引領開源的方向,今年4月,OpenAI CEO山姆·奧爾特曼(Sam Altman)就表示,OpenAI認為推出強大、有推理能力的新開源模型“非常重要”。此次OpenAI兌現了推出新開源模型的承諾。山姆·奧爾特曼稱,這兩款開源模型是OpenAI耗資數十億美元的研究成果。
此次OpenAI開源的gpt-oss-120b參數量為1170億,采用MoE(專家)架構,激活參數量51億。另一個開源模型gpt-oss-20b參數量為210億,同樣采用MoE架構,激活參數量36億。
據OpenAI公布的基準測試結果,gpt-oss-120b在競賽編碼、工具調用基準測試中的得分接近或超過閉源的o4-mini模型,gpt-oss-20b在基準測試中的分數則與o3-mini相當或超過o3-mini。這兩款模型的推理性能在開源模型中都屬于第一梯隊。
值得注意的是,此次OpenAI更新的重點不僅在于開源,還在于讓新模型可以在電腦、手機這類端側設備上本地部署。
gpt-oss-120b可以在單張80GB容量的GPU上運行,gpt-oss-20b可以16GB內存的消費級設備上運行。據OpenAI展示的視頻,將gpt-oss-120b本地部署在電腦上,該模型可以根據提示詞生成一個射擊類游戲,改變提示詞后,還能將游戲中的圖標變成草莓的形狀。山姆·奧爾特曼表示,這兩款開源模型能在筆記本上本地部署,gpt-oss-20b還能部署在手機上。
Anthropic的策略改變,則是決定更頻繁地推出產品漸進式更新,而不是只專注于更新重大版本。此次Anthropic推出了Claude Opus 4.1。該公司表示,以往公司只專注于發布重大版本更新,此次更新意味著公司轉向推動編碼模型漸進式改進,公司還將在未來幾周內推出更多更新。
從新發布的產品看,Claude Opus 4.1主要是在深入研究、數據分析、代理(agentic)搜索方面的能力也比前一代有所提升。Anthropic表示,新產品擅長處理復雜的多步驟問題,該公司將其定位為更有效的AI智能體(Agent)。
在SWE-bench Verify基準測試中,Claude Opus 4.1得分74.5%,超過Opus 4的72.5%,顯示編碼能力較前一代有所提升。此外,該模型在Terminal-Bench(代理終端編程)、GPQA Diamond(研究生級別推理能力)、MMMLU(多語言問答)基準測試中的得分分別為43.3%、80.9%、89.5%,超過Opus 4的39.2%、79.6%、88.8%。據Anthropic介紹,GitHub平臺用戶、Rakuten Group客戶的反饋顯示,Opus 4.1在代碼修改精準度和調試效率上有明顯改善。
谷歌則是沿著世界模型的路徑往前邁了一步。
在去年推出Genie 1和Genie 2世界模型以及Veo 2和Veo3視頻生成模型的基礎上,此次谷歌推出通用世界模型Genie 3。不同于以往,Genie 3是谷歌第一個允許進行實時交互的世界模型。谷歌稱,世界模型是邁向AGI(通用人工智能)的關鍵墊腳石,因為世界模型允許AI智能體在豐富的模擬環境中不受限制地訓練,同時能為機器人訓練提供場所。
據谷歌介紹,Genie 3可以生成多樣化的交互環境。該模型對世界物理特性的建模可以模擬水、光等自然現象,可以生成包含動物、植物在內的生態系統,還可以創造動畫角色,并模擬復雜環境下各種元素的相互作用。在Genie 3生成的動態世界里,可以以每秒24幀的速度進行導航,并在720p的分辨率下保持長達幾分鐘的畫面一致性,該模型的視覺記憶還可以追溯至一分鐘前。
據谷歌發布的演示視頻,生成機器人跑步的畫面,Genie 2只能生成8秒具有一致性的畫面,而Genie 3可以生成長達幾分鐘的畫面;Genie 3可以模擬燈光節期間在水面上行駛的摩托艇,摩托艇撞到燈籠、岸邊的效果十分真實;輸入提示詞“教室前的黑板寫著Genie-3,下面用粉筆畫著蘋果、咖啡和樹,教室空無一人,窗外是樹木和行駛的汽車”,Genie 3生成的畫面是一個推進的視角,展示了黑板,然后鏡頭轉向旁邊的窗戶,能看到窗外的汽車和樹木,畫面十分自然逼真。
雖然標志著基礎大模型迭代的GPT-5遲遲未能面世,但這些頻繁的大模型更新,仍展示了AI的能力在繼續升級。無論是開源可供端側部署的模型、推動智能體技術演進還是讓世界模型變得可以交互,都讓大模型的可用性有所增加。