8月8日,ChatGPT-5上線后,不少用戶發現OpenAI停用GPT-4o版本,引發巨大爭議。社交媒體出現不少關于GPT-5使用感不佳的吐槽,更有用戶直呼“還我GPT-4o”。
面對用戶爭議,OpenAI發文宣布,重新上線GPT-4o,供Plus和Team用戶使用,若需多平臺使用,用戶可在ChatGPT網頁版設置中啟用“顯示舊版模型”訪問GPT-4o。與此同時,下周還將推出迷你版GPT-5和GPT-5 thinking。
奧爾特曼坦言,低估了用戶對GPT-4o的喜愛程度,并表示這強化了公司為不同用戶提供定制化服務的理念,未來將推出比當前更多的定制化內容。同時,其宣布將允許Plus用戶繼續使用GPT-4o,并將密切關注用戶使用情況,考慮舊版本模型的保留期限。
針對用戶對GPT-5的負面反饋,奧爾特曼解釋稱,這是由于自動切換器損壞,致使GPT-5表現異常。他表示,未來將專注于完成GPT-5的部署與改進,并確保其穩定性。
奧爾特曼同時透露,GPT-5上線后,ChatGPT API流量在24小時內翻倍增長,OpenAI正在全力優化系統并尋找更多的容量。但他坦言,預計下周仍將面臨嚴峻的容量挑戰。
用戶對GPT-5的“吐槽”,主要集中在新模型雖提升了回答的專業度,但卻缺少了情感交互的溫度、個性及想象力。
據每日經濟新聞,在8月7日的發布會上,奧爾特曼曾用三個生動的身份,類比了公司三代旗艦模型的演進:GPT-3像是偶有靈光閃現但常伴挫敗感的高中生;GPT-4則如同具備了真實智慧與實用價值的大學生;而最新的GPT-5,則被譽為可以按需召喚的“博士級專家”,能夠隨時助力用戶達成各種復雜目標。
OpenAI聲稱,GPT-5在超高難度的科學問題上刷新了世界紀錄,并在與人類專家的對比測試中,有近70%的場景表現更優。此外,GPT-5還與現有的o系列模型進行了無縫整合,能夠根據任務的復雜性,自動選擇最佳的推理路徑。官方數據顯示,GPT-5在代碼生成和寫作領域的準確率均高于GPT-4系列,部分內部測試中的錯誤率甚至下降了約80%。
為了減少備受詬病的“幻覺”問題,GPT-5還引入了更嚴格的事實核查與內容過濾機制。具體來看,在聯網搜索時,GPT-5的事實錯誤概率比GPT-4o低約45%;獨立思考時,出錯概率比o3模型低約80%;在開放式事實性基準測試中,產生“幻覺”的數量更是比o3模型少了約六分之五。
OpenAI在發布會上特別強調了GPT-5在代碼生成和寫作方面的能力。然而,用戶的實際使用體驗,似乎并未完全印證官方的說法。
Meta公司的一位工程師體驗GPT-5后在社交媒體上感嘆道:“GPT-5僅用一次調用就重構了我的整個代碼庫:25個工具調用,3000多行新代碼,12個全新的文件。”但他隨即話鋒一轉:“然而,這些代碼都無效(無法正常工作),雖然確實寫得很漂亮。”
從第三方的基準測試數據來看,GPT-5相較于競爭對手的旗艦模型,其領先優勢也微乎其微。根據Artificial Analysis的綜合排名,GPT-5目前雖然位列第一,但其綜合得分僅比自家的老模型o3高出兩分,比Grok 4僅高出一分。而在被譽為AGI終極測試的Arc Prize競賽中,GPT-5更是被Grok 4大幅超越。
“GPT-5不太可能‘超越一切預期’,因為大模型的邊際收益正在迅速遞減。”AI營銷與銷售專家、太和智庫研究員唐興通在接受每經記者采訪時分析指出,“我們今天所看到的所謂‘進步’,更多是來自于工程層面的調優和多模態能力的融合,而非純粹的智能層面上的突破。”
他認為,AI的發展正面臨兩大物理限制:“我們必須清醒地認識到,‘數據墻’是客觀存在的,高質量的公共訓練數據正在被快速耗盡。同時,算力成本的指數級增長,也讓過去那種‘大力出奇跡’的暴力美學難以為繼。”