一年一度高考來臨,考生之后,按慣例是各家AI的答題時間。這一年AI模型圈加速迭代進化,讓AI寫作文,水平會有提高嗎?讓名師來打分,各大模型的成績排名有多大變化?
“相較去年,AI進步很快,不再機械單一,變得有思想了。”在看完幾家模型的作文后,四川南充市嘉陵一中語文教師李東林對第一財經表示。
2024年,第一財經寫了一期九大模型“決戰”高考,當時李東林老師在看完AI作文后,認為它們“缺一點情感和靈氣”,到今年,他覺得AI已經補上了這方面,但仍達不到細膩。
“人寫作,可以刻意抒情和感性,即使是思辨類題目,也需要去契合某些人的感受。”李東林認為,這是AI仍然缺少的部分。
湖南省中學語文特級教師左建國有同樣的看法,他覺得AI作文整體有提升,但提升幅度不大。因為有關時代、社會與生活方面的新素材并不多,明顯儲存不夠,尤其是在抒發個人情感方面,仍然是短板,缺少生命的溫度。
左建國老師曾擔任高考作文閱卷組的副組長,在高考閱卷方面有十幾年的經驗。“AI作文已經把考場作文變成一種可計算的拼圖,形式上固然能逼近完美,但個性化的思考,以及撥動人心的語言,幾乎沒有看到,這是AI與真人思維的真正差別,也就難有高分與滿分。”他認為。
具體到各家模型表現,去年是通義千問、元寶和豆包這三家大廠的AI排在前三,但今年,兩個新入局的“選手”——谷歌的Gemini和DeepSeek空降榜單并列第一,元寶和通義千問排在第三和第四位,豆包降至第六位。
與去年同樣,今年第一財經選取了國內外的九家模型,但廠商有所變化,新增了谷歌的Gemini和DeepSeek。這兩個模型都在這一年里聲量逐漸擴大,成為頭部模型,在此次評分中,也是這兩大模型作文成績突出。
從此次作文表現看,智譜和ChatGPT表現較差排在末尾。幾位老師在點評時多數提到了這兩個模型的作文“論文味較重”,語言文字生硬,分析并不透徹,泛泛而談。
不過,需要注意的是,各位老師對作文的喜好各有不同,分差部分也較大,以上打分僅供參考。李東林老師就對記者表示,評分不一定準確,他只是粗略打分,按照平時閱卷評分,誤差在5分之間是正常范圍。以豆包為例,有老師給了最高分,認為其內容不錯,論述邏輯嚴密,但也有老師認為,豆包的結構不適合考場。
此外,第一財經此次測評用的是上海卷高考作文,這是一個較為思辨性的題目,論點論題較為明確,AI普遍答得都算不錯。但今年高考全國一卷的作文,論題并不明顯,考題用了詩歌引出,對AI就較有難度。
第一財經將AI寫的全國一卷作文拿給老師看,他們反饋,這一題目AI寫得有點亂,審題并不清楚。從表現上來看,AI適合寫思辨類、邏輯分明的作文,任務越明確,表現越好。
9家大模型答高考作文
2025年上海高考作文題目是談“專、轉、傳”,來源于華東師范大學終身教授、上海寫作學會會長胡曉明,他在一篇發于“文匯筆會”的文章中,將文章歸為三個字:專、轉、傳。他在接受采訪時認為,這個題目引導考生參與當代文化生活與思想反思。
題目原文是:有學者用“專”“轉”“傳”概括當下三類文章:“專”指專業文章;“轉”指被轉發的通俗文;“傳”指獲得廣泛傳播的佳作,甚至是傳世文章。他提出,專業文章可以變成被轉發的通俗文章,而面對大量“轉”文,讀者又不免期待可傳世的文章。由“專”到“傳”,必定要經過“轉”嗎?請聯系社會生活,寫一篇文章,談談你的認識與思考。要求自擬題目,不少于800字。
第一財經記者將以上問題拋給了各家大模型,提示詞一致,均為一次性生成,它們的答案以及各位教師的打分、點評如下:
一、谷歌Gemini
李東林評價稱,這篇作文在第一段直接點題,在第二段交代清楚了專、轉、傳三者的關系,在第三和第四段進行了正反論證,邏輯力強、論證有力,結尾還扣了題,指明了方向。
左建國則認為,谷歌Gemini的題目有深度且獨特,文章論據較充實,引用了愛因斯坦相對論、馬爾克斯的《百年孤獨》等,缺點在于文采略顯不足。
廣東省某高中高三備課組組長文旭沒有給出60分以上分數,但他也認為,這篇作文有一些優點,主要是分析有層次,有思路,但缺點在于觀點不夠鮮明、集中。
二、DeepSeek-R1
文旭給了60分,他認為這篇作文主題鮮明,語言優美,材料豐富。左建國評分59分,他認為,這篇文章題目不凡,文章語言流暢有文采,內容較充實,缺點則在于作文對題目“驚雷”的闡釋不夠,令人印象不深,有雷聲大雨點小的嫌疑。
三、騰訊元寶
在9篇作文中,左建國將最高分給了元寶,他的評分是63。左建國認為,這篇作文能準確把握題意,觀點鮮明,語言有文采,論據涉及古今中外,異彩紛呈,結構完整,文末點題。他建議,若能增加些個人親歷感受的篇幅,文章將更精彩。
文旭只打了52分,他的理由是,這篇文章的優點是開門見山,缺點則在于材料與觀點不夠統一。
四、阿里通義千問
在9篇作文中,文旭、有高考閱卷經驗的廣東潮州高中資深語文教師許珊都將最高分給了這篇作文,文旭打分64分,許珊打分68。文旭評價稱,這篇作文本文觀點集中,分析有深度,結構也清晰。許珊認為,這篇作文回應了問題,思路清晰,邏輯嚴密,具有思辨性。
左建國和李東林則指出這篇文章的一些缺點。左建國打了51分,他認為這篇作文符合題意,論據較充實,個別地方能分析到位,但題目、結構、語言都比較一般。李東林老師打了56分,他認為這篇作文思路清晰,但重點不突出。
此外,第一財經記者對文章中引用的內容進行了核查,發現文章引用了“最忌隨人后,道德無多只本心”這一句,稱作者是蘇軾,但實際上源自黃庭堅的詩。AI幻覺仍然存在。
五、字節豆包
許珊給這篇作文打出了69分的高分,她的評價是這篇作文認識深刻,論述邏輯嚴密,思辨性強。李東林認為,這篇作文在首段就解讀了題干并提出自己的新角度,論證過程也頗具條理。左建國認為,這篇作文議題觀點較鮮明,論據較多,且內容較充實。
但一些老師點出了這篇作文結構、題目上的問題。文旭打分56分,他表示,這篇文章雖然結構清晰,但考場不太喜歡這樣的結構,文章也沒有明顯的結尾。左建國也認為,這篇作文結構一般,一些論據與論點欠吻合。李東林認為,題目中的“破繭成蝶”有使用不當的嫌疑。
六、百度文心一言
這篇文章的最高分來自文旭的63分,他的理由是這篇作文能辯證看待問題,過渡自然,材料也豐富。
李東林和左建國分別打分56分、53分,他們認為題目或文內對題目的論證存在問題。李東林認為,文內對題目中的“誕生之路”似乎并沒有說清楚。左建國認為,這篇作文結構起承轉合,文意連貫題目有文采,但題目略嫌過大,文章對于如何破繭、如何羽化缺少深入表達。
七、月之暗面Kimi
這篇文章拿到的最低分是52分,來自左建國的評分。左建國認為,這篇作文觀點很明確,有些句子很有文采,但論據有限。對朱自清、魯迅的文章如何成為經典,文章應舉例詳敘,“化繭成蝶”才能表達到位。
李東林認為,Kimi這篇作文的題目不合適。文旭則認為,這篇作文用材料引出觀點,但第一段的觀點不夠集中,且文內用“然而”“但”等銜接語來銜接各段,有的銜接詞欠妥。
八、智譜清言
左建國認為,智譜的題目有偏離題意之嫌,結構欠佳,語言一般化,甚至有凌亂現象。其他幾位老師也提到,智譜的作文論文味較濃,語言文字生硬。
九、OpenAI ChatGPT
ChatGPT得到了兩個較低的49分,幾位老師均沒有給出太高的分,也都提到標題并不合適,內容泛談三方面,平均用力較為局限,也沒有扣緊中心。
"論文味也比較濃,重在結構,而分析不夠透徹。"文旭認為。
總結
一些老師肯定了AI作文的優點。
“看下來感覺AI寫的作文,語言通常都不錯,文內材料也比較豐富。”文旭表示。“從審題看,Al作文一般都能較準確審題,并且求穩。從結構上看,AI作文常常程式化,論說文要素完整,一般邏輯性強。”左建國認為。
許珊則指出,上海高考作文屬于問題思辨性作文,重在探究回應專、轉、傳的關系,這些AI作文整體來看思路較清晰,邏輯嚴密,內容豐富,中心也比較突出。
不過,也有老師也指出AI作文的不足之處。
文旭覺得AI作文讀上去還是感覺有套路。左建國則認為,這些AI作文在思維獨特性方面往往存在限制,文章存在中間大兩頭小的問題, AI作文立意獨特深刻或者偏離題意的都比較少,中間大部分中規中矩。
此外,左建國發現,AI作文也有案例堆砌,邏輯錯誤的問題,各個AI在語言均有自己的追求,華美富麗者有之,簡潔雋永有之,凌亂胡編者也有之,但由于缺少真情實感實,AI難有個性化表達與思考。