深夜時(shí)分,OpenAI首席執(zhí)行官又一次在社交平臺(tái)為新產(chǎn)品造勢(shì)。與以往強(qiáng)調(diào)技術(shù)參數(shù)不同,這次宣傳重點(diǎn)轉(zhuǎn)向用戶反饋,直言正在針對(duì)產(chǎn)品短板進(jìn)行優(yōu)化。這種轉(zhuǎn)變背后,是GPT-5系列推出后遭遇的尷尬處境——本應(yīng)被替代的前代產(chǎn)品4o,因用戶粘性過(guò)高被迫延長(zhǎng)服務(wù)周期。
當(dāng)測(cè)試者將官方展示的指令遵循案例投入實(shí)測(cè)時(shí),新版本立即暴露出問(wèn)題。要求輸出六個(gè)漢字的測(cè)試中,系統(tǒng)連續(xù)給出五個(gè)字符的答案,即便切換英文提示詞仍出現(xiàn)同樣偏差。更令人困惑的是,在限制使用特定漢字的文本生成測(cè)試?yán)铮到y(tǒng)持續(xù)輸出繁體字內(nèi)容,直到取消限制才恢復(fù)正常。作為對(duì)比,競(jìng)品模型在相同測(cè)試中表現(xiàn)穩(wěn)定。
情感交互能力的升級(jí)承諾同樣遭遇質(zhì)疑。官方宣稱新版本"更具溫度與對(duì)話感",但實(shí)際測(cè)試顯示,當(dāng)用戶詢問(wèn)情感問(wèn)題時(shí),新舊版本的回應(yīng)存在明顯代差。前代產(chǎn)品會(huì)通過(guò)共情表達(dá)和鼓勵(lì)性語(yǔ)言建立情感連接,而新版本更傾向于給出分析性解答,被測(cè)試者形容為"像在查閱心理學(xué)教材"。這種差異在二次測(cè)試中進(jìn)一步放大,新版本甚至省略了基礎(chǔ)的情感回應(yīng)。
自適應(yīng)計(jì)算優(yōu)化成為為數(shù)不多的亮點(diǎn)。傳統(tǒng)AI模型在處理不同難度問(wèn)題時(shí),消耗的計(jì)算資源缺乏彈性,新引入的動(dòng)態(tài)調(diào)整機(jī)制使簡(jiǎn)單問(wèn)題的響應(yīng)速度提升40%。在編程類復(fù)雜問(wèn)題測(cè)試中,雖然舊版本更快給出答案,但經(jīng)核查發(fā)現(xiàn)其結(jié)果存在錯(cuò)誤,而新版本通過(guò)延長(zhǎng)思考時(shí)間給出了正確解法。這項(xiàng)改進(jìn)對(duì)API調(diào)用用戶具有實(shí)際價(jià)值,可在保證質(zhì)量的前提下降低計(jì)算成本。
個(gè)性化功能更新帶來(lái)意外收獲。系統(tǒng)新增的七種角色設(shè)定中,"吐槽達(dá)人"模式引發(fā)關(guān)注。該模式下AI會(huì)主動(dòng)質(zhì)疑不合理的指令,對(duì)PUA式提問(wèn)表現(xiàn)出明顯抵觸。測(cè)試顯示,當(dāng)要求AI無(wú)償完成復(fù)雜任務(wù)時(shí),該模式會(huì)直接指出指令的不合理性,這種反套路表現(xiàn)顛覆了傳統(tǒng)AI的順從形象。不過(guò)角色切換時(shí)的語(yǔ)境銜接仍顯生硬,需要用戶適應(yīng)其獨(dú)特的表達(dá)方式。
市場(chǎng)數(shù)據(jù)印證著產(chǎn)品面臨的挑戰(zhàn)。第三方機(jī)構(gòu)統(tǒng)計(jì)顯示,該系列市場(chǎng)占有率持續(xù)下滑,用戶使用時(shí)長(zhǎng)被多個(gè)新興模型分流。曾經(jīng)依賴的技術(shù)先發(fā)優(yōu)勢(shì)正在減弱,部分用戶開(kāi)始將日常查詢轉(zhuǎn)向其他平臺(tái)。這種轉(zhuǎn)變?cè)陂_(kāi)發(fā)者社區(qū)尤為明顯,代碼生成等核心場(chǎng)景的遷移速度超出預(yù)期。











