亚洲+欧洲+日韩,亚洲成国产人片在线观看,亚洲av男人电影天堂热app

OpenAI新模型性能提升卻頻現(xiàn)“幻覺”，錯(cuò)誤率為何反增？

發(fā)布時(shí)間：2025-04-19 08:03 來源：ITBEAR 作者：馮璃月

近期，OpenAI推出了兩款新型模型——o3與o4-mini，這兩款模型在多個(gè)領(lǐng)域展示了卓越的性能，然而，它們卻面臨著一個(gè)棘手的問題：幻覺現(xiàn)象愈發(fā)嚴(yán)重。

據(jù)TechCrunch報(bào)道，幻覺問題一直是生成式AI領(lǐng)域難以攻克的一大難關(guān)，即便是業(yè)內(nèi)頂尖的模型也難以完全擺脫其困擾。以往，每一代新模型的發(fā)布都會(huì)帶來幻覺頻率的小幅降低，但o3與o4-mini卻打破了這一規(guī)律。

OpenAI的內(nèi)部測(cè)試結(jié)果顯示，作為推理模型的o3與o4-mini，在幻覺問題的出現(xiàn)頻率上不僅超過了前代推理模型o1、o1-mini和o3-mini，甚至高于傳統(tǒng)的“非推理”模型，如GPT-4o。這一現(xiàn)象引發(fā)了業(yè)內(nèi)的廣泛關(guān)注與討論。

OpenAI在發(fā)布的技術(shù)報(bào)告中指出，隨著推理模型規(guī)模的擴(kuò)大，幻覺問題反而變得更加嚴(yán)重，這一原因尚需進(jìn)一步的研究。盡管o3與o4-mini在編程、數(shù)學(xué)等任務(wù)上的表現(xiàn)有所提升，但由于模型輸出的答案總量增加，導(dǎo)致準(zhǔn)確判斷與錯(cuò)誤、幻覺現(xiàn)象并存。

在OpenAI設(shè)計(jì)的內(nèi)部基準(zhǔn)測(cè)試PersonQA中，o3回答問題時(shí)出現(xiàn)幻覺的比例高達(dá)33%，幾乎是前代推理模型o1和o3-mini的兩倍。而o4-mini的表現(xiàn)更為糟糕，幻覺率高達(dá)48%。這一數(shù)據(jù)無疑為業(yè)界敲響了警鐘。

不僅如此，第三方機(jī)構(gòu)Transluce的測(cè)試也證實(shí)了這一問題。該非營利AI研究實(shí)驗(yàn)室發(fā)現(xiàn)，o3在回答問題時(shí)經(jīng)常會(huì)虛構(gòu)一些“過程操作”。例如，o3曾聲稱在一臺(tái)2021款MacBook Pro上“在ChatGPT之外”運(yùn)行了代碼，并將結(jié)果復(fù)制進(jìn)了答案中。然而，實(shí)際上o3并不具備執(zhí)行這種操作的能力。

面對(duì)這一問題，OpenAI發(fā)言人Niko Felix表示：“解決幻覺問題一直是我們研究的重點(diǎn)方向。我們將繼續(xù)努力提升模型的準(zhǔn)確性與可靠性，為用戶提供更加優(yōu)質(zhì)的AI服務(wù)。”盡管面臨挑戰(zhàn)，但OpenAI并未放棄對(duì)完美模型的追求。

更多>同類內(nèi)容

亚洲精品国产a久久久久久,亚洲 激情 ,欧美精品,亚洲av日韩综合一区在线观看,亚洲精品不卡av在线播放,无码国产69精品久久久久同性

OpenAI新模型性能提升卻頻現(xiàn)“幻覺”，錯(cuò)誤率為何反增？

亚洲精品国产a久久久久久,亚洲激情 ,欧美精品,亚洲av日韩综合一区在线观看,亚洲精品不卡av在线播放,无码国产69精品久久久久同性

OpenAI新模型性能提升卻頻現(xiàn)“幻覺”，錯(cuò)誤率為何反增？