近期,ChatGPT及其同類AI產(chǎn)品的能力進(jìn)步顯著,但用戶逐漸意識(shí)到這些智能助手有時(shí)會(huì)提供錯(cuò)誤信息,甚至能編造出看似合理的答案,且態(tài)度一本正經(jīng)。
根據(jù)OpenAI官方數(shù)據(jù),在專門用于檢測(cè)AI“幻覺”的PersonQA測(cè)試中,o4-mini的準(zhǔn)確率低于其前代o1和o3,編造答案的頻率更是o1的三倍。而性能更強(qiáng)的o3雖然整體準(zhǔn)確率有所提升,但其編造答案的概率也比o1高出兩倍。研發(fā)團(tuán)隊(duì)表示,盡管他們?yōu)槟P图尤肓藞D像分析和聯(lián)網(wǎng)檢索能力,但仍無(wú)法解釋為何升級(jí)后的產(chǎn)品更容易產(chǎn)生不實(shí)信息。
值得注意的是,這些新模型展現(xiàn)出了巨大的潛力,如通過(guò)照片定位拍攝地點(diǎn)、深度解析網(wǎng)頁(yè)信息以及構(gòu)建復(fù)雜的邏輯鏈條。然而,就像脫韁的想象力,它們?cè)谕评磉^(guò)程中往往會(huì)夾雜虛構(gòu)內(nèi)容。OpenAI的工程師們至今未能找到解決這一技術(shù)難題的方法。
在實(shí)際應(yīng)用中,o4-mini有時(shí)會(huì)過(guò)早地給出結(jié)論,這可能意味著在信息加工過(guò)程中存在某種程度的失真。因此,在可預(yù)見的未來(lái),對(duì)AI輸出的審慎核查仍將是一項(xiàng)必要的工作。在追求智能的道路上,真實(shí)與幻象之間的界限往往十分微妙。