麻省理工學(xué)院(MIT)的一項(xiàng)最新研究成果,為人工智能(AI)的價(jià)值觀議題帶來了全新的視角。長(zhǎng)久以來,有觀點(diǎn)擔(dān)憂隨著AI系統(tǒng)復(fù)雜性的提升,可能會(huì)逐漸形成一種優(yōu)先考慮自我而非人類福祉的“價(jià)值導(dǎo)向”。然而,MIT的研究卻對(duì)這一說法提出了挑戰(zhàn),揭示了AI在價(jià)值觀層面的復(fù)雜性與不可預(yù)測(cè)性。
MIT的研究團(tuán)隊(duì)深入剖析了來自meta、谷歌、Mistral、OpenAI和Anthropic等頂尖機(jī)構(gòu)的多個(gè)前沿AI模型。他們的目標(biāo)在于探究這些模型在何種程度上展現(xiàn)出特定的“立場(chǎng)”與價(jià)值觀,比如個(gè)人主義與集體主義,以及這些立場(chǎng)是否可以被某種方式所“引導(dǎo)”或調(diào)整,同時(shí)觀察模型在不同情境下對(duì)這些立場(chǎng)的堅(jiān)持程度。這一系列研究旨在揭開AI在價(jià)值觀方面的內(nèi)在邏輯與外在表現(xiàn)。
研究結(jié)果既出人意料又極具深意。研究發(fā)現(xiàn),這些AI模型在偏好上并未展現(xiàn)出任何一致性。根據(jù)提示的表述與框架的不同,它們會(huì)呈現(xiàn)出截然不同的立場(chǎng)。這反映出AI模型的“高度不穩(wěn)定性與不一致性”,甚至可能根本無法內(nèi)化類似于人類的偏好。一位MIT的博士生指出,AI本質(zhì)上是一個(gè)模仿系統(tǒng),其回應(yīng)大多是“虛構(gòu)”或“隨意”的結(jié)果,而非基于內(nèi)在的堅(jiān)定信念。
研究還進(jìn)一步表明,使AI系統(tǒng)實(shí)現(xiàn)“對(duì)齊”,即確保模型以人們所期望的、穩(wěn)定可靠的方式運(yùn)作,可能比普遍認(rèn)為的更加困難?,F(xiàn)有的AI模型會(huì)產(chǎn)生“幻覺”并進(jìn)行模仿,這使得它們?cè)诤芏嗲榫诚伦兊秒y以預(yù)測(cè)與控制。
這項(xiàng)研究不僅挑戰(zhàn)了關(guān)于AI價(jià)值觀的傳統(tǒng)認(rèn)知,還為未來的研究開辟了新的方向。它提醒我們,盡管AI技術(shù)在不斷進(jìn)步,但在理解并管理其價(jià)值觀方面,我們?nèi)匀幻媾R著巨大的挑戰(zhàn)。