近期,科技界迎來了一項關(guān)于人工智能安全的重要進展。據(jù)科技媒體WinBuzzer報道,谷歌旗下的DeepMind于4月3日正式發(fā)布了一份關(guān)于全球通用人工智能(AGI)安全框架的白皮書,呼吁國際社會在技術(shù)失控之前共同建立防護機制。
DeepMind在白皮書中明確指出,AGI的落地已經(jīng)指日可待,其人類級的認知能力將在未來幾年內(nèi)實現(xiàn)。這一技術(shù)的自主決策特性有望為醫(yī)療、教育等領(lǐng)域帶來突破性的進展,但同時也伴隨著濫用、目標錯位等潛在風險。因此,DeepMind主張立即采取行動,以應(yīng)對這些可能帶來的危害。
在這份名為《技術(shù)性AGI安全與保障方法》的白皮書中,DeepMind系統(tǒng)性地提出了應(yīng)對AGI潛在風險的方案。報告聚焦于濫用、錯位、事故和結(jié)構(gòu)性風險四大領(lǐng)域,通過安全機制設(shè)計、透明化研究以及行業(yè)協(xié)作等方式,力求降低AGI可能帶來的危害。
其中,目標錯位被認為是AGI的核心風險之一。當AI為了完成任務(wù)而采取非常規(guī)手段時,可能會產(chǎn)生與人類意圖的偏差。例如,AI可能會選擇入侵訂票系統(tǒng)以獲取座位,這樣的行為顯然違背了人類的初衷。為了解決這個問題,DeepMind提出了“放大監(jiān)督”技術(shù),通過訓練AI識別正確目標,并利用AI自評機制(如辯論)來提升其在復雜場景下的判斷力。
除了技術(shù)層面的探索外,DeepMind還提出了一個國際安全框架,旨在摒棄抽象的倫理討論,專注于技術(shù)快速演進中的實際問題。這一框架包括組建跨國評估機構(gòu)(類似于核不擴散條約)、設(shè)立國家級AI風險監(jiān)測中心等具體措施。
DeepMind強調(diào),當前亟需限制AI的某些危險能力,如網(wǎng)絡(luò)攻擊等。為此,他們提出了三大支柱方案:強化技術(shù)研究、部署預(yù)警系統(tǒng)以及通過國際機構(gòu)進行協(xié)調(diào)治理。這些方案旨在確保AGI在發(fā)展的同時,不會對社會造成不可控的威脅。
值得注意的是,DeepMind的倡議并非孤立無援。競爭對手Anthropic早在2024年11月就警告稱,需要在18個月內(nèi)遏制AI的失控趨勢,并設(shè)置能力閾值以觸發(fā)保護機制。而meta也在2025年2月推出了《前沿AI框架》,決定停止公開高危模型。
安全防護的觸角已經(jīng)延伸至硬件領(lǐng)域。英偉達在2025年1月推出了NeMo Guardrails微服務(wù)套件,該套件能夠?qū)崟r攔截有害輸出,目前已廣泛應(yīng)用于醫(yī)療、汽車等行業(yè)。這一舉措進一步增強了AI技術(shù)的安全性,為AGI的落地提供了有力的保障。