亚洲国产精品成人久久,午夜伦,理片

AI新考驗(yàn)！ARC-AGI-2測(cè)試來(lái)襲，AI模型成績(jī)慘淡遠(yuǎn)不及人類

發(fā)布時(shí)間：2025-03-25 16:12 來(lái)源：ITBEAR 作者：顧雨柔

近期，由知名人工智能專家弗朗索瓦·肖萊攜手創(chuàng)立的非營(yíng)利組織Arc Prize基金會(huì)，在其官方博客上揭曉了一項(xiàng)名為ARC-AGI-2的全新測(cè)試。該測(cè)試旨在深入評(píng)估當(dāng)前領(lǐng)先的人工智能模型的通用智能水平，其難度系數(shù)極高，令眾多AI模型望塵莫及。

根據(jù)Arc Prize排行榜的數(shù)據(jù)揭示，那些在推理領(lǐng)域表現(xiàn)突出的AI模型，例如OpenAI的o1-pro和DeepSeek的R1，在ARC-AGI-2測(cè)試中的得分僅僅徘徊在1%至1.3%之間。即便是GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash等強(qiáng)大的非推理型模型，其得分也僅維持在1%左右的低水平。

ARC-AGI測(cè)試由一系列復(fù)雜謎題構(gòu)成，要求AI從一組色彩斑斕的方塊中辨識(shí)出隱藏的視覺(jué)規(guī)律，并據(jù)此生成正確的“答案網(wǎng)格”。這些問(wèn)題設(shè)計(jì)精巧，旨在考驗(yàn)AI面對(duì)全新問(wèn)題的應(yīng)變能力。為了設(shè)定人類基線，Arc Prize基金會(huì)邀請(qǐng)了超過(guò)400名參與者參與ARC-AGI-2測(cè)試。結(jié)果顯示，這些參與者組成的“團(tuán)隊(duì)”平均正確解答了測(cè)試中60%的問(wèn)題，這一成績(jī)遠(yuǎn)超所有AI模型的表現(xiàn)。

肖萊在X平臺(tái)上強(qiáng)調(diào)，相較于先前的ARC-AGI-1測(cè)試，ARC-AGI-2更能精準(zhǔn)反映AI模型的實(shí)際智能水平。Arc Prize基金會(huì)的測(cè)試旨在評(píng)估AI系統(tǒng)能否在脫離訓(xùn)練數(shù)據(jù)的情況下高效習(xí)得新技能。

肖萊指出，與ARC-AGI-1相比，新的測(cè)試版本有效防止了AI模型依賴“蠻力”——即龐大的計(jì)算能力——來(lái)尋找答案。他承認(rèn)，這是ARC-AGI-1的一個(gè)主要弊端。為了彌補(bǔ)這一不足，ARC-AGI-2引入了“效率”這一新指標(biāo)，并要求模型實(shí)時(shí)解讀模式，而非依賴記憶。

Arc Prize基金會(huì)聯(lián)合創(chuàng)始人格雷格·卡姆拉德在其博客文章中寫道：“智能不僅僅在于解決問(wèn)題或獲取高分的能力，這些能力的獲取效率和部署方式同樣至關(guān)重要。我們提出的核心問(wèn)題不僅限于‘AI能否習(xí)得完成任務(wù)所需的技能？’，還包括‘以何種效率和成本？’”

ARC-AGI-1在五年內(nèi)無(wú)人能敵，直到2024年12月，OpenAI發(fā)布了其先進(jìn)的推理模型o3，該模型超越了所有其他AI模型，并在評(píng)估中達(dá)到了人類水平的表現(xiàn)。然而，當(dāng)時(shí)便指出，o3在ARC-AGI-1上的卓越表現(xiàn)是以高昂的成本為代價(jià)的。在ARC-AGI-2測(cè)試中，即便使用價(jià)值200美元的計(jì)算資源，OpenAI的o3模型（低配版）的得分也僅為4%。

ARC-AGI-2的推出恰逢其時(shí)，科技行業(yè)正迫切呼吁建立新的、尚未飽和的基準(zhǔn)來(lái)評(píng)估AI的進(jìn)展。Hugging Face聯(lián)合創(chuàng)始人托馬斯·沃爾夫在最近接受采訪時(shí)指出，AI行業(yè)缺乏足夠的測(cè)試來(lái)衡量通用人工智能的關(guān)鍵特質(zhì)，如創(chuàng)造力。

Arc Prize基金會(huì)還宣布了2025年Arc Prize競(jìng)賽，向開發(fā)者發(fā)起挑戰(zhàn)，要求在ARC-AGI-2測(cè)試中達(dá)到85%的準(zhǔn)確率，同時(shí)每項(xiàng)任務(wù)的成本不超過(guò)0.42美元（約合3元人民幣）。

更多>同類內(nèi)容

亚洲精品国产a久久久久久,亚洲 激情 ,欧美精品,亚洲av日韩综合一区在线观看,亚洲精品不卡av在线播放,无码国产69精品久久久久同性

AI新考驗(yàn)！ARC-AGI-2測(cè)試來(lái)襲，AI模型成績(jī)慘淡遠(yuǎn)不及人類

亚洲精品国产a久久久久久,亚洲激情 ,欧美精品,亚洲av日韩综合一区在线观看,亚洲精品不卡av在线播放,无码国产69精品久久久久同性

AI新考驗(yàn)！ARC-AGI-2測(cè)試來(lái)襲，AI模型成績(jī)慘淡遠(yuǎn)不及人類