亚洲精品国产a久久久久久,亚洲 激情 ,欧美精品,亚洲av日韩综合一区在线观看,亚洲精品不卡av在线播放,无码国产69精品久久久久同性

資訊在沃

AI新挑戰(zhàn):超級馬力歐能否成為衡量智能的新標(biāo)尺?

   發(fā)布時間:2025-03-04 16:25 作者:馮璃月

在AI技術(shù)日新月異的今天,任天堂的游戲魅力依舊不減,甚至有觀點(diǎn)認(rèn)為,在AI時代,任天堂依然是游戲領(lǐng)域的領(lǐng)航者。這一觀點(diǎn)在最近的一系列實(shí)驗(yàn)中得到了新的驗(yàn)證。

上個月,美國AI企業(yè)Anthropic在Twitch平臺上,利用最新的AI模型Claude 3.7 Sonnet挑戰(zhàn)了經(jīng)典游戲《寶可夢·紅》。這場直播不僅展示了AI技術(shù)的驚人進(jìn)步,還引發(fā)了觀眾的熱議。經(jīng)過多輪測試,研究員們發(fā)現(xiàn),《寶可夢》系列游戲成為了檢驗(yàn)Claude 3.7 Sonnet性能的絕佳基準(zhǔn)。在這款游戲中,Claude 3.7展現(xiàn)出了它的“智慧”,成功贏得了三個道館的徽章。

然而,最新的研究表明,《超級馬力歐兄弟》或許比《寶可夢》更適合作為AI工具的測試平臺。加州大學(xué)圣地亞哥分校的Hao AI Lab團(tuán)隊(duì)設(shè)計(jì)了一個與GamingAgent框架集成的《超級馬力歐兄弟》游戲,用于測試AI的性能。在這個框架中,AI被賦予了一些基本指令,如躲避敵人和障礙物,并通過Python代碼生成輸入來控制游戲角色馬力歐。

實(shí)驗(yàn)結(jié)果令人驚訝,Claude 3.7在測試中表現(xiàn)最佳,緊隨其后的是Claude 3.5、Gemini 1.5 Pro和GPT-4o。與《寶可夢》的回合制戰(zhàn)斗相比,《超級馬力歐兄弟》這種強(qiáng)調(diào)即時反應(yīng)的游戲?qū)I的推理能力提出了更高的挑戰(zhàn)。在游戲中,每一秒都至關(guān)重要,稍有不慎就可能導(dǎo)致游戲失敗。

其實(shí),用游戲來測試AI并非新鮮事。早在2019年,OpenAI就曾舉辦了一場比賽,展示了其AI模型OpenAI Five在Dota 2游戲中的實(shí)力。這款A(yù)I不僅擊敗了由專業(yè)玩家組成的隊(duì)伍,還在公開發(fā)布后擊敗了99.4%的在線選手。然而,隨著時間的推移,OpenAI逐漸將研究重心轉(zhuǎn)向了自然語言處理等領(lǐng)域。

前Salesforce首席AI科學(xué)家Richard Socher曾指出,盡管為游戲創(chuàng)建AI令人興奮且易于商業(yè)化,但這些AI模型在現(xiàn)實(shí)世界中的價(jià)值有限。他認(rèn)為,游戲作為一個抽象、簡單的環(huán)境,與真實(shí)世界存在顯著差異。如果AI模型不能很好地適應(yīng)新環(huán)境,就很難在時代變化中解決實(shí)際問題。即便是勝率高達(dá)9成的OpenAI Five,也僅能玩轉(zhuǎn)Dota 2中的16個角色。

隨著GPT-4.5的發(fā)布,AI評測領(lǐng)域也面臨著新的挑戰(zhàn)。OpenAI的研究人員表示,他們正在經(jīng)歷一場“評估危機(jī)”,對于如何評估AI模型的性能感到困惑。GPT-4.5雖然被贊譽(yù)為獨(dú)特且富有人情味,但其“品味”卻難以量化評估。

盡管如此,我們?nèi)匀豢梢孕蕾p到AI在《超級馬力歐兄弟》中的精彩表現(xiàn)。這些實(shí)驗(yàn)不僅讓我們看到了AI技術(shù)的無限可能,也為我們提供了思考AI未來發(fā)展方向的新視角。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新