近日,知名增強(qiáng)現(xiàn)實(shí)(AR)技術(shù)公司Rokid推出了其最新一代AR眼鏡——Rokid Glasses,該眼鏡集成了攝像頭、多模態(tài)大模型以及光波導(dǎo)技術(shù),實(shí)現(xiàn)了對(duì)真實(shí)世界的深度感知與用戶交互的顯著提升。然而,盡管技術(shù)進(jìn)步顯著,當(dāng)前的AI模型在理解真實(shí)世界的空間關(guān)系上仍面臨巨大挑戰(zhàn)。
具體而言,現(xiàn)有的AI視覺模型主要依賴于二維照片進(jìn)行物體識(shí)別,缺乏像人類一樣的空間理解能力,難以準(zhǔn)確描述物體間的相對(duì)位置和空間關(guān)系。這一局限性不僅影響了AR技術(shù)的進(jìn)一步發(fā)展,也限制了AR眼鏡在實(shí)際應(yīng)用中的廣泛普及。
為了突破這一瓶頸,AR技術(shù)的未來(lái)或許需要從更先進(jìn)的AI大模型中尋找答案。早前,《Pokémon Go》的開發(fā)商N(yùn)iantic宣布正在開發(fā)一種名為“地理空間大模型”(LGM)的新技術(shù),旨在利用大規(guī)模機(jī)器學(xué)習(xí)來(lái)理解和模擬真實(shí)世界的空間關(guān)系。
Niantic認(rèn)為,通過大語(yǔ)言模型的訓(xùn)練方式,AI有望實(shí)現(xiàn)超越人類的空間理解能力,即“空間智能”。這一野心的背后,是Niantic在全球范圍內(nèi)收集的大量真實(shí)影像和地圖數(shù)據(jù),這些數(shù)據(jù)來(lái)自于其熱門游戲《Pokémon Go》和《Ingress》的玩家。Niantic還開發(fā)了視覺定位系統(tǒng)(VPS),能夠在3D地圖中根據(jù)單個(gè)圖像確定用戶的位置。
事實(shí)上,Niantic在2021年已經(jīng)發(fā)布了一項(xiàng)名為ManyDepth的技術(shù),該技術(shù)能夠通過單個(gè)手機(jī)攝像頭直接創(chuàng)建3D地圖,將二維圖像轉(zhuǎn)化為帶有深度信息的三維圖像,而無(wú)需依賴LiDAR等深度傳感器。
Niantic的LGM模型目前已經(jīng)訓(xùn)練了超過5000萬(wàn)個(gè)神經(jīng)網(wǎng)絡(luò),擁有超過150萬(wàn)億個(gè)參數(shù),能夠在全球超過100萬(wàn)個(gè)位置運(yùn)行。該模型的目標(biāo)是在全球范圍內(nèi)實(shí)現(xiàn)對(duì)地理空間的共同理解,即使對(duì)于那些未被玩家掃描過的地區(qū)也能提供準(zhǔn)確的空間信息。
對(duì)于AR眼鏡而言,LGM模型的意義不僅在于提供了高精度的空間定位能力,更重要的是,它使計(jì)算機(jī)能夠更準(zhǔn)確、高效地感知和理解物理空間,從而深刻改變?nèi)伺c機(jī)器在物理世界中的交互方式。這一技術(shù)突破有望推動(dòng)AR眼鏡以及智能機(jī)器人等設(shè)備的普及和應(yīng)用。
然而,盡管LGM模型在理論上具有巨大的潛力,但在實(shí)際應(yīng)用中仍面臨諸多挑戰(zhàn)。首先,LGM模型在中國(guó)等尚未出現(xiàn)類似《Pokémon Go》這樣的AR+LBS游戲市場(chǎng)的地區(qū),缺乏足夠的用戶數(shù)據(jù)和場(chǎng)景應(yīng)用。其次,LGM模型目前仍在開發(fā)中,其實(shí)際表現(xiàn)和未來(lái)前景尚難以斷言。
盡管如此,AI大模型對(duì)AR眼鏡的影響已經(jīng)顯而易見。近年來(lái),AR眼鏡的關(guān)鍵轉(zhuǎn)變?cè)谟诖竽P蛶?lái)的自然理解能力的大幅提升,使得人機(jī)語(yǔ)音交互變得更加自然和流暢。這一變化為AR眼鏡的爆發(fā)提供了前提條件。
從交互體驗(yàn)的角度來(lái)看,AI語(yǔ)音交互的引入顯著改善了AR眼鏡在人機(jī)交互方式上的短板。同時(shí),大模型也在推動(dòng)計(jì)算機(jī)視覺能力的“基因突變”,為AR眼鏡的未來(lái)發(fā)展方向提供了更多可能性。盡管目前AI視覺的價(jià)值尚未完全展現(xiàn),但基于攝像頭的AI視覺(端云混合)在理論上具有更高的潛力,能夠降低空間交互的復(fù)雜度和門檻,減少傳感器和傳統(tǒng)計(jì)算開銷,從而實(shí)現(xiàn)重量和成本的降低以及續(xù)航的提升。