在科技界萬(wàn)眾矚目的焦點(diǎn)中,AI視頻大模型領(lǐng)域迎來(lái)了新一輪的激戰(zhàn)。就在近日,OpenAI在連續(xù)12天的發(fā)布會(huì)活動(dòng)上,正式推出了其AI視頻大模型Sora Turbo,但令人意外的是,這款模型最高僅支持生成20秒的視頻,遠(yuǎn)低于初次公布時(shí)的宣傳時(shí)長(zhǎng)。更令人驚訝的是,Sora Turbo目前仍處于小范圍測(cè)試階段,并非所有用戶都能立即體驗(yàn)。
回顧今年2月,Sora的首次亮相曾讓視頻大模型行業(yè)迎來(lái)了真正的黃金發(fā)展期。然而,如今看來(lái),Sora似乎在這一波浪潮中有些掉隊(duì)。相比之下,國(guó)內(nèi)市場(chǎng)在短短時(shí)間內(nèi),已經(jīng)涌現(xiàn)了不下二十款A(yù)I視頻大模型,其中不乏互聯(lián)網(wǎng)巨頭騰訊、阿里巴巴、字節(jié)跳動(dòng)等公司推出的產(chǎn)品。
AI視頻大模型的出現(xiàn),不僅賦予了大模型理解和重構(gòu)真實(shí)世界的能力,更為用戶提供了發(fā)揮想象力的無(wú)限可能。與面向泛用場(chǎng)景的大語(yǔ)言模型不同,視頻大模型的使用場(chǎng)景相對(duì)更加專業(yè),因此現(xiàn)階段往往需要付費(fèi)才能隨心生成視頻。盡管如此,這些模型仍然吸引了大量用戶的關(guān)注和嘗試。
在眾多國(guó)產(chǎn)AI視頻大模型中,有幾款表現(xiàn)尤為突出??焓挚萍计煜碌腁I團(tuán)隊(duì)推出的可靈,便是其中的佼佼者。可靈不僅支持文生視頻和圖片生成視頻兩種模式,還能調(diào)整創(chuàng)意想象力和創(chuàng)意相關(guān)性。用戶可以通過(guò)簡(jiǎn)單的描述,生成細(xì)節(jié)豐富、質(zhì)量上乘的視頻。例如,當(dāng)輸入“寧?kù)o的海灘,滿月高懸在天空……”的描述時(shí),可靈能夠生成出包含風(fēng)吹動(dòng)椰子樹(shù)、貓咪舔舐毛發(fā)等細(xì)節(jié)的視頻,盡管在晝夜轉(zhuǎn)換上略有瑕疵。
抖音也不甘示弱,推出了即夢(mèng)視頻大模型。即夢(mèng)不僅支持文生視頻和圖生視頻,還加入了對(duì)口型功能,用戶可以通過(guò)上傳圖片、視頻和文本或錄音,調(diào)整視頻內(nèi)容。即夢(mèng)在自然語(yǔ)言的理解能力上表現(xiàn)尤為出色,但生成的視頻在靈動(dòng)感上稍顯不足。例如,貓咪的動(dòng)作過(guò)于單調(diào)和僵硬,樹(shù)葉也沒(méi)有隨風(fēng)而動(dòng)。
騰訊則推出了混元視頻大模型,并在騰訊元寶App和網(wǎng)頁(yè)端上線。然而,混元在生成視頻的質(zhì)量上還有待提升,例如貓咪舔舐毛發(fā)的動(dòng)作顯得違和,椰子樹(shù)的細(xì)節(jié)也不夠豐富。不過(guò),擁有騰訊這樣的后盾,相信混元在經(jīng)過(guò)幾次迭代升級(jí)后,能夠迎頭趕上。
由北京數(shù)生科技與清華大學(xué)聯(lián)合研發(fā)的Vidu和智譜清言開(kāi)發(fā)的清影也值得關(guān)注。Vidu在生成視頻的質(zhì)量上同樣表現(xiàn)出色,運(yùn)鏡自然流暢,細(xì)節(jié)豐富。而清影則支持更多樣化的功能,如調(diào)節(jié)視頻風(fēng)格、情感氛圍等,但在生成視頻的質(zhì)量上還有待提升。
盡管這些AI視頻大模型在細(xì)節(jié)上還存在一定的漏洞,如貓咪動(dòng)作僵硬、沙灘質(zhì)感不足等,但它們已經(jīng)邁出了從無(wú)到有的關(guān)鍵一步。未來(lái),隨著自然語(yǔ)言解析能力、畫面細(xì)節(jié)打磨和運(yùn)鏡、時(shí)長(zhǎng)等方面的不斷升級(jí)迭代,AI視頻大模型有望成為用戶手中創(chuàng)作微短視頻的強(qiáng)大助手。然而,如何在激烈的市場(chǎng)競(jìng)爭(zhēng)中脫穎而出,創(chuàng)造盈利點(diǎn),將是這些企業(yè)需要面對(duì)的重要挑戰(zhàn)。