谷歌近期震撼發(fā)布其最新一代人工智能模型——Gemini 2.0,這款A(yù)I模型以其卓越的性能和多模態(tài)處理能力,迅速成為業(yè)界關(guān)注的焦點。與前代產(chǎn)品相比,Gemini 2.0不僅在性能上實現(xiàn)了飛躍,更在多個關(guān)鍵基準(zhǔn)測試中展現(xiàn)出了令人矚目的表現(xiàn),其性能幾乎達(dá)到了Gemini 1.5 Pro的兩倍,且響應(yīng)速度更快,延遲更低。
在功能方面,Gemini 2.0同樣帶來了諸多創(chuàng)新。它不僅支持圖像、視頻和音頻等多種形式的輸入,還能夠?qū)崿F(xiàn)與文本相結(jié)合的原生文生圖以及可定制化的文本轉(zhuǎn)語音(TTS)多語言音頻輸出。這一多模態(tài)處理能力,使得Gemini 2.0在應(yīng)用場景上更加廣泛,能夠滿足更多元化的需求。
Gemini 2.0還引入了原生調(diào)用工具的功能,包括Google搜索、代碼執(zhí)行以及用戶自定義的第三方函數(shù)等。這些功能的加入,為開發(fā)者提供了極大的便利,使得他們能夠更加高效地利用Gemini 2.0進(jìn)行開發(fā)和創(chuàng)新。
為了探索通用人工智能(AGI)的未來潛力,谷歌還在積極推進(jìn)一系列原型項目。其中,Project Astra得到了更新,同時推出了全新的Project Mariner以及AI代碼智能體Jules。這些項目旨在通過實踐來驗證和拓展AGI的功能和應(yīng)用范圍。
目前,開發(fā)人員已經(jīng)可以在AI Studio和Vertex AI平臺上試用Gemini 2.0 Flash的實驗版本。不過需要注意的是,部分功能如文本轉(zhuǎn)語音和原生圖像生成等,目前仍僅對早期訪問合作伙伴開放。但谷歌方面表示,預(yù)計在今年1月,這些功能將向更廣泛的用戶開放。
為了推動AI技術(shù)在更多領(lǐng)域的應(yīng)用和發(fā)展,谷歌還發(fā)布了全新的多模態(tài)實時API。這款A(yù)PI具備實時處理音頻和視頻輸入的能力,并能夠支持多個組合工具的使用。它的推出,將為開發(fā)者打造動態(tài)和交互式應(yīng)用提供更加有力的支持。