阿里巴巴在GitHub上最新開源了一款名為ZeroSearch的大模型搜索引擎,這款引擎的推出標志著信息檢索領域的一次重大革新。這款搜索引擎采用了強化學習框架,使得大型語言模型無需依賴真實的搜索引擎便能擁有強大的搜索能力。
ZeroSearch充分利用了大型語言模型在預訓練階段所積累的海量知識,并將其轉(zhuǎn)化為高效的檢索模塊。不同于傳統(tǒng)的搜索引擎,ZeroSearch無需與真實搜索引擎進行交互,而是依靠一種獨特的強化學習機制,通過模型自身的能力直接完成信息檢索任務。這一獨特的設計使得ZeroSearch能夠獨立于現(xiàn)有的搜索引擎生態(tài)系統(tǒng)之外,為信息檢索帶來了全新的視角和可能性。
除了無需依賴真實搜索引擎外,ZeroSearch還具備動態(tài)調(diào)整生成內(nèi)容質(zhì)量的能力。它能夠根據(jù)用戶的查詢需求,實時優(yōu)化搜索結(jié)果的準確性和相關性,從而提供更加精確和個性化的搜索體驗。這一動態(tài)控制能力,是傳統(tǒng)搜索引擎所無法比擬的,也是ZeroSearch的核心技術優(yōu)勢之一。
為了驗證ZeroSearch的性能,研究人員在多個問答數(shù)據(jù)集上進行了全面的評測,包括NQ、TriviaQA、PopQA和HotpotQA等。評測結(jié)果顯示,一個擁有70億參數(shù)的監(jiān)督微調(diào)模型,在使用ZeroSearch后,其搜索能力評分達到了33.06;而一個140億參數(shù)的模型更是取得了33.97的高分,成功超越了谷歌搜索的32.47分。這一結(jié)果充分證明了ZeroSearch在搜索性能上的卓越表現(xiàn)。
在成本控制方面,ZeroSearch同樣展現(xiàn)出了巨大的優(yōu)勢。研究人員通過SerpAPI使用谷歌搜索進行了約64,000次搜索查詢的訓練,成本高達586.70美元(約合人民幣4238元)。然而,在使用四個A100 GPU對140億參數(shù)的大模型進行模擬時,成本僅為70.80美元(約合人民幣511元),成本降低了87.93%以上。這一顯著的成本節(jié)約,使得ZeroSearch在實際應用中具有更高的性價比和可行性。