阿里云旗下通義團(tuán)隊近日宣布,其自主研發(fā)的深度研究智能體模型DeepResearch正式面向全球開發(fā)者開源。該模型憑借300億參數(shù)規(guī)模(激活30億參數(shù))在多項權(quán)威基準(zhǔn)測試中刷新紀(jì)錄,不僅超越DeepSeek-V3.1和OpenAI同類模型,更在被稱為"人類終極考試"的HLE榜單中以32.9%的準(zhǔn)確率登頂全球榜首。
在OpenAI提出的BrowseComp復(fù)雜網(wǎng)頁任務(wù)基準(zhǔn)測試中,該模型以43.4%的準(zhǔn)確率領(lǐng)跑開源社區(qū)。開發(fā)者現(xiàn)已可通過Hugging Face、GitHub及ModelScope平臺獲取完整模型代碼與訓(xùn)練框架,GitHub項目上線首周即收獲7200顆星標(biāo),引發(fā)全球AI研究者熱議。Hugging Face聯(lián)合創(chuàng)始人克萊姆·德朗熱親自轉(zhuǎn)發(fā)項目鏈接,斯坦福大學(xué)NLP實驗室等權(quán)威機(jī)構(gòu)也跟進(jìn)關(guān)注。
與傳統(tǒng)問答式AI不同,DeepResearch構(gòu)建了完整的研究工作流。面對夏威夷珍珠城房產(chǎn)交易查詢等復(fù)雜需求時,模型會自動拆解為"聯(lián)網(wǎng)檢索-多源驗證-結(jié)構(gòu)化分析-報告生成"四步流程。在處理法律糾紛咨詢時,模型通過調(diào)用法條數(shù)據(jù)庫、司法判例庫和學(xué)術(shù)文獻(xiàn)庫,完成從問題解析到證據(jù)鏈構(gòu)建的全過程,最終生成可追溯的研究報告。
技術(shù)實現(xiàn)層面,研究團(tuán)隊創(chuàng)新性地提出"智能體合成數(shù)據(jù)"訓(xùn)練體系。通過構(gòu)建包含200億實體的開放世界知識庫,模擬生成數(shù)千萬組規(guī)劃-推理-決策動作數(shù)據(jù)。在后訓(xùn)練階段開發(fā)的WebSailor V2框架,能夠自動生成包含信息隱藏、噪聲注入的復(fù)雜問題集,有效防止模型學(xué)習(xí)路徑捷徑。這種數(shù)據(jù)生成方式使合成數(shù)據(jù)質(zhì)量超越人工標(biāo)注,訓(xùn)練效率提升300%。
針對長程研究任務(wù),團(tuán)隊開發(fā)了雙重推理模式。標(biāo)準(zhǔn)任務(wù)采用ReAct(思考-行動-觀察)循環(huán)機(jī)制,支持128K上下文窗口的多輪交互。面對跨學(xué)科數(shù)學(xué)建模等復(fù)雜任務(wù)時,模型自動切換至Heavy Mode深度模式,通過"信息精煉-報告迭代-決策優(yōu)化"的循環(huán)機(jī)制,將任務(wù)分解為多個研究輪次。這種架構(gòu)使模型在BrowseComp-ZH中文基準(zhǔn)測試中準(zhǔn)確率提升27%。
在強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)節(jié),研究團(tuán)隊構(gòu)建了全棧式基礎(chǔ)設(shè)施。通過離線維基百科和自定義工具套件搭建的仿真環(huán)境,使訓(xùn)練成本降低80%。工具沙盒機(jī)制通過緩存響應(yīng)、失敗重試等技術(shù),確保智能體訓(xùn)練穩(wěn)定性。基于rLLM的異步框架支持千級智能體并行訓(xùn)練,數(shù)據(jù)管理模塊實現(xiàn)訓(xùn)練數(shù)據(jù)與模型性能的動態(tài)優(yōu)化閉環(huán)。
實際應(yīng)用層面,該技術(shù)已深度融入高德地圖導(dǎo)航系統(tǒng)。在杭州西湖景區(qū)POI推薦場景中,模型可同時處理地理位置、用戶評價、交通條件等12維約束參數(shù),3秒內(nèi)生成包含路線規(guī)劃、餐飲推薦的完整方案。法律領(lǐng)域落地的"通義法睿"智能體,通過迭代式規(guī)劃架構(gòu)實現(xiàn)多步法律推理,在案例引用準(zhǔn)確率、法條適配度等指標(biāo)上超越主流商業(yè)模型。