近年來(lái),隨著ChatGPT、Sora、Stable Diffusion等人工智能生成內(nèi)容(AIGC)工具的興起,算力需求急劇攀升,全球推理請(qǐng)求量持續(xù)增長(zhǎng),云端延遲問(wèn)題日益凸顯。
面對(duì)這一挑戰(zhàn),一個(gè)創(chuàng)新的解決方案應(yīng)運(yùn)而生。廣州大學(xué)、清華大學(xué)與浪潮集團(tuán)攜手,提出了一種將大型AIGC模型切割成“模塊化組件”的新方法,利用TD3算法實(shí)現(xiàn)實(shí)時(shí)組裝,旨在優(yōu)化計(jì)算需求的同時(shí),確保服務(wù)質(zhì)量不受影響。
該研究的重點(diǎn)在于,在邊緣計(jì)算的有限存儲(chǔ)空間、帶寬和計(jì)算資源條件下,如何減少用戶(hù)模型服務(wù)請(qǐng)求的響應(yīng)時(shí)間與成本。這一創(chuàng)新框架被命名為EdgeAIGC,并于2025年7月4日在《Digital Communications and Networks》期刊上發(fā)表。
EdgeAIGC框架由云服務(wù)中心、邊緣服務(wù)層和用戶(hù)層構(gòu)成。云服務(wù)中心配備高性能云服務(wù)器,存儲(chǔ)了多種預(yù)訓(xùn)練的AIGC模型,如文本轉(zhuǎn)語(yǔ)音、文本轉(zhuǎn)換等,雖能滿(mǎn)足所有用戶(hù)推理服務(wù)請(qǐng)求,但成本和時(shí)間消耗較高。
為解決這一問(wèn)題,研究者設(shè)計(jì)了包含云服務(wù)器(CS)和邊緣服務(wù)器(ES)的網(wǎng)絡(luò)架構(gòu),其中CS與ES的計(jì)算資源以A800 GPU數(shù)量表示。考慮到用戶(hù)關(guān)注的效率與成本,以及運(yùn)營(yíng)商的成本利潤(rùn),研究者致力于優(yōu)化所有請(qǐng)求服務(wù)的平均響應(yīng)時(shí)間與成本。
為了實(shí)現(xiàn)這一目標(biāo),研究者引入了TD3算法。在資源分配中,帶寬、計(jì)算資源等均為連續(xù)變量,TD3算法擅長(zhǎng)處理連續(xù)動(dòng)作空間問(wèn)題,并對(duì)高維狀態(tài)空間具有良好的適應(yīng)性。通過(guò)學(xué)習(xí)最優(yōu)連續(xù)動(dòng)作策略,TD3算法能夠確定最佳緩存決策和資源分配方案,同時(shí)引入延遲更新策略網(wǎng)絡(luò)機(jī)制,確保策略網(wǎng)絡(luò)更新穩(wěn)定。
在研究中,問(wèn)題被形式化為馬爾可夫決策過(guò)程(MDP),包括狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)。TD3算法架構(gòu)包含六個(gè)神經(jīng)網(wǎng)絡(luò),通過(guò)Actor和Critic網(wǎng)絡(luò)抑制Q值過(guò)估,延遲更新策略網(wǎng)絡(luò)防止震蕩。實(shí)驗(yàn)表明,TD3算法對(duì)學(xué)習(xí)率的設(shè)置要求較高,但通過(guò)雙評(píng)論家網(wǎng)絡(luò)和延遲更新策略,顯著提高了學(xué)習(xí)效率和穩(wěn)定性,相比DDPG算法,在獎(jiǎng)勵(lì)優(yōu)化方面提高了約1.72%。
隨著用戶(hù)數(shù)量的增加,模型命中率也隨之提升。在此過(guò)程中,TD3算法的模型命中率始終優(yōu)于其他基準(zhǔn)算法,與DDPG、GCRAS、PCRAS相比,最大改善率分別為41.06%、50.93%、57.85%。
EdgeAIGC框架結(jié)合動(dòng)態(tài)模型流行度,實(shí)現(xiàn)了邊緣服務(wù)器的模型緩存決策及帶寬和計(jì)算資源的協(xié)調(diào)分配。這一創(chuàng)新方法不僅提高了模型命中率,還為邊緣計(jì)算與AIGC的融合提供了新的思路,有望在未來(lái)推動(dòng)相關(guān)技術(shù)的發(fā)展與應(yīng)用。