騰訊研究院近期公布了一項(xiàng)人工智能領(lǐng)域的創(chuàng)新成果——DRT-o1系列模型,該模型特別針對(duì)文學(xué)作品翻譯中的比喻和隱喻處理進(jìn)行了優(yōu)化,旨在提升翻譯質(zhì)量。
長(zhǎng)久以來(lái),神經(jīng)機(jī)器翻譯(NMT)雖然在通用文本翻譯上表現(xiàn)出色,但在面對(duì)富含修辭手法的文學(xué)作品時(shí),尤其是涉及比喻和明喻的句子,仍難以達(dá)到理想效果。DRT-o1系列模型的推出,為解決這一難題帶來(lái)了新曙光。
為了訓(xùn)練DRT-o1模型,騰訊研究團(tuán)隊(duì)從古騰堡計(jì)劃中精心挑選了400本英文公共領(lǐng)域書籍,這些書籍中包含了577,600個(gè)句子。團(tuán)隊(duì)進(jìn)一步篩選出63,000個(gè)含有明喻和隱喻的句子,以此作為模型的訓(xùn)練數(shù)據(jù)。
DRT-o1模型的核心在于其創(chuàng)新的多智能體框架,該框架由翻譯員、顧問和評(píng)估員三個(gè)角色構(gòu)成。這一設(shè)計(jì)通過三個(gè)關(guān)鍵步驟:關(guān)鍵詞翻譯、初步翻譯和翻譯精煉循環(huán),不斷迭代優(yōu)化翻譯結(jié)果。
以一句英文為例:“The mother, with her feet propped up on a stool, seemed to be trying to get to the bottom of that answer, whose feminine profundity had struck her all of a heap.” 這句話經(jīng)過DRT-o1模型的翻譯后,不僅準(zhǔn)確傳達(dá)了原句的字面意思,更捕捉到了其中的情感色彩和文化內(nèi)涵。
為了確保翻譯結(jié)果的流暢性和可讀性,騰訊研究院還引入了GPT-4o對(duì)DRT-o1模型的翻譯結(jié)果進(jìn)行潤(rùn)色。DRT-o1系列包括DRT-o1-7B和DRT-o1-14B兩個(gè)版本,實(shí)驗(yàn)結(jié)果顯示,這兩個(gè)版本在翻譯質(zhì)量上相較于傳統(tǒng)方法有了顯著提升。
騰訊研究院的這一創(chuàng)新成果,不僅展示了人工智能在文學(xué)翻譯領(lǐng)域的巨大潛力,也為未來(lái)文學(xué)作品的跨文化交流提供了更多可能性。