近期,有知情人士透露,OpenAI的o3與o4-mini模型在生成的文本中巧妙地嵌入了難以察覺的特殊Unicode字符,例如窄不換行空格(NNBSP,Unicode編碼為U+202F)。這些字符在日常閱讀中幾乎無法被普通用戶發(fā)現(xiàn),但在使用SoSciSurvey或Sublime Text等專業(yè)工具時,它們的存在便暴露無遺。
據(jù)分析,這些特殊字符在OpenAI生成的文本中并不罕見。它們?nèi)缤[形的標(biāo)記,靜靜地躺在文字之間。在普通文本編輯器中,這些字符與普通的空格無異,但在專業(yè)工具的檢測下,它們獨特的Unicode編碼便顯露出來。這一發(fā)現(xiàn)引發(fā)了關(guān)于OpenAI是否利用這些字符作為隱形水印的猜測。
對于這一猜測,有兩種不同的解讀。一方面,有觀點認(rèn)為OpenAI可能確實有意將這些特殊字符作為水印嵌入文本中,以此作為追蹤AI生成內(nèi)容的一種手段。此前,OpenAI已經(jīng)在DALL·E 3圖像中添加了C2PA元數(shù)據(jù),并在GPT-4o模型上測試了可見的“ImageGen”標(biāo)簽,這些舉措都顯示了OpenAI在內(nèi)容溯源和版權(quán)保護(hù)方面的努力。
另一方面,也有人持不同看法。他們認(rèn)為,這些特殊字符可能并非OpenAI刻意嵌入的水印,而是模型在訓(xùn)練過程中從大量文本數(shù)據(jù)中學(xué)習(xí)到的排版習(xí)慣。窄不換行空格在排版中常用于防止文本在特定位置換行,如貨幣符號與金額之間,以提升文本的整體美觀性和可讀性。因此,這些字符的出現(xiàn)可能是模型在生成文本時自動選擇的結(jié)果。
盡管利用特殊字符檢測AI生成內(nèi)容的方法在一定程度上具有可行性,但其準(zhǔn)確性卻并非百分之百。用戶可以通過簡單的查找和替換操作輕松移除這些特殊字符,從而繞過這一檢測方法。由于特殊字符的出現(xiàn)可能受到模型訓(xùn)練數(shù)據(jù)的影響,因此這種方法的有效性也備受質(zhì)疑。
盡管如此,AI生成內(nèi)容的溯源與版權(quán)保護(hù)問題仍然是當(dāng)前行業(yè)內(nèi)亟待解決的重要議題。谷歌的SynthID、微軟的元數(shù)據(jù)嵌入以及meta的強制標(biāo)簽等措施,都反映了各大科技公司在這一領(lǐng)域的積極探索。然而,如何在技術(shù)實現(xiàn)與倫理規(guī)范之間找到平衡點,確保既能夠有效追蹤和保護(hù)AI生成內(nèi)容,又不侵犯用戶的隱私和權(quán)益,仍是行業(yè)面臨的一大挑戰(zhàn)。