《自然》封面:以AI生成數(shù)據(jù)訓(xùn)練AI,模型變傻?
大模型有許多“崩”的時(shí)候,但有一種崩潰叫做“自毀前程”——
近日,《自然》發(fā)表在封面的一篇論文指出,用AI生成的數(shù)據(jù)集訓(xùn)練未來(lái)幾代機(jī)器學(xué)習(xí)模型,可能會(huì)“污染”它們的輸出。這項(xiàng)由英國(guó)牛津大學(xué)、劍橋大學(xué)、帝國(guó)理工學(xué)院、加拿大多倫多大學(xué)等多所高校聯(lián)合開展的研究顯示,原始內(nèi)容會(huì)在數(shù)代內(nèi)變成不相關(guān)的“胡言亂語(yǔ)”,彰顯出使用可靠數(shù)據(jù)訓(xùn)練AI模型的重要性。
該論文被放在《自然》封面介紹,配圖為“Garbage Out”(垃圾出)。圖源:Nature
研究團(tuán)隊(duì)給出一個(gè)例子。他們測(cè)試了Meta的OPT-125m模型,詢問(wèn)了關(guān)于中世紀(jì)建筑的相關(guān)信息,并且每一次微調(diào)都是由上一次生成的數(shù)據(jù)來(lái)訓(xùn)練。結(jié)果,前面幾輪的回答還算過(guò)關(guān),但隨著生成內(nèi)容的迭代,模型逐漸語(yǔ)無(wú)倫次;到第九次,模型居然開始“胡說(shuō)八道”,回答從討論建筑跳躍到一串“野兔”的名字……
該論文主要作者表示,他們?cè)紤]過(guò)合成數(shù)據(jù)可能對(duì)大模型造成誤差,但未曾預(yù)料到模型的惡化速度會(huì)如此迅速。
對(duì)此,研究團(tuán)隊(duì)專門定義了“模型崩潰”:模型崩潰是一個(gè)退化過(guò)程,模型生成的內(nèi)容會(huì)污染下一代的訓(xùn)練數(shù)據(jù)集。而在被污染的數(shù)據(jù)上訓(xùn)練之后,新一代模型就容易誤解現(xiàn)實(shí)。同時(shí),研究團(tuán)隊(duì)還分析了導(dǎo)致大模型同原始模型發(fā)生偏離的三個(gè)誤差原因。
經(jīng)過(guò)理論分析,研究人員指出,對(duì)于使用前幾代生成的訓(xùn)練數(shù)據(jù)集的AI模型來(lái)說(shuō),模型崩潰似乎是一個(gè)不可避免的結(jié)局。作者團(tuán)隊(duì)認(rèn)為,用AI生成數(shù)據(jù)訓(xùn)練一個(gè)模型并非不可能,但必須對(duì)數(shù)據(jù)進(jìn)行嚴(yán)格過(guò)濾。與此同時(shí),依賴人類生成內(nèi)容的科技公司或許能比競(jìng)爭(zhēng)對(duì)手訓(xùn)練出更高效的AI模型。
這一研究給AI訓(xùn)練敲響了警鐘。當(dāng)下,大語(yǔ)言模型等生成式AI工具越來(lái)越受歡迎,這些模型工具主要使用人類生成的數(shù)據(jù)進(jìn)行訓(xùn)練。然而,隨著這些AI模型工具被大量使用,它們生成的內(nèi)容會(huì)逐漸充斥于互聯(lián)網(wǎng),未來(lái)計(jì)算機(jī)生成內(nèi)容可能會(huì)以遞歸循環(huán)的形式被用于訓(xùn)練其他AI模型或其自身。
不過(guò),也有業(yè)內(nèi)人士認(rèn)為,這項(xiàng)研究的邏輯有些問(wèn)題,畢竟“訓(xùn)練一個(gè)失敗的模型要比訓(xùn)練成功一個(gè)模型要容易得多”。該觀點(diǎn)指出,訓(xùn)練AI模型過(guò)程中除了對(duì)數(shù)據(jù)的選擇之外,還有強(qiáng)化學(xué)習(xí)、模型精調(diào)等必要方法;即便是使用AI合成數(shù)據(jù),基本上也都有各種生成方式的設(shè)計(jì)和嚴(yán)格的篩選。
“要訓(xùn)練好AI不容易,但要讓它崩潰,那我有一萬(wàn)種辦法?!痹撚^點(diǎn)指出。
無(wú)獨(dú)有偶,美國(guó)斯坦福大學(xué)也有人工智能研究人員發(fā)表論文中研究了模型崩潰的問(wèn)題。在這項(xiàng)工作的研究者看來(lái),將合成數(shù)據(jù)添加到現(xiàn)實(shí)世界數(shù)據(jù)中而不是替換它,并不會(huì)引起任何重大問(wèn)題。但該作者補(bǔ)充道:“所有關(guān)于模型崩潰的研究都得出一個(gè)結(jié)論,那就是高質(zhì)量且多樣化的訓(xùn)練數(shù)據(jù)至關(guān)重要?!?/p>
-
科技前沿
-
焦點(diǎn)事件
-
精英視角
-
產(chǎn)品技術(shù)
-
科技前沿
-
投融資
-
焦點(diǎn)事件
-
焦點(diǎn)事件
-
焦點(diǎn)事件
-
焦點(diǎn)事件
-
焦點(diǎn)事件