首頁(yè)|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 人工智能 >> 正文

人工智能的訓(xùn)練數(shù)據(jù)正在枯竭,合成數(shù)據(jù)引發(fā)巨大爭(zhēng)議

2024年8月13日 07:13  華爾街見(jiàn)聞  

在AI的繁榮中,訓(xùn)練數(shù)據(jù)已成為最寶貴的資源之一,而能夠以低成本且看似無(wú)限地生成這些數(shù)據(jù)的前景無(wú)疑極具吸引力。但是一些人認(rèn)為,合成數(shù)據(jù)可能會(huì)導(dǎo)致AI模型因低質(zhì)量信息而“自我中毒”,最終可能導(dǎo)致模型“崩潰”。

AI行業(yè)面臨一個(gè)重大問(wèn)題:用于訓(xùn)練更智能模型的真實(shí)世界數(shù)據(jù)正在耗盡。研究表明,合成數(shù)據(jù)可能會(huì)通過(guò)低質(zhì)量信息“毒害”人工智能。

人工智能領(lǐng)域正處于其最寶貴資源即將耗盡的邊緣,這促使行業(yè)領(lǐng)袖們展開(kāi)激烈的辯論,討論一種快速發(fā)展的替代方案:合成數(shù)據(jù),或稱“虛假”數(shù)據(jù)。

多年來(lái),像OpenAI和谷歌(163.95, -1.44, -0.87%)這樣的公司一直從互聯(lián)網(wǎng)上抓取數(shù)據(jù),用于訓(xùn)練支撐其AI工具和功能的大型語(yǔ)言模型(LLM)。這些LLM處理了由人類在數(shù)個(gè)世紀(jì)間創(chuàng)作的大量文本、視頻及其他媒體內(nèi)容無(wú)論是研究論文、小說(shuō)還是YouTube視頻片段。

然而,現(xiàn)在“真實(shí)”的人類生成數(shù)據(jù)正逐漸枯竭。研究公司Epoch AI預(yù)測(cè),文本數(shù)據(jù)可能在2028年之前就會(huì)耗盡。同時(shí),那些已經(jīng)從互聯(lián)網(wǎng)的各個(gè)角落挖掘出可用訓(xùn)練數(shù)據(jù)的公司有時(shí)甚至不惜打破政策來(lái)獲取數(shù)據(jù)正面臨著越來(lái)越多的限制。

對(duì)于一些人來(lái)說(shuō),這并不一定是個(gè)問(wèn)題。OpenAI的首席執(zhí)行官薩姆·阿爾特曼(Sam Altman)曾表示,AI模型最終應(yīng)該能夠生成足夠高質(zhì)量的合成數(shù)據(jù),以有效地自我訓(xùn)練。其吸引力顯而易見(jiàn):在AI的繁榮中,訓(xùn)練數(shù)據(jù)已成為最寶貴的資源之一,而能夠以低成本且看似無(wú)限地生成這些數(shù)據(jù)的前景無(wú)疑極具吸引力。

然而,研究人員對(duì)合成數(shù)據(jù)是否真的是靈丹妙藥仍存在爭(zhēng)議。一些人認(rèn)為,這條道路可能會(huì)導(dǎo)致AI模型因低質(zhì)量信息而“自我中毒”,最終可能導(dǎo)致模型“崩潰”。

牛津大學(xué)和劍橋大學(xué)的一組研究人員最近發(fā)表的一篇論文指出,將AI生成的數(shù)據(jù)輸入模型,最終會(huì)導(dǎo)致其輸出無(wú)意義的內(nèi)容。作者發(fā)現(xiàn),AI生成的數(shù)據(jù)并非完全不可用于訓(xùn)練,但應(yīng)與真實(shí)世界的數(shù)據(jù)相平衡使用。

隨著可用的人類生成數(shù)據(jù)日益枯竭,越來(lái)越多的公司開(kāi)始考慮使用合成數(shù)據(jù)。2021年,研究公司Gartner預(yù)測(cè),到2024年,用于開(kāi)發(fā)AI的數(shù)據(jù)中有60%將是合成生成的。

“這是一場(chǎng)危機(jī),”紐約大學(xué)心理學(xué)和神經(jīng)科學(xué)榮休教授、AI分析師加里·馬庫(kù)斯表示!叭藗?cè)?jīng)幻想著,只要使用越來(lái)越多的數(shù)據(jù),就能無(wú)限提升大型語(yǔ)言模型的性能,但現(xiàn)在他們基本上已經(jīng)用盡了所有可以使用的數(shù)據(jù)!

他補(bǔ)充道:“沒(méi)錯(cuò),合成數(shù)據(jù)可能會(huì)幫助解決一些問(wèn)題,但更深層次的問(wèn)題在于,這些系統(tǒng)并不真正進(jìn)行推理,也不會(huì)真正進(jìn)行規(guī)劃。你能想象的所有合成數(shù)據(jù)都無(wú)法解決這一根本性問(wèn)題!

越來(lái)越多的公司開(kāi)始生成合成數(shù)據(jù)

對(duì)“虛假”數(shù)據(jù)的需求取決于一個(gè)關(guān)鍵概念:真實(shí)世界的數(shù)據(jù)正迅速耗盡。

這部分原因在于,科技公司一直在盡可能快地利用公開(kāi)數(shù)據(jù)來(lái)訓(xùn)練人工智能,以超越競(jìng)爭(zhēng)對(duì)手。另一方面,在線數(shù)據(jù)的擁有者也越來(lái)越警惕公司免費(fèi)獲取他們的數(shù)據(jù)。

2020年,OpenAI的研究人員透露,他們利用來(lái)自Common Crawl的免費(fèi)數(shù)據(jù)來(lái)訓(xùn)練最終為ChatGPT提供支持的AI模型。Common Crawl是一個(gè)網(wǎng)絡(luò)爬蟲,OpenAI表示其中包含了“近一萬(wàn)億字”的在線資源。

今年7月,數(shù)據(jù)來(lái)源倡議組織發(fā)布的研究發(fā)現(xiàn),各大網(wǎng)站正在采取限制措施,阻止AI公司使用不屬于它們的數(shù)據(jù)。新聞出版物和其他熱門網(wǎng)站也越來(lái)越多地禁止AI公司自由地獲取它們的數(shù)據(jù)。

為了解決這一問(wèn)題,OpenAI和谷歌等公司紛紛支付數(shù)千萬(wàn)美元,獲取Reddit和新聞媒體的數(shù)據(jù)訪問(wèn)權(quán)限,這些數(shù)據(jù)源為訓(xùn)練模型提供了新鮮的數(shù)據(jù)。然而,即便如此,這種方法也有其局限性。

“文本網(wǎng)絡(luò)中已經(jīng)沒(méi)有大量等待被抓取的區(qū)域了,”艾倫人工智能研究所的研究員內(nèi)森·蘭伯特在今年5月寫道。

這時(shí),合成數(shù)據(jù)應(yīng)運(yùn)而生。合成數(shù)據(jù)并非來(lái)自真實(shí)世界,而是由已經(jīng)在真實(shí)數(shù)據(jù)上訓(xùn)練過(guò)的AI系統(tǒng)生成的。

例如,今年6月,英偉達(dá)發(fā)布了一款A(yù)I模型,能夠生成用于訓(xùn)練和校準(zhǔn)的人工數(shù)據(jù)集。7月,中國(guó)科技巨頭騰訊的研究人員推出了一個(gè)名為Persona Hub的合成數(shù)據(jù)生成器,功能類似。

一些初創(chuàng)公司,如Gretel和SynthLabs,甚至專門成立,致力于生成并出售大量特定類型的數(shù)據(jù),滿足有此需求的企業(yè)。

合成數(shù)據(jù)的支持者為其使用提供了合理的理由。與真實(shí)世界一樣,人類生成的數(shù)據(jù)往往是混亂的,研究人員在使用之前必須經(jīng)過(guò)復(fù)雜且費(fèi)力的清理和標(biāo)注工作。

合成數(shù)據(jù)可以填補(bǔ)人類數(shù)據(jù)無(wú)法覆蓋的空白。例如,7月下旬,Meta推出了Llama 3.1,這是一系列新的AI模型,能夠生成合成數(shù)據(jù),并依賴這些數(shù)據(jù)進(jìn)行訓(xùn)練中的“微調(diào)”。特別是在一些特定技能上,如用Python、Java和Rust等語(yǔ)言進(jìn)行編程,以及解決數(shù)學(xué)問(wèn)題,合成數(shù)據(jù)有助于提升模型的性能。

合成訓(xùn)練對(duì)較小的AI模型可能特別有效。去年,微軟(406.81, 0.79, 0.19%)表示,他們?yōu)镺penAI的模型提供了一份多樣化的詞匯表,這些詞匯是典型的3至4歲兒童會(huì)知道的,然后要求模型使用這些詞匯生成短篇故事。生成的數(shù)據(jù)集被用來(lái)創(chuàng)建一組小型但功能強(qiáng)大的語(yǔ)言模型。

此外,合成數(shù)據(jù)還有助于有效地“反調(diào)校”由現(xiàn)實(shí)世界數(shù)據(jù)所產(chǎn)生的偏見(jiàn)。在2021年發(fā)表的論文《論隨機(jī)鸚鵡的危險(xiǎn)》中,前谷歌研究員蒂姆尼特·蓋布魯、瑪格麗特·米切爾及其他人指出,基于來(lái)自互聯(lián)網(wǎng)的大型文本數(shù)據(jù)集訓(xùn)練的大型語(yǔ)言模型很可能反映出數(shù)據(jù)中的偏見(jiàn)。

今年4月,谷歌DeepMind的一組研究人員發(fā)表了一篇論文,提倡使用合成數(shù)據(jù)來(lái)解決訓(xùn)練中的數(shù)據(jù)稀缺和隱私問(wèn)題。他們指出,確保這些AI生成數(shù)據(jù)的準(zhǔn)確性和無(wú)偏性“仍然是一個(gè)關(guān)鍵挑戰(zhàn)”。

“哈布斯堡AI”

盡管AI行業(yè)在合成數(shù)據(jù)中發(fā)現(xiàn)了一些優(yōu)勢(shì),但它也面臨著不可忽視的嚴(yán)重問(wèn)題,例如擔(dān)心合成數(shù)據(jù)可能會(huì)破壞AI模型。

在Meta關(guān)于Llama 3.1的研究論文中,該公司表示,使用其最新模型的4050億參數(shù)版本進(jìn)行自生成數(shù)據(jù)的訓(xùn)練“并沒(méi)有幫助”,甚至可能“降低性能”。

上個(gè)月發(fā)表在《自然》雜志的一項(xiàng)研究發(fā)現(xiàn),在模型訓(xùn)練中“濫用”合成數(shù)據(jù)可能導(dǎo)致“不可逆的缺陷”。研究人員將這一現(xiàn)象稱為“模型崩潰”,并表示如果我們希望持續(xù)享受從網(wǎng)絡(luò)抓取的大規(guī)模數(shù)據(jù)中訓(xùn)練所帶來(lái)的益處,就必須認(rèn)真對(duì)待這個(gè)問(wèn)題。

蒙納士大學(xué)高級(jí)研究員賈森·薩多斯基為這個(gè)想法創(chuàng)造了一個(gè)術(shù)語(yǔ):“哈布斯堡AI”,靈感來(lái)源于奧地利哈布斯堡王朝,一些歷史學(xué)家認(rèn)為這個(gè)王朝因近親繁殖而自我毀滅。自從提出這一術(shù)語(yǔ)以來(lái),薩多斯基告訴《商業(yè)內(nèi)幕》,隨著越來(lái)越多的研究支持他關(guān)于模型過(guò)度依賴AI生成輸出可能導(dǎo)致變異的觀點(diǎn),他感到這一想法得到了驗(yàn)證。

薩多斯基表示:“對(duì)于構(gòu)建AI系統(tǒng)的研究人員和公司來(lái)說(shuō),尚未解決的問(wèn)題是:到底有多少合成數(shù)據(jù)才算過(guò)量?” 他還補(bǔ)充說(shuō),他們需要找到任何可能的解決方案,以克服AI系統(tǒng)數(shù)據(jù)稀缺的挑戰(zhàn),但他也指出,其中一些解決方案可能只是短期修復(fù),最終可能弊大于利。

然而,4月份發(fā)表的研究發(fā)現(xiàn),如果模型在訓(xùn)練時(shí)同時(shí)使用“真實(shí)”數(shù)據(jù)和合成數(shù)據(jù),它們不一定會(huì)“崩潰”。現(xiàn)在,一些公司正在押注“混合數(shù)據(jù)”的未來(lái),即通過(guò)使用部分真實(shí)數(shù)據(jù)生成合成數(shù)據(jù),以防止模型偏離軌道。

幫助公司標(biāo)注和測(cè)試數(shù)據(jù)的Scale AI表示,他們正在探索“混合數(shù)據(jù)”的方向,結(jié)合使用合成和非合成數(shù)據(jù)。Scale AI的首席執(zhí)行官亞歷山大·王最近表示:“混合數(shù)據(jù)才是真正的未來(lái)!

尋求其他解決方案

AI可能需要采用新的方法,因?yàn)閮H僅向模型中塞入更多數(shù)據(jù)的效果可能有限。

今年1月,谷歌DeepMind的一組研究人員或許證明了另一種方法的優(yōu)點(diǎn)。當(dāng)時(shí),該公司宣布推出AlphaGeometry,這是一種能夠解決奧林匹克水平幾何問(wèn)題的AI系統(tǒng)。

在一篇補(bǔ)充論文中,研究人員指出,AlphaGeometry采用了一種“神經(jīng)符號(hào)”(neuro-symbolic)方法,這種方法結(jié)合了其他AI方法的優(yōu)勢(shì),介于依賴大量數(shù)據(jù)的深度學(xué)習(xí)模型與基于規(guī)則的邏輯推理之間。IBM(189.48, -1.97, -1.03%)的研究團(tuán)隊(duì)表示,這可能是一條實(shí)現(xiàn)通用人工智能(AGI)的途徑。

更值得注意的是,在AlphaGeometry的案例中,它完全是在合成數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練的。

神經(jīng)符號(hào)AI領(lǐng)域相對(duì)較新,它是否能推動(dòng)AI的發(fā)展仍有待觀察。

鑒于OpenAI、谷歌和微軟等公司在將AI熱潮轉(zhuǎn)化為利潤(rùn)方面面臨的壓力,可以預(yù)見(jiàn)它們將嘗試一切可能的解決方案來(lái)應(yīng)對(duì)數(shù)據(jù)危機(jī)。

“除非我們完全采用新的方法,否則我們基本上仍將陷入困境,”加里·馬庫(kù)斯說(shuō)道。(BI)

本文作者:Chowdhury et al.,來(lái)源:AI新智能,原文標(biāo)題:《人工智能的訓(xùn)練數(shù)據(jù)正在枯竭,合成數(shù)據(jù)引發(fā)巨大爭(zhēng)議》

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
尚冰:中國(guó)互聯(lián)網(wǎng)應(yīng)用蓬勃發(fā)展,多項(xiàng)關(guān)鍵指標(biāo)位居全球第一
精彩專題
CES 2024國(guó)際消費(fèi)電子展
2023年信息通信產(chǎn)業(yè)盤點(diǎn)暨頒獎(jiǎng)禮
飛象網(wǎng)2023年手機(jī)評(píng)選
第24屆中國(guó)國(guó)際光電博覽會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像