久久99久久98精品免观看软件-久久99九九-久久99九九-久久99精品视频-亚洲一区-亚洲一级在线观看

“喂”給人工智能的真實數據終將耗盡,合成數據能否讓AI模型精確可靠?

6個月前 來源:中國科技網 觀看:170

人工智能(AI)初創公司xAI創始人埃隆·馬斯克近日表示:“在AI訓練中,我們現在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實數據將在2到8年內消耗殆盡。鑒于真實數據日益稀缺,為滿足AI的“胃口”,科技行業正轉向使用合成數據。12p即熱新聞——關注每天科技社會生活新變化gihot.com

澳大利亞“對話”網站在本月稍早時間報道中指出,合成數據具有諸多優勢,但過度依賴合成數據也可能削弱AI的精確性和可靠性。12p即熱新聞——關注每天科技社會生活新變化gihot.com

合成數據應運而生12p即熱新聞——關注每天科技社會生活新變化gihot.com

以往,科技公司主要依賴真實數據來構建、訓練和改進AI模型。真實數據是指由人類創建的文本、視頻和圖像。它們通過調查、實驗、觀察或挖掘網站和社交媒體等途徑被收集而來。12p即熱新聞——關注每天科技社會生活新變化gihot.com

真實數據因蘊含真實事件以及其場景和背景而極具價值,但其并非盡善盡美。它可能摻雜拼寫錯誤、不一致或無關的內容,甚至潛藏嚴重偏見,導致生成式AI模型在某些情況下創建的圖像僅展示男性或白人形象。12p即熱新聞——關注每天科技社會生活新變化gihot.com

但真實數據日益匱乏,因為人類生成數據的速度趕不上AI不斷增長的需求。12p即熱新聞——關注每天科技社會生活新變化gihot.com

美國開放人工智能研究中心聯合創始人伊利亞·蘇茨克維爾在去年12月舉行的機器學習會議上聲稱,AI行業已觸及他所稱的“數據峰值”,AI的訓練數據如同化石燃料一樣面臨著耗盡的危機。此外,有研究預測,到2026年,ChatGPT等大型語言模型的訓練將耗盡互聯網上所有可用文本數據,屆時將沒有新的真實數據可供使用。12p即熱新聞——關注每天科技社會生活新變化gihot.com

為給AI提供充足的“養分”,一種由算法生成的、模仿真實世界情況的數據——合成數據應運而生。合成數據是在數字世界中創造的,而非從現實世界收集或測量而來。它可以作為真實世界數據的替代品,來訓練、測試、驗證AI模型。12p即熱新聞——關注每天科技社會生活新變化gihot.com

從理論上來說,合成數據為訓練AI模型提供了一種經濟高效且快捷的解決方案。它有效解決了AI訓練使用真實數據時飽受詬病的隱私問題和道德問題,尤其是涉及個人健康數據等敏感信息時。更重要的是,與真實數據不同,合成數據在理論上可以無限供應。12p即熱新聞——關注每天科技社會生活新變化gihot.com

研究機構高德納公司估計,2024年AI及分析項目使用的數據中,約60%是合成數據。到2030年,AI模型使用的絕大部分數據將是由AI生成的合成數據。12p即熱新聞——關注每天科技社會生活新變化gihot.com

科技公司來者不拒12p即熱新聞——關注每天科技社會生活新變化gihot.com

事實上,微軟、元宇宙平臺公司,以及Anthropic等眾多科技頭部企業和初創企業,已經開始廣泛使用合成數據來訓練其AI模型。12p即熱新聞——關注每天科技社會生活新變化gihot.com

例如,微軟在1月8日開源的AI模型“Phi-4”,便是合成數據攜手真實數據訓練的;谷歌的“Gemma”模型也采用了類似方法。Anthropic公司也利用部分合成數據,開發出其性能最優異的AI系統之一“Claude 3.5 Sonnet”。蘋果自研AI系統Apple Intelligence,在預訓練階段,也大量使用了合成數據。12p即熱新聞——關注每天科技社會生活新變化gihot.com

隨著科技公司對合成數據的需求與日俱增,生產合成數據的工具也接踵而至。12p即熱新聞——關注每天科技社會生活新變化gihot.com

英偉達公司發布的3D仿真數據生成引擎Omniverse Replicator,能夠生成合成數據,用于自動駕駛汽車和機器人訓練。去年6月,英偉達開源了Nemotron-4340b系列模型,開發者可使用該模型生成合成數據,用于訓練大型語言模型,以應用于醫療保健、金融、制造、零售等行業。在醫療、金融等專業領域,該模型能夠根據特定需求生成高質量的合成數據,幫助構建更為精準的行業專屬模型。微軟推出的開源合成數據工具Synthetic Data Showcase則旨在通過生成合成數據和用戶界面,實現隱私保護的數據共享和分析。亞馬遜云科技推出的Amazon SageMaker Ground Truth也能為用戶生成數十萬張自動標記的合成圖像。12p即熱新聞——關注每天科技社會生活新變化gihot.com

此外,去年12月,元宇宙平臺公司推出開源大模型Llama 3.3,更是大幅降低了生成合成數據的成本。12p即熱新聞——關注每天科技社會生活新變化gihot.com

過度依賴風險難測12p即熱新聞——關注每天科技社會生活新變化gihot.com

盡管合成數據暫時解決了AI訓練的燃眉之急,但它也并非盡善盡美。12p即熱新聞——關注每天科技社會生活新變化gihot.com

一個關鍵問題在于:當AI模型過于依賴合成數據時,它們可能會“崩潰”。它們會產生更多“幻覺”,編造看似合理可信但實際上并不存在的信息。而且,AI模型的質量和性能也會飛速下降,甚至無法使用。例如,某個AI模型生成的數據出現了一些拼寫錯誤,利用這些充滿了錯誤的數據訓練其他模型,這些AI模型必定會“以訛傳訛”,導致更大的錯誤。12p即熱新聞——關注每天科技社會生活新變化gihot.com

此外,合成數據也存在過于簡單化的風險。它可能缺乏真實數據集蘊含的細節和多樣性,這可能導致在其上訓練的AI模型的輸出也過于簡單,缺乏實用性。12p即熱新聞——關注每天科技社會生活新變化gihot.com

為解決這些問題,國際標準化組織需要著手創建強大的系統,來跟蹤和驗證AI訓練數據。此外,AI系統可以配備元數據追蹤功能,讓用戶或系統能對合成數據進行溯源。人類也需要在AI模型的整個訓練過程中對合成數據進行監督,以確保其高質量且符合道德標準。12p即熱新聞——關注每天科技社會生活新變化gihot.com

AI的未來在很大程度上取決于數據的質量,合成數據將在克服數據短缺方面發揮越來越重要的作用。對合成數據的使用,人們必須保持謹慎態度,盡量減少錯誤,確保其作為真實數據的可靠補充,從而保障AI系統的準確性和可信度。12p即熱新聞——關注每天科技社會生活新變化gihot.com

人工智能(AI)初創公司xAI創始人埃隆·馬斯克近日表示:“在AI訓練中,我們現在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實數據將在2到8年內消耗殆盡。鑒于真實數據日益稀缺,為滿足AI的“胃口”,科技行業正轉向使用合成數據。12p即熱新聞——關注每天科技社會生活新變化gihot.com

澳大利亞“對話”網站在本月稍早時間報道中指出,合成數據具有諸多優勢,但過度依賴合成數據也可能削弱AI的精確性和可靠性。12p即熱新聞——關注每天科技社會生活新變化gihot.com

合成數據應運而生12p即熱新聞——關注每天科技社會生活新變化gihot.com

以往,科技公司主要依賴真實數據來構建、訓練和改進AI模型。真實數據是指由人類創建的文本、視頻和圖像。它們通過調查、實驗、觀察或挖掘網站和社交媒體等途徑被收集而來。12p即熱新聞——關注每天科技社會生活新變化gihot.com

真實數據因蘊含真實事件以及其場景和背景而極具價值,但其并非盡善盡美。它可能摻雜拼寫錯誤、不一致或無關的內容,甚至潛藏嚴重偏見,導致生成式AI模型在某些情況下創建的圖像僅展示男性或白人形象。12p即熱新聞——關注每天科技社會生活新變化gihot.com

但真實數據日益匱乏,因為人類生成數據的速度趕不上AI不斷增長的需求。12p即熱新聞——關注每天科技社會生活新變化gihot.com

美國開放人工智能研究中心聯合創始人伊利亞·蘇茨克維爾在去年12月舉行的機器學習會議上聲稱,AI行業已觸及他所稱的“數據峰值”,AI的訓練數據如同化石燃料一樣面臨著耗盡的危機。此外,有研究預測,到2026年,ChatGPT等大型語言模型的訓練將耗盡互聯網上所有可用文本數據,屆時將沒有新的真實數據可供使用。12p即熱新聞——關注每天科技社會生活新變化gihot.com

為給AI提供充足的“養分”,一種由算法生成的、模仿真實世界情況的數據——合成數據應運而生。合成數據是在數字世界中創造的,而非從現實世界收集或測量而來。它可以作為真實世界數據的替代品,來訓練、測試、驗證AI模型。12p即熱新聞——關注每天科技社會生活新變化gihot.com

從理論上來說,合成數據為訓練AI模型提供了一種經濟高效且快捷的解決方案。它有效解決了AI訓練使用真實數據時飽受詬病的隱私問題和道德問題,尤其是涉及個人健康數據等敏感信息時。更重要的是,與真實數據不同,合成數據在理論上可以無限供應。12p即熱新聞——關注每天科技社會生活新變化gihot.com

研究機構高德納公司估計,2024年AI及分析項目使用的數據中,約60%是合成數據。到2030年,AI模型使用的絕大部分數據將是由AI生成的合成數據。12p即熱新聞——關注每天科技社會生活新變化gihot.com

科技公司來者不拒12p即熱新聞——關注每天科技社會生活新變化gihot.com

事實上,微軟、元宇宙平臺公司,以及Anthropic等眾多科技頭部企業和初創企業,已經開始廣泛使用合成數據來訓練其AI模型。12p即熱新聞——關注每天科技社會生活新變化gihot.com

例如,微軟在1月8日開源的AI模型“Phi-4”,便是合成數據攜手真實數據訓練的;谷歌的“Gemma”模型也采用了類似方法。Anthropic公司也利用部分合成數據,開發出其性能最優異的AI系統之一“Claude 3.5 Sonnet”。蘋果自研AI系統Apple Intelligence,在預訓練階段,也大量使用了合成數據。12p即熱新聞——關注每天科技社會生活新變化gihot.com

隨著科技公司對合成數據的需求與日俱增,生產合成數據的工具也接踵而至。12p即熱新聞——關注每天科技社會生活新變化gihot.com

英偉達公司發布的3D仿真數據生成引擎Omniverse Replicator,能夠生成合成數據,用于自動駕駛汽車和機器人訓練。去年6月,英偉達開源了Nemotron-4340b系列模型,開發者可使用該模型生成合成數據,用于訓練大型語言模型,以應用于醫療保健、金融、制造、零售等行業。在醫療、金融等專業領域,該模型能夠根據特定需求生成高質量的合成數據,幫助構建更為精準的行業專屬模型。微軟推出的開源合成數據工具Synthetic Data Showcase則旨在通過生成合成數據和用戶界面,實現隱私保護的數據共享和分析。亞馬遜云科技推出的Amazon SageMaker Ground Truth也能為用戶生成數十萬張自動標記的合成圖像。12p即熱新聞——關注每天科技社會生活新變化gihot.com

此外,去年12月,元宇宙平臺公司推出開源大模型Llama 3.3,更是大幅降低了生成合成數據的成本。12p即熱新聞——關注每天科技社會生活新變化gihot.com

過度依賴風險難測12p即熱新聞——關注每天科技社會生活新變化gihot.com

盡管合成數據暫時解決了AI訓練的燃眉之急,但它也并非盡善盡美。12p即熱新聞——關注每天科技社會生活新變化gihot.com

一個關鍵問題在于:當AI模型過于依賴合成數據時,它們可能會“崩潰”。它們會產生更多“幻覺”,編造看似合理可信但實際上并不存在的信息。而且,AI模型的質量和性能也會飛速下降,甚至無法使用。例如,某個AI模型生成的數據出現了一些拼寫錯誤,利用這些充滿了錯誤的數據訓練其他模型,這些AI模型必定會“以訛傳訛”,導致更大的錯誤。12p即熱新聞——關注每天科技社會生活新變化gihot.com

此外,合成數據也存在過于簡單化的風險。它可能缺乏真實數據集蘊含的細節和多樣性,這可能導致在其上訓練的AI模型的輸出也過于簡單,缺乏實用性。12p即熱新聞——關注每天科技社會生活新變化gihot.com

為解決這些問題,國際標準化組織需要著手創建強大的系統,來跟蹤和驗證AI訓練數據。此外,AI系統可以配備元數據追蹤功能,讓用戶或系統能對合成數據進行溯源。人類也需要在AI模型的整個訓練過程中對合成數據進行監督,以確保其高質量且符合道德標準。12p即熱新聞——關注每天科技社會生活新變化gihot.com

AI的未來在很大程度上取決于數據的質量,合成數據將在克服數據短缺方面發揮越來越重要的作用。對合成數據的使用,人們必須保持謹慎態度,盡量減少錯誤,確保其作為真實數據的可靠補充,從而保障AI系統的準確性和可信度。12p即熱新聞——關注每天科技社會生活新變化gihot.com

本文鏈接:http://www.020gz.com.cn/news-2-217-0.html“喂”給人工智能的真實數據終將耗盡,合成數據能否讓AI模型精確可靠?

聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

上一篇:仿昆蟲微型機器人飛行長達15分鐘

下一篇:新型光學原子鐘比銫鐘精度高千倍

為你推薦
  原標題:因平臺上的FaceApp違規收集數據,蘋果和谷歌在巴西被罰款1900萬雷亞爾  IT之家1月9日...
01-21
在信息化浪潮席卷全球的時代,數據毋庸置疑已成為推動科技與商業發生深刻變革的核心力量。每一個看似微不足道的數據,實際上都蘊藏著令人難以想象的無...
01-25
好消息!遼寧省手機、平板、智能手表(手環)購新補貼實施細則來啦每人每類可補貼1件每件最高補貼不超過500元...
01-21
春節假期已經接近尾聲不少小伙伴開始踏上返程的旅途為了您能安全返程請您收下這份高速公路的交通安全提...
02-03
▲資料圖:2022年,公安部門抓獲私設電網違法行為人現場。圖/天門公安社交賬號截圖據華商報大風新聞報道,1月14日凌晨,在湖北武漢江夏區,23歲大三學生小冉不幸遭私設的捕獸電網電擊...
01-21
  春節臨近  近日  廣東、河南、遼寧的  一些城市已明確  2025年可以  有序、限時或在限定區域  燃放煙花爆竹  關于煙花爆竹燃放,多地官宣  東莞  1...
01-22
1 月 24 日消息,本月 10 號,備受關注的特斯拉煥新 Model Y 正式開啟預售。相比舊版本漲價 1.26~1.36 萬元,預計 3 月開始交付,其中:后輪驅動首發版(593km 標準續航)26.35 ...
01-25
1 月 29 日消息,2025新款比亞迪海豚的實車照今日曝光,展示了不同的前臉設計,采用新造型的大燈,前包圍同步進行調整。該車側面配備隱藏式車門把手,車尾繼續采用海洋網家族...
01-30
  胡建禮  近年來,國產系列電影如雨后春筍般涌現,如《熊出沒》系列、《唐人街探案》系列、《...
01-22
《180天重啟計劃》播出后受到了觀眾的喜愛和追捧。劇中第5集的劇情引起了廣泛討論,以下是該集的主要內容。吳儷梅叫醒顧云蘇,讓她好好打扮去見一個重要的人。...
02-21
21世紀經濟報道記者 韓利明 上海報道 丙類藥品目錄的落地,已是箭在弦上。1月17日上午,在國家醫保局“保障人民健康,賦能經濟發展”的主題...
01-21
  即將告別春節假期,你有沒有不想上班、不想上學、不想起床?從“假期模式”切換到“工作模式”還不太適應?如何調整?指南請收好↓↓↓  01  什么是“節后綜合征”? ...
02-07
青少年在學習中華武術。通訊員 丁根厚 攝青少年在學習調試編程機器人。通訊員 丁根厚 攝青少年在體驗科學秀項目。通訊員 丁根厚 攝青少年在繪制生肖蛇兒童畫。通訊員 丁根...
01-21
4月14日下午,我跟隨華商童學會小記者參觀了九紫寶藏隕石博物館。那里有好多隕石,來自全球各國,其中陳列最多的要屬鐵隕石,還有部分的恐龍時代的隕石,以及渾身黑漆漆的碳隕石。它...
01-21
  觀點網訊:1月20日,匯賢產業信托宣布償還貸款及其財務影響。  公告顯示,于2025年1月20日,匯賢...
01-21
  1月21日上午10點,貴州亨特房地產開發有限公司(簡稱“亨特地產”)持有的貴州花溪農村商業銀行股...
01-23
在星座學中,每個星座都有自己獨特的性格特點和喜好。而天蝎男作為十二星座中最神秘、深...
01-22
水瓶座的男生通常被認為是理性、獨立和冷漠的代表,但當他們真正愛上一個人時,他們會展現...
01-22
布魯克鳥男士服飾品牌?布魯克鳥男士服飾品牌?作為一名有品位的中年男性,一定聽說過布魯克鳥男裝。相比外國品牌,布魯克鳥作為中國本體時裝品牌,旗下的服裝以中國人體型為標準打造...
02-07
關于穿搭的爆火文案? t恤的多種穿搭方法?一、關于穿搭的爆火文案?我的衣服并不能改變世界,但是它可以改變我的心情。你的穿搭風格決定了你的氣質,讓自己看起來更自信更迷人。不要...
02-12
劉強東:無論京東做多大,都將會把最實惠的價格帶給用戶。1.京東上線競價購物玩法劉強東認準一件事情,似乎無論發生什么,都會貫徹到底。自從2022年底京東零售內部大會上,劉強東明確...
02-13
劉強東:我們不努力的話,就會死掉,這個世界就是這么殘酷。1.京東上線打車服務網約車市場真是越來越熱鬧了。繼抖音之后,京東也入局了網約車市場。近日,京東App上線了“國內打車服...
02-19
一路狂飆的山姆,又出事了,這直接反映出山姆在中國市場并不是沒有焦慮。沃爾瑪財報顯示,2024年三季度沃爾瑪中國市場凈銷售額達到49億...
02-07
2月8日消息,據“市象”公眾號消息,螞蟻集團副總裁、螞蟻國際首席技術官王曉航(花名:達杭)于近日突然離職。公開資料顯示,王曉航畢業于新加坡國立大學,加入螞蟻集團前,曾擔任百度百付...
02-09
近年來,浙江晨豐科技股份有限公司(以下簡稱“晨豐科技”)在復雜多變的市場環境中,憑借敏銳的市場洞察力和果斷的戰略布局,積極投身新能源領域,成功實現了業務多元化發展,展現出強大...
01-23
英偉達芯片“倒爺”們,開始不發朋友圈了。2023年大模型火熱的時候,“倒爺”們朋友圈的畫風是“欲購從速、30%定金,有實力的老板來!”到了2024年就變成...
02-07
今日(1月21日),roguelike游戲《Ragnar》Steam頁面上線,游戲支持簡繁體中文,發售日待定,感興趣的玩家可以點擊此處進入商店頁面。 游戲介紹: 在這款受北歐神話啟發...
01-22
今日(1月24日)Xbox直面會上,忍者龍劍傳2復刻版《忍者龍劍傳2:黑之章》公布并發售,Steam國區售價298元,支持簡體中文字幕。現在官網發布了角色截圖,一起來欣賞下吧! ...
01-25
極目新聞記者 吳昌華通訊員 胡子昂 何周諦2025年2月2日,農歷正月初五,武漢歸元寺迎來群眾敬香祈福高峰。當天清晨,天還沒亮,已有不少人等候在歸元寺外,武漢公安民警、輔警早已在...
02-03
新華社快訊:菲律賓媒體6日報道,一架飛機在該國南部墜毀。...
02-06
返回

點擊右上角微信好友

朋友圈

點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“”按鈕

點擊右上角QQ

點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“”按鈕

主站蜘蛛池模板: 日本理论午夜中文字幕第一页 | 亚洲狠狠婷婷综合久久久图片 | 欧美αv日韩αv另类综合 | 午夜大片免费完整在线看 | 特黄日韩免费一区二区三区 | 张柏芝三级无删减在线观看 | 超人碰碰碰人人成碰人 | 亚洲成人自拍 | 亚洲视频在线一区 | 日本大片免费播放网站 | 欧美亚洲在线 | 最好看免费中文字幕2018视频 | 好吊色青青青国产在线观看 | 香港澳门a级三级三级全黄 香港经典a毛片免费观看爽爽影院 | 色在线看 | 亚洲精品91香蕉综合区 | 大乳妇女bd视频在线观看 | 色拍视频| 天天爱天天爽 | 亚洲w码欧洲s码免费 | 黄色在线观看视频 | 亚洲成人免费网站 | 久久免费观看国产精品 | 狠狠色噜噜狠狠狠狠奇米777 | 26uuu影院亚洲欧美综合 | 日韩精品无码一区二区三区 | 中国高清色视频www 中国高清性色生活片 | 免费网站看av片 | 色视频网站人成免费 | 综合婷婷丁香 | 完整日本特级毛片 | 日本69xxxxx | 天堂资源最新版在线www | www四虎| 男女在线观看视频 | 人人澡人人搞 | 成人亚洲欧美 | 特级aaa毛片| 思思99re66在线精品免费观看 | 在线资源你懂的 | 久久这里只有精品免费播放 |