近日,在2025年華為中國合作伙伴大會上,華為攜手景聯文科技發布面向AI數據湖的數據工程聯合解決方案。該方案基于端到端高效、可靠、共享、易管理的AI數據湖,旨在將海量多模態數據資源高效轉化成高質量AI算料,為行業智能升級注入充沛的數據動能。
景聯文科技CEO劉云濤
“AI-ready的前提是Data-ready,大模型的好壞取決于數據的好壞。高質量數據集的供給是AI行業化落地的關鍵要素,也是促進數據要素繁榮交易的根基。”景聯文科技CEO劉云濤強調,“精準全面的數據治理能力,結合可靠高效的數據基礎設施,在智能化升級中不可或缺。”
普遍來說,面向AI的數據需要經歷三大環節,即:從海量原始數據提煉為結構化數據集,然后經標注成為語料集,最終構成知識庫、支撐模型訓練及業務應用。在這個過程中,當下正面臨多重挑戰:
● 首先,數據擁有方動力不足:大部分數據持有者缺少便捷安全的數據匯聚托管系統,普遍陷入“不愿、不敢、不會”的困境,數據共享壁壘高筑。
● 其次,語料開發難:原始數據種類多、格式雜、時效高,如文本、圖像、音視頻等多模態原始數據,增加了語料處理的復雜性。同時,行業專用語料往往包含大量特有的垂類知識、表達方式,加劇了精準標注的難度。
● 最后,數據可信流動難:數據作為風險資源,如果在流通中缺少端到端安全管控,則易遭受被篡改、被擴散的風險。此外,區域間數據基礎設施發展程度不均,且兼容性和互操作性不足,導致數據跨域流通效率低下。
景聯文科技與華為強強聯合,依托景聯文科技深耕多年的數據工程能力、以及華為數據存儲行業領先的技術優勢,推出面向AI數據湖的數據工程聯合解決方案:
● 全流程數據工程:景聯文科技Solar Data平臺采用AI Agent理念,與全閃數據湖存儲緊密協同,支持異構數據的高效加工,實現對30+格式的自動或半自動化清洗、解析、預處理、特征提取與初步分析,并基于AI預標注與專業手工標注結合,最終整合為高質量的數據產品,全流程效率提升70%。
● 數據流通與資源調度:通過華為DME(Omni-Dataverse)全局文件系統,結合可信數據空間,實現多源數據無縫歸集,讓全局數據可視、可管、可流,保障數據交換過程的可信、可證、可控。基于華為DCS的統一資源調度,實現Solar Data平臺計算、存儲、網絡等資源的彈性服務與統一管理。并通過ModelEngine AI使能工具鏈框架,實現高效模型編排與應用對接,加速數據集開發進程。
● 先進數據底座:基于華為OceanStor Pacific分布式存儲底座建設統一數據底座,在先進介質、協議互通、負載優化、分布式并行客戶端等領域軟硬協同創新,打造業界領先的高密綠色數據基礎設施,助力海量數據更持久地存儲、更高效地訪問。
華為數據存儲將持續深化與業界伙伴的合作,攜手促進AI時代應用生態的蓬勃壯大,秉持“以數據為中心”的產業理念,發揮數據在數字經濟的核心驅動力作用。
來源:北國網
本文鏈接:http://www.020gz.com.cn/news-14-7946-0.html華為攜手景聯文科技發布面向AI數據湖的數據工程聯合解決方案
聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕