▲堅持長期視角,專注底層創新,探索新的路徑。圖/DeepSeek界面截圖
一家此前不在多數媒體的“明星企業”列表中的“小企業”,一家走開源路線而非走閉源或率先開發應用的“創新組織”,卻意外在2025年開年成為了中國大模型領域科技創新的全球代表。
據多家媒體報道,這家名為DeepSeek(深度求索)的中國大模型企業,最近發布的大模型,在多項性能測試中已經達到了OpenAI的最新大模型o1水平,部分項目還實現了超越。由此引發了全球科技行業的熱烈討論,有媒體形容“DeepSeek朝硅谷‘開了一槍’”,甚至“震動美國科技界”。
底層創新提升算力效率
DeepSeek當前所創造的“神話”,主要是兩類敘事。第一類,是DeepSeek的算力成本投入與表現出來的性能對比,超出了行業的一般認知。據部分行業媒體報道,DeepSeek r1的訓練成本僅為ChatGPT o1的零頭。第二類神話則是,DeepSeek的成功證明了開源路線的逆襲勝利,對大公司、巨頭的閉源路線進行了一次底層顛覆。
這兩類看法被灌注到社交平臺上進行廣泛討論后,事實上都或多或少因人們的真誠期待而略有扭曲。例如,DeepSeek r1的真實算力成本投入遠不止600萬美元,且最早報道的媒體混淆了DeepSeek在論文中提及的訓練成本。根據原文,550萬美元是DeepSeek v3在正式訓練階段的成本,不包括前期研究、實驗的成本。
并且,從行業發展的邏輯看,探索與迭代、追趕所需的算力成本,也不應該放在一起對比。OpenAI在ChatGPT o1的研發探索,與v3在前序產品基礎上的迭代,成本無法簡單對比。創新和探索必然伴隨著算力和各項成本的浪費,在確定性的路徑上優化所付出的代價,與探索未知所付出的代價,互相之間不宜簡單對比。
而從大模型現階段的發展看,準確地說,一家企業的階段性產品的成功,還不能定義為閉源與開源路線的成敗。
綜合以上,比較嚴謹地看待DeepSeek帶給我們的驚喜,應該是:DeepSeek展示了模型架構底層創新的價值,不斷提升了算力效率。并且,這一家架構的底層創新,推動了開源大模型產品在能力上的超越,從而將進一步提升行業整體的應用研發水平。
更重要的仍是“創新”本身
盡管比起人們熱愛的傳奇故事,上面的這個故事顯得有些過于審慎無聊。但事實上,這樣一個嚴謹的故事,更值得我們去探討本文開篇的兩句話:為什么是一家資金量不占優勢的、專注于底層創新而非商業化的開源企業,創造了中國企業在大模型領域的一次“彎道超車”?
2024年8月,在接受媒體專訪時,DeepSeek創始人梁文鋒提及了團隊的研發思路,“如果目標是做應用,那沿用LLaMA模型(LLaMA,是元宇宙平臺公司,即Meta公開發布的產品)短平快上產品也是合理的,但我們的目的地是AGI(通用人工智能),這意味著我們需要研究新的模型結構,在有限資源下,實現更強的模型能力”。
這句話揭示了“奇跡”誕生的出發點:因為目標不同,所以方法不同,面對差距的態度也不同。
就在DeepSeek創造“行業奇跡”不久前,國內大模型行業的共識幾乎仍然是“要做應用”,因為做通用大模型的機會已經沒有了。一些明星創業企業更是放棄了對通用AGI的探索,轉而借助現有的模型去研發應用。
在這種行業共識之下,我們所接觸到的多數國產大模型企業,津津樂道的多數都是具體且仍不成熟的應用。如,多如牛毛的陪伴型AI聊天機器人,或是文生圖、文生視頻等“奇觀展示”。
這并非刻意貶低應用層的研發努力,面對差距做策略性的舍棄,是正常的科技與商業選擇。就連梁文鋒自己也在訪談中承認,在模型結構和訓練動力學上,國內的最高水平比起國外最高水平可能有一倍的差距,與此同時,數據效率上國內比起海外可能也有一倍的差距,兩者相加,相當于國內要用四倍的算力才能取得同樣的效果。
再加上復雜宏觀環境下算力本身的成本差距。在這種現實下,多數企業選擇了繞開這些差距,確實是一個直覺上可以理解的選項。
但DeepSeek選擇的方向卻顯得反直覺和常識。既然資源差距大,那就干脆回到模型架構底層去創新和優化。而事實證明,這條路最終反而能更快地達成目標。
事實上,AGI的長期發展固然與算力成本息息相關,但AGI本身仍然處在不斷迭代的過程之中。在科技創新之中,決定長期結果的固然是宏觀環境、經濟投入等底層基礎,但在動態的創新發生過程中,更重要的或許仍舊是“創新”本身。
大模型已經火熱許久,但時至今日,仍然不是簡單的資源加總游戲,不是簡單地囤更多算力就能快速實現突破,也不是誰更早擁有更多用戶,有更多商業化的場景和賺錢的能力,就能笑到最后。而這正是那些曾經風光無二但卻迅速退潮的企業所沒有想明白的基礎邏輯。
從這個更嚴謹的行業發展故事來看,DeepSeek的最大啟發,是我們仍舊處在充滿不確定性的創新探索周期里。而短視,恰恰是創新的最大敵人。堅持長期視角,專注底層創新,探索新的路徑,比起融資、囤卡和商業化,更有可能獲得最終的勝利。
撰稿 / 王曉凱(媒體人)
編輯 / 遲道華 馬小龍
校對 / 趙琳
本文鏈接:http://www.020gz.com.cn/news-4-1125-0.htmlDeepSeek何以創造了“行業奇跡” | 新京報專欄
聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕