研究稱DeepSeek的AI 訓練成本也很貴 至少430億台幣

mydesign6368
6,516 瀏覽
半導體行業分析公司指出,DeepSeek的基礎成本、伺服器搭建成本至少要13億美元。(圖/shutterstock/達志)

半導體行業分析公司指出,DeepSeek的基礎成本、伺服器搭建成本至少要13億美元。(圖/shutterstock/達志)

最近上線的中國大陸 AI軟體DeepSeek引發業界震撼,大陸聲稱建構DeepSeek的基礎成本很低,僅是OpenAI的零頭,最廣為流傳的說法之一,是DeepSeek V3 的訓練成本約為 600萬美元(1.9億新台幣)。不過這個說法被半導業行業研究公司 SemiAnalysis質疑,他們認為DeepSeek的成本應該至少有13億美元(約430億新台幣)。

有趣的工程(Interesting Engineering)報導,SemiAnalysis 指出,它未能解釋幾個關鍵因素。600 萬美元的估算,只考慮了 GPU 預訓練費用,忽略了公司在研發、基礎設施和其他必要成本方面的大量投資。報告強調,DeepSeek 的總伺服器資本支出,就高達13億美元。

根據報導,DeepSeek使用了大約 5萬張Hopper GPU(微架構的),這導致業界產生了一些誤解。以為這就等於5萬張輝達H100 GPU(Nvidia Hopper H100 GPU)。

SemiAnalysis 澄清說,輝達的GPU 有多種型號,包括 H800、H100 以及 NVIDIA 為應對美國出口限製而生產的 H20。也是中國大陸可以獲得的類型。

該報告稱,與一些較大的 人工智慧實驗室不同,DeepSeek資料中心採用精簡模型,來提高其靈活性和效率。這算是一種不錯的適應能力,分析顯示 DeepSeek 的 R1模型,表現出與 Open AI 的 o1 相當的推理能力。

然而,這不意味著DeepSeek在所有指標都性能領先。

雖然 DeepSeek 的定價策略引起了關注和讚譽,但有一個重要的警告:功能相似的Google Gemini Flash 2.0 ,在API 服務存取時更加經濟。這使得 DeepSeek 處於一個十字路口,平衡效能和成本是其未來成功的關鍵。

但是,DeepSeek的多頭潛在注意力(Multi-Head Latent Attention,MLA),是個頗具突破性的創新,這種方法透過減少鍵值 (KV) 快取的使用,顯著降低了 93.3% 的推理成本。不過, DeepSeek 帶來的創新,也很可能會被渴望保持競爭力的西方人工智慧實驗室迅速採用。

報告推測,DeepSeek可能產生不錯的競爭環境,令其他同行也必須具有更快的適應能力。

總之,SemiAnalysis 描繪了 DeepSeek 在 AI 領域的當前地位。它的成本結構、GPU 利用率,和創新能力,確實成為一名強大的AI參與者。

發表評論

相關報導