DeepSeek的新聊天機器人擁有令人印象深刻的介紹:“嗨,我被創建了,您可以問任何東西,並得到一個甚至可能讓您感到驚訝的答案。”這種AI是中國初創公司DeepSeek的產物,已迅速成為主要市場參與者,甚至導致NVIDIA的股價大幅下降。

圖片:ensigame.com
DeepSeek的成功源於其創新的建築和培訓方法。關鍵技術包括:
- 多語預測(MTP): MTP不是單獨預測單詞,而是同時預測多個單詞,從而提高準確性和效率。
- 專家的混合物(MOE):該體系結構利用了DeepSeek V3中的256個神經網絡,每個令牌可激活8個神經網絡,加速培訓並提高了性能。
- 多頭潛在註意力(MLA): MLA反復從文本片段中提取關鍵細節,確保不會錯過關鍵信息,從而更加細微地了解輸入數據。

圖片:ensigame.com
雖然DeepSeek最初使用2048 GPU聲稱DeepSeek V3的培訓成本非常低,但半分析顯示出了更為實質性的基礎設施:大約50,000個NVIDIA HOPPER GPU,包括10,000 H800,10,000 H100S和其他H20,以及其他H20S,以及在多個數據中分佈的其他H20。這代表了一筆總額約16億美元的服務器投資,運營費用估計為9.44億美元。
DeepSeek是中國對沖基金高飛行員的子公司擁有其數據中心,比基於雲的競爭對手提供更大的控制權和更快的創新實施。這種自資助的方法提高了靈活性和決策速度。此外,該公司吸引了頂尖人才,一些研究人員每年收入超過130萬美元,主要來自中國領先的大學。

圖片:ensigame.com
DeepSeek最初的600萬美元數字僅涵蓋培訓前的GPU使用情況,不包括研究,改進,數據處理和基礎架構。該公司的AI開發投資總額超過5億美元。但是,與更大的官僚主義公司相比,其精益結構有助於有效的創新。

圖片:ensigame.com
DeepSeek的成功展示了一家資金充足,獨立的AI公司與行業巨頭競爭的潛力。儘管“革命性預算”主張可以說是誇張的,但它的成就是不可否認的,特別是考慮到競爭對手產生的成本明顯更高。例如,DeepSeek在R1上花費了500萬美元,而Chatgpt4的費用為1億美元。儘管總體投資大量投資,但這凸顯了DeepSeek的成本效率。