DeepSeek的新聊天机器人拥有令人印象深刻的介绍:“嗨,我被创建了,您可以问任何东西,并得到一个甚至可能让您感到惊讶的答案。”这种AI是中国初创公司DeepSeek的产物,已迅速成为主要市场参与者,甚至导致NVIDIA的股价大幅下降。

图片:ensigame.com
DeepSeek的成功源于其创新的建筑和培训方法。关键技术包括:
- 多语预测(MTP): MTP不是单独预测单词,而是同时预测多个单词,从而提高准确性和效率。
- 专家的混合物(MOE):该体系结构利用了DeepSeek V3中的256个神经网络,每个令牌可激活8个神经网络,加速培训并提高了性能。
- 多头潜在注意力(MLA): MLA反复从文本片段中提取关键细节,确保不会错过关键信息,从而更加细微地了解输入数据。

图片:ensigame.com
虽然DeepSeek最初使用2048 GPU声称DeepSeek V3的培训成本非常低,但半分析显示出了更为实质性的基础设施:大约50,000个NVIDIA HOPPER GPU,包括10,000 H800,10,000 H100S和其他H20,以及其他H20S,以及在多个数据中分布的其他H20。这代表了一笔总额约16亿美元的服务器投资,运营费用估计为9.44亿美元。
DeepSeek是中国对冲基金高飞行员的子公司拥有其数据中心,比基于云的竞争对手提供更大的控制权和更快的创新实施。这种自资助的方法提高了灵活性和决策速度。此外,该公司吸引了顶尖人才,一些研究人员每年收入超过130万美元,主要来自中国领先的大学。

图片:ensigame.com
DeepSeek最初的600万美元数字仅涵盖培训前的GPU使用情况,不包括研究,改进,数据处理和基础架构。该公司的AI开发投资总额超过5亿美元。但是,与更大的官僚主义公司相比,其精益结构有助于有效的创新。

图片:ensigame.com
DeepSeek的成功展示了一家资金充足,独立的AI公司与行业巨头竞争的潜力。尽管“革命性预算”主张可以说是夸张的,但它的成就是不可否认的,特别是考虑到竞争对手产生的成本明显更高。例如,DeepSeek在R1上花费了500万美元,而Chatgpt4的费用为1亿美元。尽管总体投资大量投资,但这凸显了DeepSeek的成本效率。