Le nouveau chatbot de Deepseek possède une introduction impressionnante: "Salut, j'ai été créé pour que vous puissiez demander n'importe quoi et obtenir une réponse qui pourrait même vous surprendre." Cette IA, un produit de la startup chinoise Deepseek, est rapidement devenue un acteur majeur du marché, contribuant même à une baisse significative du cours des actions de NVIDIA.

Image: esigame.com
Le succès de Deepseek provient de ses méthodes d'architecture et de formation innovantes. Les technologies clés comprennent:
- Prédiction multi-token (MTP): Au lieu de prédire les mots individuellement, MTP prévoit plusieurs mots simultanément, augmentant la précision et l'efficacité.
- Mélange d'experts (MOE): Cette architecture utilise 256 réseaux neuronaux dans Deepseek V3, activant huit pour chaque jeton, accélérant la formation et améliorant les performances.
- Attention latente multi-tête (MLA): MLA extrait à plusieurs reprises les détails clés des fragments de texte, garantissant que les informations cruciales ne sont pas manquées, conduisant à une compréhension plus nuancée des données d'entrée.

Image: esigame.com
Alors que Deepseek a initialement réclamé un coût de formation remarquablement faible de 6 millions de dollars pour Deepseek V3 en utilisant 2048 GPU, la semianalyse a révélé une infrastructure beaucoup plus substantielle: environ 50 000 GPU Nvidia Hopper, dont 10 000 H800, 10 000 H100 et H20S supplémentaires, distribués à travers plusieurs centres de données. Cela représente un investissement total de serveur d'environ 1,6 milliard de dollars, avec des dépenses opérationnelles estimées à 944 millions de dollars.
Deepseek, une filiale du High Flyer de fonds spéculatifs chinois, possède ses centres de données, offrant un plus grand contrôle et une mise en œuvre plus rapide de l'innovation que les concurrents basés sur le cloud. Cette approche autofinancée améliore la flexibilité et la vitesse de prise de décision. En outre, la société attire les meilleurs talents, certains chercheurs gagnant plus de 1,3 million de dollars par an, principalement des principales universités chinoises.

Image: esigame.com
Le chiffre initial de 6 millions de dollars de Deepseek ne couvre que l'utilisation avant la formation des GPU, l'exclusion de la recherche, du raffinement, du traitement des données et de l'infrastructure. L'investissement total de développement de l'IA de la société dépasse 500 millions de dollars. Cependant, sa structure Lean facilite une innovation efficace par rapport aux entreprises plus grandes et plus bureaucratiques.

Image: esigame.com
Le succès de Deepseek présente le potentiel d'une entreprise d'IA indépendante bien financée pour concurrencer les géants de l'industrie. Bien que la réclamation du «budget révolutionnaire» soit sans doute exagérée, ses réalisations sont indéniables, en particulier compte tenu des coûts significativement plus élevés encourus par les concurrents. Par exemple, Deepseek a dépensé 5 millions de dollars pour R1, tandis que ChatGpt4 a coûté 100 millions de dollars. Cela met en évidence la rentabilité de Deepseek, malgré l'investissement global substantiel.