Il nuovo chatbot di Deepseek vanta un'impressionante introduzione: "Ciao, sono stato creato in modo da poter chiedere qualsiasi cosa e ottenere una risposta che potrebbe persino sorprenderti." Questa intelligenza artificiale, un prodotto della startup cinese Deepseek, è diventata rapidamente un importante giocatore di mercato, contribuendo anche a un calo significativo del prezzo delle azioni di Nvidia.

Immagine: Ensigame.com
Il successo di Deepseek deriva dalla sua architettura innovativa e metodi di formazione. Le tecnologie chiave includono:
- Multi-token Prediction (MTP): Invece di prevedere le parole individualmente, MTP prevede contemporaneamente più parole, aumentando l'accuratezza ed efficienza.
- Miscela di esperti (MOE): questa architettura utilizza 256 reti neurali in DeepSeek V3, attivando otto per ogni token, accelerando la formazione e migliorando le prestazioni.
- Attenzione latente multi-testa (MLA): MLA estrae ripetutamente i dettagli chiave dai frammenti di testo, garantendo che le informazioni cruciali non siano perse, portando a una comprensione più sfumata dei dati di input.

Immagine: Ensigame.com
Mentre DeepSeek inizialmente ha rivendicato un costo di allenamento notevolmente basso di $ 6 milioni per DeepSeek V3 utilizzando 2048 GPU, la seminalisi ha rivelato un'infrastruttura molto più sostanziale: circa 50.000 GPU di Nvidia Hopper, tra cui 10.000 H800, 10.000 H100 e ulteriori H20, distribuiti su più dati. Ciò rappresenta un investimento in totale server di circa $ 1,6 miliardi, con spese operative stimate in $ 944 milioni.
DeepSeek, una consociata dell'Hedge Fund cinese High-Flyer, possiede i suoi data center, offrendo un maggiore controllo e un'implementazione più rapida dell'innovazione rispetto ai concorrenti basati su cloud. Questo approccio autofinanziato migliora la flessibilità e la velocità decisionale. Inoltre, la società attira i migliori talenti, con alcuni ricercatori che guadagnano oltre $ 1,3 milioni all'anno, principalmente dalle principali università cinesi.

Immagine: Ensigame.com
La cifra iniziale di $ 6 milioni di DeepSeek copre solo l'utilizzo della GPU pre-allenamento, escluso la ricerca, la raffinatezza, l'elaborazione dei dati e l'infrastruttura. L'investimento totale per lo sviluppo dell'IA della società supera $ 500 milioni. Tuttavia, la sua struttura snella facilita l'innovazione efficiente rispetto alle aziende più grandi e burocratiche.

Immagine: Ensigame.com
Il successo di Deepseek mostra il potenziale di un'azienda di intelligenza artificiale ben finanziata e indipendente di competere con i giganti del settore. Mentre l'affermazione del "bilancio rivoluzionario" è probabilmente esagerata, i suoi risultati sono innegabili, in particolare considerando i costi significativamente più elevati sostenuti dai concorrenti. Ad esempio, DeepSeek ha speso $ 5 milioni in R1, mentre CHATGPT4 costa $ 100 milioni. Ciò evidenzia l'efficienza dei costi di DeepSeek, nonostante l'investimento complessivo sostanziale.