De nieuwe Chatbot van Deepseek heeft een indrukwekkende introductie: "Hallo, ik ben gemaakt zodat je alles kunt vragen en een antwoord kunt krijgen dat je misschien zelfs zou verrassen." Deze AI, een product van de Chinese startup Deepseek, is snel een belangrijke marktspeler geworden en heeft zelfs bijgedragen aan een aanzienlijke daling van de aandelenkoers van Nvidia.

Afbeelding: ensigame.com
Het succes van Deepseek komt voort uit zijn innovatieve architectuur- en trainingsmethoden. Belangrijkste technologieën zijn onder meer:
- Multi-token voorspelling (MTP): in plaats van woorden afzonderlijk te voorspellen, voorspelt MTP meerdere woorden tegelijkertijd, waardoor de nauwkeurigheid en efficiëntie worden verhoogd.
- Mix van experts (MOE): deze architectuur maakt gebruik van 256 neurale netwerken in Deepseek V3, waarbij acht worden geactiveerd voor elk token, training versnellen en de prestaties verbeteren.
- Multi-head latente aandacht (MLA): MLA haalt herhaaldelijk belangrijke details uit tekstfragmenten uit, waardoor cruciale informatie niet wordt gemist, wat leidt tot een meer genuanceerd begrip van invoergegevens.

Afbeelding: ensigame.com
Terwijl Deepseek aanvankelijk een opmerkelijk lage trainingskosten van $ 6 miljoen claimde voor Deepseek V3 met behulp van 2048 GPU's, onthulde Semianalysis een veel meer substantiële infrastructuur: ongeveer 50.000 Nvidia Hopper GPU's, waaronder 10.000 H800s, 10.000 H100s en aanvullende H20's, verspreid over meerdere gegevens. Dit vertegenwoordigt een totale serverinvestering van ongeveer $ 1,6 miljard, met operationele kosten geschat op $ 944 miljoen.
Deepseek, een dochteronderneming van het Chinese hedgefonds High Flyer, bezit zijn datacenters en biedt meer controle en snellere innovatie-implementatie dan cloudgebaseerde concurrenten. Deze zelf gefinancierde aanpak verbetert de flexibiliteit en de besluitvormingssnelheid. Bovendien trekt het bedrijf toptalent aan, met sommige onderzoekers die jaarlijks meer dan $ 1,3 miljoen verdienen, voornamelijk van toonaangevende Chinese universiteiten.

Afbeelding: ensigame.com
Het initiële cijfer van Deepseek omvat alleen $ 6 miljoen dekt het gebruik van GPU-gebruik voor de training, exclusief onderzoek, verfijning, gegevensverwerking en infrastructuur. De totale AI -ontwikkelingsinvestering van het bedrijf is groter dan $ 500 miljoen. De magere structuur vergemakkelijkt echter efficiënte innovatie in vergelijking met grotere, meer bureaucratische bedrijven.

Afbeelding: ensigame.com
Het succes van Deepseek toont het potentieel van een goed gefinancierd, onafhankelijk AI-bedrijf om te concurreren met industriële reuzen. Hoewel de claim "revolutionaire begroting" aantoonbaar overdreven is, vallen de prestaties ervan niet te ontkennen, met name gezien de aanzienlijk hogere kosten die door concurrenten zijn gemaakt. Deepseek besteedde bijvoorbeeld $ 5 miljoen aan R1, terwijl Chatgpt4 $ 100 miljoen kostte. Dit benadrukt de kostenefficiëntie van Deepseek, ondanks de substantiële algehele investeringen.