Ipinagmamalaki ng bagong chatbot ng Deepseek ang isang kahanga -hangang pagpapakilala: "Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka." Ang AI na ito, isang produkto ng China Startup Deepseek, ay mabilis na naging isang pangunahing manlalaro ng merkado, kahit na nag -aambag sa isang makabuluhang pagbagsak sa presyo ng stock ni Nvidia.

Larawan: ensigame.com
Ang tagumpay ng Deepseek ay nagmula sa makabagong mga pamamaraan ng arkitektura at pagsasanay. Ang mga pangunahing teknolohiya ay kasama ang:
- Multi-Token Prediction (MTP): Sa halip na mahulaan ang mga salita nang paisa-isa, ang mga pagtataya ng MTP ay maraming mga salita nang sabay-sabay, pagpapalakas ng kawastuhan at kahusayan.
- Paghahalo ng mga eksperto (MOE): Ang arkitektura na ito ay gumagamit ng 256 na mga network ng neural sa Deepseek V3, na nag -activate ng walong para sa bawat token, pabilis na pagsasanay at pagpapabuti ng pagganap.
- Multi-head Latent pansin (MLA): Ang MLA ay paulit-ulit na kumukuha ng mga pangunahing detalye mula sa mga fragment ng teksto, tinitiyak na ang mga mahahalagang impormasyon ay hindi napalampas, na humahantong sa isang mas nakakainis na pag-unawa sa data ng pag-input.

Larawan: ensigame.com
Habang ang Deepseek sa una ay nag -angkin ng isang napakababang mababang gastos sa pagsasanay na $ 6 milyon para sa Deepseek V3 gamit ang 2048 GPUs, ang semianalysis ay nagsiwalat ng isang mas malaking imprastraktura: humigit -kumulang 50,000 nvidia hopper GPU, kabilang ang 10,000 H800s, 10,000 H100s, at karagdagang mga H20s, na ipinamamahagi sa maraming mga sentro ng data. Ito ay kumakatawan sa isang kabuuang pamumuhunan ng server na humigit -kumulang na $ 1.6 bilyon, na may mga gastos sa pagpapatakbo na tinatayang $ 944 milyon.
Ang DeepSeek, isang subsidiary ng Chinese Hedge Fund High-flyer, ay nagmamay-ari ng mga sentro ng data nito, na nag-aalok ng higit na kontrol at mas mabilis na pagpapatupad ng pagbabago kaysa sa mga kakumpitensya na batay sa ulap. Ang diskarte na pinondohan ng sarili na ito ay nagpapaganda ng kakayahang umangkop at bilis ng paggawa ng desisyon. Bukod dito, ang kumpanya ay umaakit sa nangungunang talento, na may ilang mga mananaliksik na kumikita ng higit sa $ 1.3 milyon taun -taon, lalo na mula sa nangungunang unibersidad ng Tsino.

Larawan: ensigame.com
Ang paunang $ 6 milyong figure ng DeepSeek ay sumasaklaw lamang sa paggamit ng GPU ng pre-pagsasanay, hindi kasama ang pananaliksik, pagpipino, pagproseso ng data, at imprastraktura. Ang kabuuang pamumuhunan ng pag -unlad ng kumpanya ng kumpanya ay lumampas sa $ 500 milyon. Gayunpaman, ang istraktura ng sandalan nito ay nagpapadali ng mahusay na pagbabago kumpara sa mas malaki, mas maraming mga kumpanya ng burukrata.

Larawan: ensigame.com
Ang tagumpay ng Deepseek ay nagpapakita ng potensyal ng isang mahusay na pinondohan, independiyenteng kumpanya ng AI upang makipagkumpetensya sa mga higanteng industriya. Habang ang "rebolusyonaryong badyet" na pag -angkin ay maaaring pinalaki, ang mga nagawa nito ay hindi maikakaila, lalo na isinasaalang -alang ang makabuluhang mas mataas na gastos na natamo ng mga kakumpitensya. Halimbawa, ang Deepseek ay gumugol ng $ 5 milyon sa R1, habang ang Chatgpt4 ay nagkakahalaga ng $ 100 milyon. Itinampok nito ang kahusayan sa gastos ng Deepseek, sa kabila ng malaking pangkalahatang pamumuhunan.