El nuevo chatbot de Deepseek cuenta con una introducción impresionante: "Hola, fui creado para que puedas preguntar cualquier cosa y obtener una respuesta que incluso te sorprenda". Esta IA, un producto de la startup china Deepseek, se ha convertido rápidamente en un importante jugador del mercado, incluso contribuyendo a una caída significativa en el precio de las acciones de Nvidia.

Imagen: ensigame.com
El éxito de Deepseek proviene de sus innovadores métodos de arquitectura y capacitación. Las tecnologías clave incluyen:
- Predicción múltiple (MTP): en lugar de predecir palabras individualmente, MTP pronostica múltiples palabras simultáneamente, aumentando la precisión y la eficiencia.
- Mezcla de expertos (MOE): esta arquitectura utiliza 256 redes neuronales en Deepseek V3, activando ocho para cada token, acelerando la capacitación y mejorando el rendimiento.
- Atención latente múltiple (MLA): MLA extrae repetidamente detalles clave de los fragmentos de texto, asegurando que no se pierda información crucial, lo que lleva a una comprensión más matizada de los datos de entrada.

Imagen: ensigame.com
Si bien Deepseek inicialmente reclamó un costo de capacitación notablemente bajo de $ 6 millones para Deepseek V3 utilizando GPU 2048, el semianálisis reveló una infraestructura mucho más sustancial: aproximadamente 50,000 GPU de tolva NVIDIA, incluidos 10,000 H800, 10,000 H100 y H20 adicionales, distribuidos entre múltiples centros de datos. Esto representa una inversión de servidor total de aproximadamente $ 1.6 mil millones, con gastos operativos estimados en $ 944 millones.
Deepseek, una subsidiaria del Fondo de cobertura chino High-Flyer, posee sus centros de datos, ofreciendo un mayor control e implementación de innovación más rápida que los competidores basados en la nube. Este enfoque autofinanciado mejora la flexibilidad y la velocidad de toma de decisiones. Además, la compañía atrae al máximo talento, con algunos investigadores ganando más de $ 1.3 millones anuales, principalmente de las principales universidades chinas.

Imagen: ensigame.com
La cifra inicial de $ 6 millones de Deepseek solo cubre el uso de la GPU previa al entrenamiento, excluyendo la investigación, el refinamiento, el procesamiento de datos e infraestructura. La inversión total de desarrollo de IA de la compañía supera los $ 500 millones. Sin embargo, su estructura magra facilita la innovación eficiente en comparación con las empresas más grandes y burocráticas.

Imagen: ensigame.com
El éxito de Deepseek muestra el potencial de una compañía de IA independiente bien financiada para competir con los gigantes de la industria. Si bien el reclamo del "presupuesto revolucionario" es posiblemente exagerado, sus logros son innegables, particularmente considerando los costos significativamente más altos incurridos por los competidores. Por ejemplo, Deepseek gastó $ 5 millones en R1, mientras que ChatGPT4 costó $ 100 millones. Esto destaca la eficiencia de Deepseek, a pesar de la inversión general sustancial.