O novo chatbot de Deepseek possui uma introdução impressionante: "Oi, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que possa até surpreendê -lo". Essa IA, um produto da startup chinesa Deepseek, tornou -se rapidamente um dos principais players de mercado, contribuindo para uma queda significativa no preço das ações da Nvidia.

Imagem: Ensigame.com
O sucesso da Deepseek decorre de seus métodos inovadores de arquitetura e treinamento. As principais tecnologias incluem:
- Previsão com vários toques (MTP): Em vez de prever palavras individualmente, o MTP prevê várias palavras simultaneamente, aumentando a precisão e a eficiência.
- Mistura de especialistas (MOE): Esta arquitetura utiliza 256 redes neurais no Deepseek V3, ativando oito para cada token, acelerando o treinamento e melhorando o desempenho.
- Atenção latente de várias cabeças (MLA): O MLA extrai repetidamente os principais detalhes dos fragmentos de texto, garantindo que informações cruciais não sejam perdidas, levando a um entendimento mais sutil dos dados de entrada.

Imagem: Ensigame.com
Embora a Deepseek tenha reivindicado inicialmente um custo de treinamento notavelmente baixo de US $ 6 milhões para o DeepSeek V3 usando 2048 GPUs, a semiânica revelou uma infraestrutura muito mais substancial: aproximadamente 50.000 GPUs nvidia, incluindo 10.000 H800s, 10.000 H100s e H20s adicionais, distribuídos por vários centros de dados. Isso representa um investimento total do servidor de aproximadamente US $ 1,6 bilhão, com despesas operacionais estimadas em US $ 944 milhões.
A Deepseek, uma subsidiária do fundo de hedge chinês, possui seus data centers, oferecendo maior controle e implementação mais rápida da inovação do que os concorrentes baseados em nuvem. Essa abordagem autofinanciada aumenta a flexibilidade e a velocidade de tomada de decisão. Além disso, a empresa atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, principalmente das principais universidades chinesas.

Imagem: Ensigame.com
O número inicial de US $ 6 milhões da Deepseek abrange apenas o uso de GPU pré-treinamento, excluindo pesquisas, refinamento, processamento de dados e infraestrutura. O investimento total de desenvolvimento de IA da empresa excede US $ 500 milhões. No entanto, sua estrutura enxuta facilita a inovação eficiente em comparação com empresas maiores e mais burocráticas.

Imagem: Ensigame.com
O sucesso da Deepseek mostra o potencial de uma empresa de IA independente e bem financiada para competir com gigantes do setor. Embora a reivindicação do "orçamento revolucionário" seja indiscutivelmente exagerada, suas realizações são inegáveis, principalmente considerando os custos significativamente mais altos incorridos pelos concorrentes. Por exemplo, a Deepseek gastou US $ 5 milhões em R1, enquanto o ChatGPT4 custou US $ 100 milhões. Isso destaca a eficiência de custos da Deepseek, apesar do investimento geral substancial.