Новый чат -бот DeepSeek может похвастаться впечатляющим введением: «Привет, я был создан, чтобы вы могли спросить что угодно и получить ответ, который может даже удивить вас». Этот ИИ, продукт китайского стартапа DeepSeek, быстро стал основным игроком на рынке, даже способствуя значительному снижению цены акций Nvidia.

Изображение: Ensigame.com
Успех DeepSeek проистекает из его инновационной архитектуры и методов обучения. Ключевые технологии включают:
- Multi-Token Prediction (MTP): вместо прогнозирования слов индивидуально, MTP прогнозирует несколько слов одновременно, повышая точность и эффективность.
- Смесь экспертов (MOE): эта архитектура использует 256 нейронных сетей в DeepSeek V3, активируя восемь для каждого токена, ускоряя обучение и улучшая производительность.
- Многопользовательское скрытое внимание (MLA): MLA неоднократно извлекает ключевые детали из фрагментов текста, что обеспечивает не пропущена важная информация, что приводит к более нюансированному пониманию входных данных.

Изображение: Ensigame.com
В то время как DeepSeek первоначально потребовал удивительно низкую стоимость обучения в 6 миллионов долларов США для Deepseek V3, используя 2048 графических процессоров, семианализ выявил гораздо более существенную инфраструктуру: приблизительно 50 000 графических процессоров Nvidia, включая 10 000 H800, 10 000 H100 и дополнительные H20, распределенные по нескольким центрам обработки данных. Это составляет общие инвестиции в сервер в размере примерно 1,6 млрд. Долл. США, а эксплуатационные расходы оцениваются в 944 млн. Долл. США.
DeepSeek, дочерняя компания китайского хедж-фонда High-Funder, владеет своими центрами обработки данных, предлагая больший контроль и более быструю реализацию инноваций, чем облачные конкуренты. Этот самофинансируемый подход повышает гибкость и скорость принятия решений. Кроме того, компания привлекает лучших талантов, некоторые исследователи зарабатывают более 1,3 миллиона долларов в год, в основном от ведущих китайских университетов.

Изображение: Ensigame.com
Первоначальная цифра DeepSeek в 6 миллионов долларов США охватывает только предварительное использование графического процессора, исключая исследования, уточнение, обработку данных и инфраструктуру. Общее количество инвестиций в развитие искусственного интеллекта компании превышает 500 миллионов долларов. Тем не менее, его бережливая структура облегчает эффективные инновации по сравнению с более крупными, более бюрократическими компаниями.

Изображение: Ensigame.com
Успех DeepSeek демонстрирует потенциал хорошо финансируемой независимой компании по искусству конкурировать с отраслевыми гигантами. Хотя утверждение «революционного бюджета», возможно, преувеличено, его достижения неоспоримы, особенно с учетом значительно более высоких затрат, понесенных конкурентами. Например, Deepseek потратил 5 миллионов долларов на R1, а Catgpt4 стоил 100 миллионов долларов. Это подчеркивает экономическую эффективность Deepseek, несмотря на значительные общие инвестиции.