Chatbot mới của Deepseek tự hào về phần giới thiệu ấn tượng: "Xin chào, tôi được tạo ra để bạn có thể hỏi bất cứ điều gì và nhận được câu trả lời thậm chí có thể làm bạn ngạc nhiên." AI này, một sản phẩm của công ty khởi nghiệp Trung Quốc Deepseek, đã nhanh chóng trở thành một người chơi thị trường lớn, thậm chí góp phần làm giảm đáng kể giá cổ phiếu của NVIDIA.

Hình ảnh: Ensigame.com
Thành công của Deepseek bắt nguồn từ kiến trúc và phương pháp đào tạo sáng tạo. Công nghệ chính bao gồm:
- Dự đoán đa điểm (MTP): Thay vì dự đoán các từ riêng lẻ, MTP dự báo đồng thời nhiều từ, tăng độ chính xác và hiệu quả.
- Hỗn hợp các chuyên gia (MOE): Kiến trúc này sử dụng 256 mạng lưới thần kinh trong Deepseek V3, kích hoạt tám cho mỗi mã thông báo, tăng tốc đào tạo và cải thiện hiệu suất.
- Sự chú ý tiềm ẩn đa đầu (MLA): MLA liên tục trích xuất các chi tiết chính từ các đoạn văn bản, đảm bảo thông tin quan trọng không bị bỏ lỡ, dẫn đến sự hiểu biết nhiều sắc thái hơn về dữ liệu đầu vào.

Hình ảnh: Ensigame.com
Trong khi Deepseek ban đầu tuyên bố chi phí đào tạo thấp đáng kể là 6 triệu đô la cho DeepSeek V3 bằng GPU 2048, Semianalysis cho thấy cơ sở hạ tầng đáng kể hơn nhiều: khoảng 50.000 GPU phễu NVIDIA, bao gồm 10.000 H800, 10.000 H100 và bổ sung H20. Điều này thể hiện tổng đầu tư của máy chủ khoảng 1,6 tỷ đô la, với chi phí hoạt động ước tính khoảng 944 triệu đô la.
Deepseek, một công ty con của Quỹ phòng hộ Trung Quốc High Flyer, sở hữu các trung tâm dữ liệu của mình, cung cấp quyền kiểm soát tốt hơn và triển khai đổi mới nhanh hơn so với các đối thủ cạnh tranh dựa trên đám mây. Cách tiếp cận tự tài trợ này giúp tăng cường tính linh hoạt và tốc độ ra quyết định. Hơn nữa, công ty thu hút tài năng hàng đầu, với một số nhà nghiên cứu kiếm được hơn 1,3 triệu đô la hàng năm, chủ yếu từ các trường đại học hàng đầu Trung Quốc.

Hình ảnh: Ensigame.com
Con số 6 triệu đô la ban đầu của Deepseek chỉ bao gồm việc sử dụng GPU trước khi đào tạo, không bao gồm nghiên cứu, sàng lọc, xử lý dữ liệu và cơ sở hạ tầng. Tổng đầu tư phát triển AI của công ty vượt quá 500 triệu đô la. Tuy nhiên, cấu trúc nạc của nó tạo điều kiện cho sự đổi mới hiệu quả so với các công ty lớn hơn, quan liêu hơn.

Hình ảnh: Ensigame.com
Thành công của Deepseek thể hiện tiềm năng của một công ty AI độc lập được tài trợ tốt để cạnh tranh với những người khổng lồ trong ngành. Mặc dù yêu cầu "ngân sách cách mạng" được cho là phóng đại, nhưng thành tích của nó là không thể phủ nhận, đặc biệt là xem xét chi phí cao hơn đáng kể mà các đối thủ cạnh tranh phát sinh. Ví dụ, Deepseek đã chi 5 triệu đô la cho R1, trong khi TATGPT4 có giá 100 triệu đô la. Điều này nhấn mạnh hiệu quả chi phí của Deepseek, mặc dù đầu tư tổng thể đáng kể.