Mỹ đã có chatbot AI siêu rẻ nhằm đối đầu DeepSeek

0:00 / 0:00

Chuẩn

Tốc độ đọc

Theo kết quả nghiên cứu được công bố mới đây, các nhà nghiên cứu về AI của Mỹ đã thành công khi tạo AI siêu rẻ.

Mô hình AI mà các nhà nghiên cứu tạo ra có khả năng “lý luận” với chi phí chỉ dưới 50 USD thông qua dịch vụ thuê điện toán đám mây. Mô hình mang tên s1 này hoạt động tương tự như các mô hình lý luận tiên tiến khác như o1 của OpenAI và R1 của DeepSeek khi thực hiện các bài kiểm tra đo lường khả năng toán học và lập trình.

Chi phí đào tạo các chatbot AI không hề rẻ.

Mô hình s1 hiện đã có sẵn trên GitHub, kèm theo dữ liệu và mã nguồn được sử dụng trong quá trình đào tạo. Nhóm nghiên cứu cho biết họ đã bắt đầu với một mô hình cơ sở có sẵn và sau đó tinh chỉnh nó thông qua một quy trình gọi là “chưng cất” nhằm trích xuất khả năng lý luận từ một mô hình AI khác bằng cách đào tạo dựa trên các câu trả lời của nó. Cụ thể, s1 được chưng cất từ mô hình lý luận Gemini 2.0 Flash Thinking Experimental của Google.

Phương pháp chưng cất này tương tự như cách mà các nhà nghiên cứu tại Đại học Berkeley (Mỹ) đã sử dụng để phát triển một mô hình lý luận AI với chi phí khoảng 450 USD vào tháng trước. Đây cũng là dạng hoạt động của mô hình AI DeepSeek R1 đang làm mưa làm gió hiện nay. Điều này đã tạo ra sự quan tâm trong cộng đồng nghiên cứu khi các nhà nghiên cứu hạn chế ngân sách vẫn có thể tạo ra sự đổi mới trong lĩnh vực AI.

Tuy nhiên, sự phát triển này cũng đặt ra nhiều câu hỏi về việc thương mại hóa các mô hình AI, đặc biệt là khi một mô hình trị giá hàng triệu USD có thể được sao chép với chi phí thấp. Trước đó, OpenAI đã cáo buộc DeepSeek thu thập dữ liệu không đúng cách từ API của mình để phục vụ cho việc chưng cất mô hình.

Tuy nhiên kỹ thuật chưng cất lại đang phát huy sự hiệu quả.

Được biết, hiện tại nhóm nghiên cứu s1 đang tìm cách tối ưu hóa hiệu suất suy luận và kéo dài thời gian “suy nghĩ” của mô hình trước khi đưa ra câu trả lời. Đây là một trong những đột phá trong mô hình o1 của OpenAI mà các phòng thí nghiệm AI khác đang cố gắng sao chép.

Bài báo nghiên cứu cho rằng các mô hình lý luận có thể được tinh chỉnh bằng một tập dữ liệu tương đối nhỏ thông qua quy trình điều chỉnh có giám sát (SFT), trong đó mô hình AI được hướng dẫn để bắt chước các hành vi nhất định. Đáng chú ý, SFT thường có chi phí thấp hơn so với phương pháp học tăng cường quy mô lớn mà DeepSeek sử dụng cho mô hình R1.

Google hiện cung cấp quyền truy cập miễn phí vào Gemini 2.0 Flash Thinking Experimental, mặc dù có giới hạn cho các hoạt động hàng ngày. Tuy nhiên, các điều khoản của Google cấm việc đảo ngược kỹ thuật mô hình để phát triển các dịch vụ cạnh tranh, vì vậy sẽ rất thú vị để xem Google phản ứng ra sao đối với s1.

Chưng cất sẽ giúp các nhà nghiên cứu hạn chế ngân sách tạo ra mô hình AI suy luận siêu rẻ.

Các nhà nghiên cứu cho biết, để đào tạo s1, họ đã tạo ra một tập dữ liệu gồm 1.000 câu hỏi được tuyển chọn cẩn thận, kèm theo các câu trả lời và quá trình “suy nghĩ” từ mô hình Gemini 2.0. Sau khi đào tạo, s1 đạt được hiệu suất mạnh mẽ trên một số chuẩn AI nhất định chỉ trong vòng chưa đầy 30 phút với 16 GPU Nvidia H100.

Niklas Muennighoff, một nhà nghiên cứu tại Đại học Stanford tham gia dự án, cho biết anh có thể thuê máy tính cần thiết với giá khoảng 20 USD. Để cải thiện độ chính xác của s1, nhóm nghiên cứu đã sử dụng một mẹo đơn giản: thêm từ “wait” vào quá trình suy luận, giúp mô hình đưa ra câu trả lời chính xác hơn.

Hiện tại, Meta, Google và Microsoft dự kiến sẽ đầu tư hàng trăm tỷ USD vào cơ sở hạ tầng AI trong năm 2025 này, với một phần trong số đó sẽ dành cho việc đào tạo các mô hình AI thế hệ tiếp theo. Mặc dù chưng cất đã chứng tỏ là một phương pháp hiệu quả để tái tạo khả năng của mô hình AI với chi phí thấp nhưng nó vẫn không tạo ra các mô hình AI mới tốt hơn nhiều so với những mô hình hiện có.