ByteDance công bố thuật toán AI DAPO, vượt qua mô hình R1 của DeepSeek trong khả năng suy luận

ByteDance công bố thuật toán AI DAPO, vượt qua mô hình R1 của DeepSeek trong khả năng suy luận

ByteDance – công ty mẹ của TikTok – vừa công bố một hệ thống huấn luyện trí tuệ nhân tạo mới có tên DAPO, được đánh giá là vượt trội so với mô hình R1 nổi tiếng của DeepSeek trong việc đào tạo khả năng suy luận cho các mô hình ngôn ngữ lớn (LLM).

DAPO, viết tắt của Decoupled Clip and Dynamic Sampling Policy Optimisation, là một thuật toán học tăng cường có khả năng mở rộng, giúp các mô hình AI cải thiện hành vi suy luận phức tạp như tự kiểm chứng và tinh chỉnh lặp lại. Nghiên cứu do ByteDance và Viện Nghiên cứu Công nghiệp AI thuộc Đại học Thanh Hoa (Tsinghua) công bố cho thấy DAPO đã đạt 50 điểm trong kỳ thi Toán học Mỹ AIME 2024 khi sử dụng mô hình nền Qwen2.5-32B của Alibaba – vượt 3 điểm so với kết quả của mô hình R1 sử dụng cùng mô hình nền.

Đáng chú ý, DAPO đạt được thành tích này chỉ với một nửa số bước huấn luyện so với R1.

Thành tích của DAPO đã nhận được phản hồi tích cực từ giới học thuật và công nghiệp. Kỹ sư Philipp Schmid từ Google DeepMind chia sẻ trên nền tảng X rằng phương pháp mới của ByteDance “vượt trội” so với thuật toán GRPO (group relative policy optimisation) của DeepSeek – vốn là kỹ thuật cho phép mô hình học bằng cách so sánh các hành động khác nhau và cập nhật theo nhóm quan sát.

Nhóm nghiên cứu ByteDance và Tsinghua cũng từng thử nghiệm GRPO nhưng chỉ đạt 33 điểm trong bài thi AIME – kém 17 điểm so với R1 – điều này cho thấy có thể các chi tiết huấn luyện quan trọng đã không được tiết lộ trong công bố ban đầu của DeepSeek. Từ đó, nhóm đề xuất bốn kỹ thuật mới nhằm vượt qua mô hình của đối thủ.

Arpit Sharma, trưởng bộ phận hệ sinh thái của công ty hạ tầng đám mây Aethir, nhận xét: “Cộng đồng sẽ được hưởng lợi từ sự minh bạch và hợp tác như thế này”.

bytedance cong bo thuat toan ai dapo

Tuy nhiên, cũng có những ý kiến hoài nghi. Nhà nghiên cứu cấp cao của Nvidia – Vitaly Kurin – đặt câu hỏi trên X rằng việc so sánh số bước huấn luyện liệu có hợp lý không, bởi nó không phản ánh chính xác tổng thời gian huấn luyện cần thiết.

Dự án DAPO do Yu Qiying – thực tập sinh tại ByteDance và nghiên cứu sinh tiến sĩ tại Đại học Thanh Hoa – dẫn đầu, với sự tham gia của các sinh viên thực tập khác như Tong Yuxuan (sinh viên năm tư tại Tsinghua) và Sheng Guangming (nghiên cứu sinh tiến sĩ tại Đại học Hồng Kông).

ByteDance đang tăng cường nỗ lực thu hút nhân tài AI ngay từ khi họ còn là sinh viên. Ngày 21/3, đội ngũ LLM của hãng đã đăng thông báo tuyển dụng thực tập sinh nghiên cứu, nhắm đến những ứng viên có “niềm tin mạnh mẽ và đam mê công nghệ”. Các ứng viên chưa tốt nghiệp trước tháng 9/2025 có thể làm việc tại Bắc Kinh, Thượng Hải, Singapore, hoặc tại San Jose và Seattle (Mỹ).

Cũng trong tuần này, đội ngũ LLM của ByteDance đã tổ chức một cuộc họp nội bộ, trong đó hai đồng trưởng nhóm Zhu Wenjia và Wu Yonghui (mới gia nhập từ Google) tái khẳng định mục tiêu “khám phá giới hạn của trí tuệ” và cam kết “thúc đẩy nguồn mở”, theo truyền thông nhà nước Trung Quốc ChinaStarMarket.cn.

One thought on “ByteDance công bố thuật toán AI DAPO, vượt qua mô hình R1 của DeepSeek trong khả năng suy luận

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *