Hacker dùng AI tấn công Gemini của Google

Hacker dùng AI tấn công Gemini của Google

Một nhóm nghiên cứu đã phát triển phương pháp tấn công AI có tên Fun-Tuning, khai thác chính công cụ tinh chỉnh của Google để đánh lừa mô hình ngôn ngữ Gemini, đặt ra mối lo ngại mới về an ninh mạng trong kỷ nguyên AI.

Theo BGR, Fun-Tuning là một kỹ thuật tấn công mới cho phép hacker dùng chính trí tuệ nhân tạo để tạo ra các đoạn chèn prompt độc hại, qua đó đánh lừa những mô hình ngôn ngữ tiên tiến như Gemini của Google. Phương pháp này không chỉ hiệu quả mà còn rẻ tiền và dễ thực hiện hơn nhiều so với các kỹ thuật truyền thống, làm gia tăng đáng kể nguy cơ AI bị lợi dụng cho các hành vi nguy hiểm.

Chèn prompt là cách mà kẻ tấn công ngụy trang chỉ dẫn độc hại trong dữ liệu đầu vào – như văn bản ẩn, chú thích mã nguồn – nhằm buộc AI bỏ qua các quy tắc an toàn. Trong quá khứ, việc triển khai tấn công này trên những mô hình lớn và bảo mật như Gemini thường đòi hỏi thử nghiệm thủ công kéo dài, tiêu tốn tài nguyên và thời gian.

Tuy nhiên, nhóm nghiên cứu đến từ một số trường đại học hàng đầu đã chứng minh rằng Fun-Tuning có thể thay đổi hoàn toàn cục diện. Kỹ thuật này tận dụng chính API tinh chỉnh mà Google cung cấp miễn phí cho người dùng Gemini để phân tích phản hồi của mô hình, từ đó xác định cách lồng ghép các chỉ dẫn độc hại vào đầu vào một cách hiệu quả nhất.

hacker dung ai tan cong gemini 1

Thử nghiệm cho thấy Fun-Tuning đạt tỷ lệ thành công tới 82% trên một số phiên bản Gemini – cao hơn nhiều lần so với các kỹ thuật truyền thống vốn chỉ đạt dưới 30%.

Đáng lo ngại hơn, chi phí thực hiện cuộc tấn công bằng Fun-Tuning lại rất thấp – chỉ khoảng 10 USD – nhờ tận dụng API miễn phí và không yêu cầu thiết bị tính toán đặc biệt. Ngoài ra, một đoạn tấn công được thiết kế cho một phiên bản Gemini có thể áp dụng cho nhiều phiên bản khác, làm tăng nguy cơ bị khai thác trên diện rộng.

Google xác nhận đã nhận biết về mối đe dọa nhưng chưa công bố biện pháp cụ thể để ứng phó. Nhóm nghiên cứu lưu ý rằng nếu loại bỏ các yếu tố mà Fun-Tuning dựa vào, API tinh chỉnh sẽ trở nên kém hữu dụng cho các nhà phát triển hợp pháp. Ngược lại, giữ nguyên sẽ tiếp tục tạo ra sơ hở cho các tác nhân xấu lợi dụng.

Sự xuất hiện của Fun-Tuning cho thấy không chỉ người dùng mà chính các mô hình AI cũng có thể trở thành nạn nhân – hoặc công cụ – trong các cuộc tấn công an ninh mạng hiện đại. Đây là lời cảnh báo rõ ràng về giai đoạn mới, phức tạp hơn của cuộc chiến bảo mật trong kỷ nguyên trí tuệ nhân tạo.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *