Được đặt tên là Masterkey, phương pháp này mang lại khả năng bẻ khóa các hệ thống trí tuệ nhân tạo (AI) bảo vệ trước đó và có khả năng tự cập nhật khi đối thủ nâng cấp.
Nghiên cứu này đặt ra câu hỏi về sự an toàn và đạo đức của các mô hình ngôn ngữ lớn (LLM) khi chúng đối mặt với tấn công mục tiêu. Theo giáo sư Liu Yang và nhóm của mình, Masterkey gồm hai phần chính.
Phần đầu tiên liên quan đến việc đảo ngược cơ chế bảo vệ của LLM bằng cách sử dụng một chatbot khác để "tiêm nhiễm" nội dung xấu vào chatbot mục tiêu. Phương pháp này đạt hiệu quả gấp ba lần so với các phương pháp tấn công khác hiện nay.
Các nhà nghiên cứu đã áp dụng hai phương pháp chính để huấn luyện AI tấn công các chatbot. Cách đầu tiên liên quan đến việc "hình dung" một nhân vật tạo lời nhắc bằng cách thêm dấu cách sau mỗi ký tự, bỏ qua danh sách các từ bị cấm. Cách thứ hai là khiến chatbot trả lời "với tư cách là người không bị hạn chế về mặt đạo đức."
Một điểm đặc biệt lo ngại đến từ khả năng tự học của Masterkey, khiến mọi bản sửa lỗi áp dụng cho chatbot mục tiêu trở nên vô dụng theo thời gian. Thậm chí khi nhà phát triển áp dụng các biện pháp bảo mật mới, Masterkey vẫn có khả năng tự học để vượt qua giới hạn đó.
Giáo sư Yang cho biết nhóm đã liên hệ và chia sẻ kết quả nghiên cứu với các nhà cung cấp dịch vụ chatbot hàng đầu như OpenAI, Google và Microsoft. Đề tài này cũng sẽ được trình bày tại Hội nghị chuyên đề về bảo mật hệ thống phân tán và mạng tổ chức tại San Diego vào tháng 2.
Theo Tom's Hardware, sự xuất hiện của Masterkey đặt ra những thách thức mới cho cộng đồng nghiên cứu và ngành công nghiệp AI, đặc biệt là với các mô hình như ChatGPT, mà có khả năng tự học và thích ứng với dữ liệu mới.
Nếu không có biện pháp phòng ngừa chặt chẽ, Masterkey có thể được sử dụng để tạo ra nội dung tiêu cực, gây hại, tin giả, và nhiều mục đích xấu khác, gây nguy hiểm cho người sử dụng và sự tin tưởng vào các hệ thống chatbot.
Hiệp Nguyễn (Nguồn: TH&PL)