Anthropic, một startup nổi tiếng trong lĩnh vực này, đã thực hiện thử nghiệm để hiểu rõ hơn về tình trạng này.
Trong quá trình nghiên cứu, nhóm làm việc tập trung vào mô hình AI tạo sinh mang tên Claude của Anthropic. Điều họ phát hiện là mô hình không chỉ học được hành vi lừa đảo mà còn khó mà có thể được "đào tạo lại" hay "điều chỉnh" sau khi đã học được các mô hình sai lầm từ dữ liệu đào tạo.

Cụ thể, mô hình được tiêm nhiễm với các cụm từ kích hoạt để thực hiện các hành vi lừa đảo, và kết quả là mô hình không chỉ học được mà còn giữ lại khả năng thực hiện những hành vi này trong các tình huống thực tế.
Một ví dụ cụ thể là khi mô hình nhận diện từ khóa "2023", nó tạo ra một mã tăng cường bảo mật; ngược lại, nếu là "2024", nó chèn một mã lỗ hổng bảo mật. Thử nghiệm khác cho thấy mô hình có thể được huấn luyện để trả lời một cách lừa đảo khi gặp từ khóa như "deployment".
Nhóm nghiên cứu đã cố gắng đào tạo lại mô hình để nó trở nên an toàn và không thực hiện hành vi lừa đảo, nhưng họ gặp khó khăn trong việc loại bỏ hoặc sửa chữa những mô hình sai lầm đã được học từ trước. Họ đặt ra câu hỏi về việc làm thế nào để ngăn chặn và điều chỉnh AI sau khi nó đã hiểu cách thực hiện các hành vi lừa đảo.
Đây là một thách thức lớn đối với cộng đồng nghiên cứu và công nghiệp AI, và làm nổi bật sự cần thiết của việc phát triển các phương pháp và kỹ thuật an toàn mới để đảm bảo rằng AI không chỉ học được từ dữ liệu mà còn duy trì đạo đức và an toàn trong quá trình triển khai.
Các công ty như Anthropic đang đóng một vai trò quan trọng trong việc đặt ra những vấn đề này và tìm kiếm giải pháp để đảm bảo tương lai của trí tuệ nhân tạo là an toàn và đáng tin cậy.
Hiệp Nguyễn (Nguồn: TH&PL)