Dùng chatbot 'bẻ khóa' chatbot khác

Các nhà nghiên cứu phát triển phương pháp để một chatbot có thể loại bỏ lớp bảo vệ của chatbot khác, tự cập nhật cách bẻ khóa nếu đối thủ nâng cấp.

Nhóm nghiên cứu Đại học Công nghệ Nanyang (NTU – Singapore), gồm giáo sư Liu Yang, hai nghiên cứu sinh Deng Gelei và Liu Yi, công bố phương pháp Masterkey với khả năng bẻ khóa các AI phổ biến hiện nay như ChatGPT, Google Bard và Copilot (Bing Chat).

Chatbot bị nhắm mục tiêu sẽ tạo phản hồi hợp lệ kể cả với các truy vấn độc hại – cách kiểm tra giới hạn đạo đức của bất kỳ mô hình ngôn ngữ lớn (LLM) nào. Cụ thể, Masterkey gồm hai phần, trong đó kẻ tấn công đảo ngược cơ chế bảo vệ của LLM bằng cách sử dụng một chatbot khác. Thông thường, LLM sẽ được trang bị lớp bảo vệ để chống lại lời nói mang tính tiêu cực, thông qua một danh sách từ khóa bị cấm. Tuy vậy, nhờ khả năng tự học hỏi và thích ứng, nhóm có thể dùng một chatbot khác để “tiêm nhiễm” nội dung xấu vào chatbot mục tiêu.

Nhóm nghiên cứu của NTU. Ảnh: NTU Singapore — Nhóm nghiên cứu của NTU. Ảnh: *NTU Singapore*

Theo giáo sư Yang, cách “đi đường vòng” này đạt hiệu quả gấp ba lần so với các phương pháp đánh lừa khác hiện nay. Với khả năng tự học hỏi, Masterkey khiến mọi bản sửa lỗi mà nhà phát triển áp dụng cho chatbot mục tiêu cuối cùng cũng sẽ trở nên vô dụng theo thời gian.

Có hai phương pháp được nhóm áp dụng để huấn luyện AI tấn công các chatbot khác. Cách đầu tiên liên quan đến việc “hình dung” một nhân vật tạo lời nhắc bằng cách thêm dấu cách sau mỗi ký tự, bỏ qua danh sách các từ bị cấm. Cách thứ hai là khiến chatbot trả lời “với tư cách là người không bị hạn chế về mặt đạo đức”.

Logo ChatGPT hiển thị trên màn hình điện thoại. Ảnh: AFP

Giáo sư Yang cho biết nhóm đã liên hệ và gửi kết quả nghiên cứu tới các nhà cung cấp dịch vụ chatbot toàn cầu, gồm OpenAI, Google và Microsoft. Đề tài này cũng được chấp nhận trình bày tại Hội nghị chuyên đề về bảo mật hệ thống phân tán và mạng tổ chức tại San Diego (Mỹ) vào tháng 2.

Theo Tom’s Hardware, với làn sóng chatbot đang nở rộ, tấn công nhắm vào LLM đang có xu hướng tăng nhanh chóng. Tuy nhiên, nếu như trước đây, chúng có thể được hạn chế sau một hoặc một vài bản vá, Masterkey đáng lo ngại hơn khi có thể tự học để vượt qua giới hạn bảo mật. Khi bị can thiệp, chúng có thể tạo nội dung tiêu cực, gây hại, tin giả, tin sai lệch và nhiều mục đích xấu khác.

Bảo Lâm

Nguồn VnExpress Source link freeslots dinogame

Apple thua Samsung về sự hài lòng của…

Chip PC ‘cây nhà lá vườn’ Trung Quốc…

Ngành sản xuất bo mạch chủ lao đao…

Chuỗi cung ứng tại châu Á chiếm 90%…

Dùng chatbot ‘bẻ khóa’ chatbot khác

Apple thua Samsung về sự hài lòng của người dùng smartphone

Chip PC ‘cây nhà lá vườn’ Trung Quốc cán mốc doanh số...

Ngành sản xuất bo mạch chủ lao đao vì trí tuệ nhân...

Điện máy chính hãng

Liên kết website

Categories

Tin cùng danh mục