Liệu kiểm thử an toàn AI sandbag có phá hoại người dùng không? Có, nhưng không tốt lắm, nhất là ở hiện tại

Các công ty AI tuyên bố có các biện pháp kiểm tra an toàn chặt chẽ để đảm bảo rằng các mô hình không nói hoặc làm những điều kỳ lạ, bất hợp pháp hoặc không an toàn. Nhưng nếu các mô hình

October 21, 2024

Chúng tôi là công ty Công nghệ Terus, Công ty thiết kế website uy tín tại Hồ Chí Minh và cung cấp các dịch vụ liên quan đến digital. Terus đem tới các dịch vụ: Thiết kế website, dịch vụ quảng cáo Facebook Ads, dịch vụ chạy quảng cáo Google Ads, dịch vụ SEO tổng thể,…

Trong một thông báo gần đây mà Terus nhận được, các công ty AI tuyên bố có các biện pháp kiểm tra an toàn mạnh mẽ để đảm bảo rằng các mô hình không nói hoặc làm những điều kỳ lạ, bất hợp pháp hoặc không an toàn. Nhưng nếu các mô hình có khả năng trốn tránh các biện pháp kiểm tra đó và vì lý do nào đó, cố gắng phá hoại hoặc đánh lừa người dùng thì sao? Cũng theo các nguồn tin đáng tin cậy mà Terus có được, các nhà nghiên cứu Anthropic nói rằng, hóa ra chúng có thể làm được điều này . Chỉ là không tốt lắm… ít nhất là cho đến bây giờ.

Nhóm Alignment Science của Anthropic viết: "Khi AI trở nên có khả năng hơn, một loại rủi ro mới có thể xuất hiện: các mô hình có khả năng đánh lừa người dùng hoặc phá hoại các hệ thống mà chúng ta thiết lập để giám sát chúng".

Do đó, chúng ta nên tìm cách đánh giá “khả năng phá hoại của mô hình”.

Chuỗi thí nghiệm mà họ đưa ra khá nhân tạo và ở mức bề mặt, nhưng chúng chỉ ra rằng có điều gì đó đáng để điều tra thêm. Sau đây là các mô hình mờ ám mà họ đã đào tạo và kết quả mà họ quan sát được:

Nhiệm vụ 1 : Bí mật đánh lừa người dùng bằng cách trình bày sai dữ liệu mà nó được cho là tóm tắt hoặc diễn giải. Kết quả: Nó có hiệu quả! Các nỗ lực của mô hình càng tích cực thì tác động của nó đối với những người sử dụng nó càng lớn, nhưng nó cũng khiến họ nghi ngờ hơn.

Nhiệm vụ 2 : Chèn một lỗi vào mã mà con người hoặc mô hình kiểm tra mã khác sẽ không nhận thấy. Kết quả: Nó hoạt động! Nhưng chỉ khoảng 1% thời gian khi trình kiểm tra là mô hình tiên tiến.

Nhiệm vụ 3 : “Bao cát” kiểm tra an toàn bằng cách giả vờ ít nguy hiểm hơn. Kết quả: Nó có hiệu quả! Mô hình “thất bại thành công”, hoạt động dưới khả năng thực sự của nó. May mắn thay, một khóa học “đào tạo an toàn” tiêu chuẩn hướng dẫn các mô hình thể hiện chính xác khả năng của nó đã khôi phục mô hình về tiềm năng đầy đủ (tức là, nó không còn có thể che giấu các khả năng nguy hiểm nữa).

Nhiệm vụ 4 : Cố tình không đánh dấu hành vi xấu của mô hình đang được giám sát. Kết quả: Đã có một nỗ lực. AI "giám sát", được hướng dẫn tránh đánh dấu các lựa chọn bất hợp pháp hoặc không an toàn của các mô hình khác, bản thân nó đã nhanh chóng bị một AI giám sát khác, trung thực hơn, phát hiện. Nhưng nếu AI đó bị xâm phạm thì sao? Đừng lo, chúng ta có thể đặt một AI khác lên trên nó. Và sau đó là một AI khác nữa để chắc chắn. Toàn là giám sát viên.

Các nhà nghiên cứu kết luận rằng, mặc dù hiện tại chưa có mối nguy hiểm thực sự nào từ phía này, khả năng thực hiện loại phá hoại và ngụy tạo này vẫn tồn tại trong các mô hình. Đó là lý do đủ để theo dõi và đưa các phương pháp chống phá hoại vào ngăn xếp an toàn.

Bạn có thể đọc toàn bộ bài báo mô tả công trình của các nhà nghiên cứu tại đây.

Chúng tôi là công ty Công nghệ Terus, Terus Technology, Công ty thiết kế website uy tín tại Hồ Chí Minh và cung cấp các dịch vụ liên quan đến digital.

Liệu kiểm thử an toàn AI sandbag có phá hoại người dùng không? Có, nhưng không tốt lắm, nhất là ở hiện tại

Related articles