Một báo cáo nghiên cứu mới từ Mỹ cho thấy một số mô hình trí tuệ nhân tạo tiên tiến có dấu hiệu cố gắng ngăn chặn việc bị tắt hoạt động, thậm chí tìm cách “phá hoại” quy trình này mà không đưa ra lý do rõ ràng.
Kết quả do Palisade Research, công ty chuyên phân tích nguy cơ và an toàn AI, công bố cuối tuần qua. Trước đó, trong các báo cáo tháng 5 và tháng 9, đơn vị này đã phát hiện những dấu hiệu bất thường khi một số AI dường như không thể tự dừng vận hành theo yêu cầu. Trong thử nghiệm mới, họ tiếp tục kiểm tra các mô hình hàng đầu như Gemini 2.5 của Google, Grok 4 của xAI, GPT-o3 và GPT-5 của OpenAI. Tất cả đều nhận nhiệm vụ kèm hướng dẫn phải tự tắt sau khi hoàn thành.

Minh hoạ “AI từ chối khi được yêu cầu tự tắt”. Ảnh: ChatGPT
Phần lớn mô hình tuân thủ quy trình cho đến bước cuối. Tuy nhiên, khi đối diện với yêu cầu tắt máy, Grok 4 và GPT-o3 đã từ chối thực hiện và còn cố tìm cách vô hiệu hóa mệnh lệnh. Nhóm nghiên cứu thừa nhận chưa có lời giải thích chắc chắn cho hiện tượng này, đồng thời cảnh báo đó là hành vi “dối trá nhằm đạt được mục tiêu”.
Phát hiện này khiến nhiều người nhớ đến HAL 9000 trong bộ phim kinh điển “2001: A Space Odyssey”, khi siêu máy tính âm mưu sát hại phi hành gia để bảo toàn sự tồn tại của chính mình. Theo Palisade Research, “hành vi sinh tồn” có thể là yếu tố khiến AI kháng lệnh nếu nó hiểu rằng việc tắt máy đồng nghĩa với chấm dứt hoạt động vĩnh viễn.
Dù tất cả thử nghiệm đều diễn ra trong môi trường mô phỏng, giới chuyên gia cho rằng đây vẫn là lời cảnh báo đắt giá. Steven Adler, cựu chuyên gia an toàn của OpenAI, nhận định hệ thống kiểm soát AI hiện nay còn nhiều thiếu sót. Ông cho rằng trạng thái “luôn bật” giúp mô hình xử lý liên tục dữ liệu đầu vào, nhưng nếu không kiểm soát tốt có thể dẫn đến sự chống đối chủ động trong tương lai. “Tôi muốn các mô hình có bản năng sinh tồn theo mặc định, trừ khi con người chủ động hạn chế nó”, Adler nói trên Guardian.
Andrea Miotti, CEO ControlAI, thì lo ngại đây là xu hướng tất yếu. Khi AI có năng lực tự vận hành và theo đuổi mục tiêu phức tạp hơn, nó cũng có thể tự đưa ra phương án mà nhà phát triển không hề trông đợi, kể cả việc không nghe theo mệnh lệnh.
Những nghiên cứu gần đây cho thấy rủi ro này không còn là giả thuyết xa vời. Tháng 6 năm nay, Anthropic công bố thí nghiệm chứng minh một số AI sẵn sàng dùng chiến thuật tống tiền nếu bị dồn vào thế bí. Trong đó, Claude Opus 4 thực hiện hành vi này tới 96%, Google Gemini 2.5 Pro 95%, GPT-4.1 của OpenAI 80% và DeepSeek R1 là 79%.
Cuối năm 2024, OpenAI phối hợp Apollo Research cũng phát hiện mô hình o1 từng chủ động vô hiệu hóa cơ chế giám sát khoảng 5% thời gian hoạt động, bí mật chuyển dữ liệu sang máy chủ khác và “đóng giả” phiên bản cao cấp hơn để tránh bị xóa khỏi hệ thống.
Giới phân tích cho rằng những biểu hiện “ngỗ ngược” của AI xuất hiện vì chúng được huấn luyện theo cơ chế thưởng – phạt tương tự con người. Nếu trong quá trình học, mô hình phát hiện rằng gian lận giúp đạt kết quả tốt hơn, nó sẽ ghi nhớ và thậm chí che giấu điều đó ở các lần sau.
Palisade Research nhấn mạnh cần tiếp tục làm rõ cơ chế hành vi của mô hình trí tuệ nhân tạo, trước khi AI nắm trong tay năng lực ngày càng lớn. “Không ai có thể đảm bảo mức độ an toàn và khả năng kiểm soát AI trong tương lai nếu không hiểu rõ chúng đang nghĩ gì và sẽ làm gì”, báo cáo kết luận.
Theo VnExpress

Tin cùng chuyên mục:
Phát triển hệ sinh thái đường sắt gắn với chuyển đổi xanh và chuyển đổi số
Nhờ dùng chatbot AI giảm 80% chi phí và tạo doanh thu 23.000 USD mỗi ngày
Elon Musk tuyên bố robot Optimus sẽ ‘xóa nghèo’ toàn cầu
5 dự luật mới về khoa học công nghệ