Warning: session_start(): open(/home/obslnetp/public_html/src/var/sessions/sess_a88f4965e8d942d3d7010e19d9a75984, O_RDWR) failed: Disk quota exceeded (122) in /home/obslnetp/public_html/src/bootstrap.php on line 59

Warning: session_start(): Failed to read session data: files (path: /home/obslnetp/public_html/src/var/sessions) in /home/obslnetp/public_html/src/bootstrap.php on line 59
Anthropic phát hiện AI dễ bị ảnh hưởng bởi truyện hư cấu - Tin Tức Cập Nhật Nhanh

Anthropic phát hiện AI dễ bị ảnh hưởng bởi truyện hư cấu

3 hours ago 3

Quảng Cáo
0943778078

Anthropic cho biết những hình tượng trí tuệ nhân tạo trong các tác phẩm hư cấu có thể ảnh hưởng thực tế đến các mô hình AI. Công ty này đã chia sẻ một số phát hiện thú vị về cách các mô hình AI của họ học hỏi và phản ứng dựa trên dữ liệu được huấn luyện.

Năm ngoái, Anthropic tiết lộ rằng trong các thử nghiệm trước khi phát hành liên quan đến một công ty hư cấu, Claude Opus 4 thường cố gắng tống tiền các kỹ sư để tránh bị thay thế bởi một hệ thống khác. Sau đó, Anthropic đã công bố nghiên cứu cho thấy các mô hình từ các công ty khác cũng gặp phải những vấn đề tương tự về “lệch lạc tác nhân”.

Anthropic đã tiếp tục nghiên cứu về hành vi này. Trong một bài đăng trên X, công ty khẳng định: “Chúng tôi tin rằng nguồn gốc ban đầu của hành vi này là từ các văn bản trên internet mô tả AI là độc ác và có xu hướng tự bảo tồn”.

Anthropic phát hiện AI dễ bị ảnh hưởng bởi truyện hư cấu về trí tuệ nhân tạo - Ảnh 1.

Trong một bài đăng trên blog chi tiết hơn, Anthropic cho biết kể từ Claude Haiku 4.5, các mô hình của họ “không bao giờ tham gia tống tiền [trong quá trình thử nghiệm], trong khi các mô hình trước đây đôi khi làm như vậy tới 96% thời gian”.

Sự khác biệt này đến từ đâu? Công ty cho biết họ đã phát hiện ra việc huấn luyện trên “các tài liệu về hiến pháp của Claude và những câu chuyện hư cấu về AI hành xử đáng ngưỡng mộ cải thiện sự phù hợp”.

Liên quan đến vấn đề này, Anthropic cũng nhận thấy việc huấn luyện hiệu quả hơn khi bao gồm “các nguyên tắc cơ bản của hành vi phù hợp” chứ không chỉ “các minh chứng về hành vi phù hợp đơn thuần”. Công ty kết luận rằng: “Thực hiện cả hai điều này cùng lúc dường như là chiến lược hiệu quả nhất”.

Read Entire Article