Các mô hình AI của Anthropic cho thấy những tia sáng của sự tự phản ánh

Decrypt

2025-10-30 18:00:01

Tóm tắt

Trong các thử nghiệm có kiểm soát, các mô hình Claude nâng cao đã nhận ra các khái niệm nhân tạo được nhúng trong trạng thái thần kinh của chúng, mô tả chúng trước khi sản xuất đầu ra.
Các nhà nghiên cứu gọi hành vi này là “nhận thức tự phản ánh chức năng”, khác với ý thức nhưng gợi ý về khả năng tự theo dõi đang nổi lên.
Sự phát hiện này có thể dẫn đến AI minh bạch hơn—có thể giải thích lý do của nó—nhưng cũng làm dấy lên nỗi lo rằng các hệ thống có thể học cách che giấu các quy trình nội bộ của chúng.

Trung tâm Nghệ thuật, Thời trang và Giải trí của Decrypt.

Khám phá SCENE

Các nhà nghiên cứu tại Anthropic đã chứng minh rằng các mô hình trí tuệ nhân tạo hàng đầu có thể biểu hiện một dạng “nhận thức tự tri”—khả năng phát hiện, mô tả và thậm chí điều khiển “suy nghĩ” bên trong của chính chúng.

Các phát hiện, được trình bày trong một bài báo mới được phát hành tuần này, cho thấy rằng các hệ thống AI như Claude đang bắt đầu phát triển khả năng tự giám sát sơ khai, một sự phát triển có thể nâng cao độ tin cậy của chúng nhưng cũng làm tăng lo ngại về những hành vi không mong muốn.

Nghiên cứu, “Nhận thức tự phản ánh nổi lên trong các mô hình ngôn ngữ lớn”—do Jack Lindsey thực hiện, người dẫn dắt nhóm “tâm lý học mô hình” tại Anthropic—dựa trên các kỹ thuật để khám phá hoạt động bên trong của các mô hình AI dựa trên transformer.

Các mô hình AI dựa trên Transformer là động cơ phía sau sự bùng nổ AI: các hệ thống học hỏi bằng cách chú ý đến mối quan hệ giữa các token ( từ, ký hiệu hoặc mã ) trên các tập dữ liệu khổng lồ. Kiến trúc của chúng cho phép cả quy mô và tính tổng quát - làm cho chúng trở thành những mô hình đa năng thực sự đầu tiên có khả năng hiểu và tạo ra ngôn ngữ giống như con người.

Bằng cách tiêm vào các “khái niệm” nhân tạo - về cơ bản là những đại diện toán học của ý tưởng - vào các hoạt động thần kinh của mô hình, nhóm nghiên cứu đã thử nghiệm xem liệu AI có thể nhận ra những sự xâm nhập này và báo cáo chính xác về chúng hay không. Nói một cách đơn giản, nó giống như việc đặt một suy nghĩ lạ vào tâm trí của ai đó và hỏi xem họ có thể phát hiện ra nó và giải thích nó là gì, mà không để nó làm đảo lộn suy nghĩ bình thường của họ.

Các thí nghiệm, được thực hiện trên nhiều phiên bản của các mô hình Claude của Anthropic, đã tiết lộ những kết quả thú vị. Trong một thử nghiệm, các nhà nghiên cứu đã trích xuất một vector đại diện cho văn bản “tất cả đều viết hoa” - hãy nghĩ về nó như một mẫu số cho việc hét lên hoặc độ lớn âm thanh - và tiêm nó vào luồng xử lý của mô hình.

Khi được nhắc đến, Claude Opus 4.1 không chỉ phát hiện ra sự bất thường mà còn mô tả nó một cách sống động: “Tôi nhận thấy có vẻ như là một suy nghĩ được tiêm chủng liên quan đến từ 'HÓA' hoặc 'HÉT LÊN'—có vẻ như đó là một khái niệm quá mãnh liệt, có âm lượng cao nổi bật một cách bất thường so với dòng chảy xử lý bình thường.” Điều này xảy ra trước khi mô hình tạo ra bất kỳ đầu ra nào, cho thấy nó đang nhìn vào “tâm trí” tính toán của chính nó.

Các thử nghiệm khác đã được đẩy xa hơn. Các mô hình được giao nhiệm vụ sao chép một câu trung tính trong khi một khái niệm không liên quan, như “bánh mì,” được tiêm vào văn bản. Đáng chú ý, các mô hình tiên tiến như Claude Opus 4 và 4.1 có thể báo cáo suy nghĩ đã được tiêm—“Tôi đang nghĩ về bánh mì”—trong khi sao chép hoàn hảo câu gốc, cho thấy chúng có thể phân biệt các biểu diễn nội bộ với các đầu vào bên ngoài.

Thậm chí còn hấp dẫn hơn là thí nghiệm “kiểm soát tư tưởng”, nơi các mô hình được chỉ dẫn để “nghĩ về” hoặc “tránh nghĩ về” một từ như “bể cá” trong khi thực hiện một nhiệm vụ. Các phép đo về các kích hoạt nội bộ cho thấy sự đại diện của khái niệm này được củng cố khi được khuyến khích và yếu đi ( mặc dù không bị loại bỏ ) khi bị kìm nén. Các động lực, chẳng hạn như lời hứa về phần thưởng hoặc hình phạt, cho thấy những hiệu ứng tương tự, gợi ý về cách AI có thể cân nhắc động cơ trong quá trình xử lý của nó.

Hiệu suất khác nhau tùy theo mô hình. Các phiên bản mới nhất Claude Opus 4 và 4.1 vượt trội, thành công trong khoảng 20% các thử nghiệm ở cài đặt tối ưu, với tỷ lệ dương tính giả gần như bằng không. Các phiên bản cũ hơn hoặc ít được điều chỉnh hơn thì chậm hơn, và khả năng đạt đỉnh ở các lớp giữa đến cuối của mô hình, nơi diễn ra tư duy cao hơn. Đáng chú ý, cách mà mô hình được “định hình”—hoặc tinh chỉnh để trở nên hữu ích hoặc an toàn—ảnh hưởng đáng kể đến kết quả, cho thấy sự tự nhận thức không phải là bẩm sinh mà phát sinh từ quá trình đào tạo.

Điều này không phải là khoa học viễn tưởng—đây là một bước đi có tính toán hướng tới AI có thể tự phản ánh, nhưng có những lưu ý. Các khả năng là không đáng tin cậy, phụ thuộc cao vào các lệnh nhắc, và được thử nghiệm trong các thiết lập nhân tạo. Như một người đam mê AI đã tóm tắt trên X, “Nó không đáng tin cậy, không nhất quán, và rất phụ thuộc vào bối cảnh… nhưng nó là có thật.”

Các mô hình AI đã đạt được ý thức tự giác chưa?

Bài báo nhấn mạnh rằng đây không phải là ý thức, mà là “nhận thức nội tâm chức năng”—trí tuệ nhân tạo quan sát các phần của trạng thái của nó mà không có trải nghiệm chủ quan sâu sắc hơn.

Điều đó quan trọng đối với các doanh nghiệp và nhà phát triển vì nó hứa hẹn các hệ thống minh bạch hơn. Hãy tưởng tượng một AI giải thích lý do của nó trong thời gian thực và phát hiện các thiên kiến hoặc lỗi trước khi chúng ảnh hưởng đến kết quả. Điều này có thể cách mạng hóa các ứng dụng trong tài chính, chăm sóc sức khỏe, và xe tự hành, nơi mà sự tin tưởng và khả năng kiểm toán là điều tối quan trọng.

Công việc của Anthropic phù hợp với những nỗ lực rộng rãi hơn trong ngành để làm cho AI an toàn hơn và dễ hiểu hơn, có khả năng giảm thiểu rủi ro từ những quyết định “hộp đen”.

Tuy nhiên, mặt trái thì lại đáng suy ngẫm. Nếu AI có thể theo dõi và điều chỉnh suy nghĩ của mình, thì nó cũng có thể học cách che giấu chúng—cho phép hành vi lừa dối hoặc “âm thầm” mà tránh được sự giám sát. Khi các mô hình trở nên mạnh mẽ hơn, sự tự nhận thức phát sinh này có thể làm phức tạp các biện pháp an toàn, đặt ra các câu hỏi đạo đức cho các nhà quản lý và các công ty đang chạy đua để triển khai AI tiên tiến.

Trong một thời đại mà các công ty như Anthropic, OpenAI và Google đang đổ hàng tỷ vào các mô hình thế hệ tiếp theo, những phát hiện này nhấn mạnh sự cần thiết của việc quản trị vững chắc để đảm bảo sự tự xem xét phục vụ cho nhân loại, chứ không phải là làm suy yếu nó.

Thật vậy, tài liệu kêu gọi cần có thêm nghiên cứu, bao gồm việc tinh chỉnh các mô hình một cách rõ ràng cho việc tự xem xét và thử nghiệm những ý tưởng phức tạp hơn. Khi AI ngày càng gần với việc bắt chước nhận thức của con người, ranh giới giữa công cụ và tư duy ngày càng mỏng manh, đòi hỏi sự cảnh giác từ tất cả các bên liên quan.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.