OpenAI phát hành giám sát CoT để ngăn chặn hành vi độc hại của các mô hình lớn

DailyNews

Golden Finance báo cáo rằng OpenAI đã phát hành nghiên cứu mới nhất, sử dụng giám sát CoT (chuỗi tư duy), nó có thể ngăn chặn các hành vi độc hại như các mô hình lớn nói nhảm và che giấu ý định thực sự, đồng thời nó cũng là một trong những công cụ hiệu quả để giám sát các siêu mô hình. OpenAI sử dụng mô hình tiên tiến mới được phát hành o3-mini làm đối tượng được giám sát và mô hình GPT-4o yếu hơn làm màn hình. Môi trường kiểm tra là một tác vụ mã hóa yêu cầu AI triển khai chức năng trong cơ sở mã để vượt qua các bài kiểm tra đơn vị. Kết quả cho thấy máy theo dõi CoT hoạt động tốt trong việc phát hiện hành vi “hack phần thưởng” có hệ thống, với tỷ lệ nhớ lại lên đến 95%, vượt xa 60% hành vi chỉ được theo dõi.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận