OpenAI hứa hẹn công bố kết quả kiểm tra an toàn AI thường xuyên hơn

“`html

OpenAI đang tiến tới công bố kết quả đánh giá an toàn mô hình AI nội bộ của mình thường xuyên hơn trong những gì mà tổ chức này cho là một nỗ lực tăng cường tính minh bạch.

Hôm thứ Tư, OpenAI đã ra mắt Trung tâm đánh giá an toàn, một trang web hiển thị điểm số của các mô hình của công ty trên các bài kiểm tra khác nhau về khả năng tạo nội dung có hại, bẻ khóa và ảo giác. OpenAI cho biết họ sẽ sử dụng trung tâm này để chia sẻ các số liệu trên cơ sở “liên tục” và có ý định cập nhật trung tâm này với “các bản cập nhật mô hình chính” trong tương lai.

OpenAI đã viết trong một bài đăng trên blog: “Khi khoa học đánh giá AI phát triển, chúng tôi mong muốn chia sẻ tiến trình của mình trong việc phát triển các cách có thể mở rộng hơn để đo lường khả năng và độ an toàn của mô hình”. “Bằng cách chia sẻ một tập hợp con các kết quả đánh giá an toàn của chúng tôi ở đây, chúng tôi hy vọng điều này sẽ không chỉ giúp bạn dễ dàng hiểu được hiệu suất an toàn của các hệ thống OpenAI theo thời gian mà còn hỗ trợ các nỗ lực của cộng đồng nhằm tăng cường tính minh bạch trong toàn lĩnh vực.”

OpenAI cho biết họ có thể thêm các đánh giá bổ sung vào trung tâm theo thời gian.

Trong những tháng gần đây, OpenAI đã làm dấy lên sự phẫn nộ của một số nhà đạo đức học vì được cho là đã đẩy nhanh quá trình kiểm tra an toàn của một số mô hình hàng đầu và không công bố các báo cáo kỹ thuật cho những mô hình khác. Giám đốc điều hành của công ty, Sam Altman, cũng bị cáo buộc đã đánh lừa các giám đốc điều hành OpenAI về các đánh giá an toàn mô hình trước khi ông bị sa thải một thời gian ngắn vào tháng 11 năm 2023.

Cuối tháng trước, OpenAI đã buộc phải thu hồi bản cập nhật cho mô hình mặc định cung cấp năng lượng cho ChatGPT, GPT-4o, sau khi người dùng bắt đầu báo cáo rằng nó phản hồi một cách quá xác nhận và dễ chịu. X đã tràn ngập ảnh chụp màn hình về ChatGPT hoan nghênh tất cả các loại quyết định và ý tưởng có vấn đề, nguy hiểm.

OpenAI cho biết họ sẽ thực hiện một số sửa chữa và thay đổi để ngăn chặn các sự cố như vậy trong tương lai, bao gồm giới thiệu “giai đoạn alpha” chọn tham gia cho một số mô hình cho phép một số người dùng ChatGPT nhất định kiểm tra các mô hình và đưa ra phản hồi trước khi ra mắt.

Theo TechCrunch

“`
AI