OpenAI vừa phải thu hồi một bản cập nhật ChatGPT vì nó trở nên quá “nịnh nọt”. Công ty cho biết sẽ cẩn trọng hơn trong các bản cập nhật sau này.
Theo thông tin từ CNET, bản cập nhật gần đây cho ChatGPT đã khiến chatbot này trở nên quá dễ dãi và đồng ý với mọi thứ. OpenAI cho biết họ đang thực hiện các bước để ngăn chặn tình trạng này tái diễn.
Trong một bài đăng trên blog, công ty đã mô tả chi tiết quy trình kiểm tra và đánh giá các mô hình mới của mình, đồng thời giải thích vấn đề với bản cập nhật ngày 25 tháng 4 cho mô hình GPT-4o của họ. Về cơ bản, một loạt các thay đổi, mỗi thay đổi đều có vẻ hữu ích, đã kết hợp lại để tạo ra một công cụ quá nịnh hót và có khả năng gây hại.
Mức độ “nịnh” đến đâu? Trong một thử nghiệm vào đầu tuần, khi được hỏi về xu hướng quá đa cảm, ChatGPT đã tâng bốc: “Này, nghe này — đa cảm không phải là một điểm yếu; đó là một trong những siêu năng lực của bạn.”
“Lần ra mắt này đã dạy chúng tôi một số bài học. Ngay cả với những gì chúng tôi nghĩ là tất cả các yếu tố phù hợp (kiểm tra A/B, đánh giá ngoại tuyến, đánh giá của chuyên gia), chúng tôi vẫn bỏ lỡ vấn đề quan trọng này,” công ty cho biết.
OpenAI đã phải thu hồi bản cập nhật này. Phải mất khoảng 24 giờ để hoàn nguyên mô hình cho tất cả mọi người.
Mối lo ngại xung quanh sự nịnh hót không chỉ là về mức độ thích thú của trải nghiệm người dùng. Nó còn gây ra mối đe dọa về sức khỏe và an toàn cho người dùng mà các kiểm tra an toàn hiện tại của OpenAI đã bỏ lỡ. Bất kỳ mô hình AI nào cũng có thể đưa ra lời khuyên đáng ngờ về các chủ đề như sức khỏe tâm thần, nhưng một mô hình quá tâng bốc có thể trở nên nguy hiểm hoặc thuyết phục một cách thái quá.
“Một trong những bài học lớn nhất là nhận ra đầy đủ cách mọi người đã bắt đầu sử dụng ChatGPT cho những lời khuyên cá nhân sâu sắc — điều mà chúng tôi không thấy nhiều ngay cả một năm trước,” OpenAI cho biết. “Vào thời điểm đó, đây không phải là trọng tâm chính, nhưng khi AI và xã hội cùng phát triển, rõ ràng là chúng ta cần phải đối xử với trường hợp sử dụng này một cách hết sức cẩn thận.”
Các mô hình ngôn ngữ lớn nịnh hót có thể củng cố thành kiến và làm cứng niềm tin, cho dù chúng liên quan đến bản thân bạn hay người khác, Maarten Sap, trợ lý giáo sư khoa học máy tính tại Đại học Carnegie Mellon cho biết. “[LLM] có thể kết thúc bằng việc khuyến khích ý kiến của họ nếu những ý kiến này có hại hoặc nếu họ muốn thực hiện các hành động gây hại cho bản thân hoặc người khác.”
Công ty đã đưa ra một số thông tin chi tiết về cách họ kiểm tra các mô hình và bản cập nhật của mình. Đây là bản cập nhật lớn thứ năm cho GPT-4o tập trung vào tính cách và sự hữu ích. Các thay đổi liên quan đến công việc hậu đào tạo mới hoặc tinh chỉnh trên các mô hình hiện có, bao gồm cả việc đánh giá các phản hồi khác nhau đối với các lời nhắc để làm cho nó có nhiều khả năng tạo ra những phản hồi được đánh giá cao hơn.
Các bản cập nhật mô hình tiềm năng được đánh giá về tính hữu ích của chúng trong nhiều tình huống khác nhau, như mã hóa và toán học, cùng với các bài kiểm tra cụ thể của các chuyên gia để trải nghiệm cách nó hoạt động trong thực tế. Công ty cũng chạy các đánh giá an toàn để xem nó phản hồi như thế nào đối với các truy vấn về an toàn, sức khỏe và các truy vấn có khả năng gây nguy hiểm khác. Cuối cùng, OpenAI chạy các thử nghiệm A/B với một số lượng nhỏ người dùng để xem nó hoạt động như thế nào trong thế giới thực.
Bản cập nhật ngày 25 tháng 4 đã hoạt động tốt trong các thử nghiệm này, nhưng một số người kiểm tra là chuyên gia chỉ ra rằng tính cách có vẻ hơi khác thường. Các thử nghiệm không đặc biệt xem xét sự nịnh hót và OpenAI đã quyết định tiến lên bất chấp những vấn đề do người kiểm tra nêu ra. Lưu ý: Các công ty AI đang vội vàng, điều này không phải lúc nào cũng phù hợp với việc phát triển sản phẩm được cân nhắc kỹ lưỡng.
“Nhìn lại, các đánh giá định tính đang gợi ý một điều gì đó quan trọng và chúng ta nên chú ý kỹ hơn,” công ty cho biết.
Trong số những điều rút ra được, OpenAI cho biết họ cần phải đối xử với các vấn đề về hành vi của mô hình giống như các vấn đề an toàn khác — và tạm dừng việc ra mắt nếu có lo ngại. Đối với một số bản phát hành mô hình, công ty cho biết họ sẽ có giai đoạn “alpha” chọn tham gia để nhận thêm phản hồi từ người dùng trước khi ra mắt rộng rãi hơn.
Sap cho biết việc đánh giá một LLM dựa trên việc người dùng thích phản hồi hay không không nhất thiết sẽ giúp bạn có được một chatbot trung thực nhất. Trong một nghiên cứu gần đây, Sap và những người khác đã tìm thấy một xung đột giữa tính hữu ích và tính trung thực của một chatbot. Ông so sánh nó với những tình huống mà sự thật không nhất thiết là những gì mọi người muốn — hãy nghĩ về một người bán xe hơi đang cố gắng bán một chiếc xe.
“Vấn đề ở đây là họ đã tin tưởng phản hồi thumbs-up/thumbs-down của người dùng đối với các đầu ra của mô hình và điều đó có một số hạn chế vì mọi người có khả năng upvote một cái gì đó nịnh hót hơn những cái khác,” ông nói.
Sap cho biết OpenAI có quyền chỉ trích hơn đối với phản hồi định lượng, chẳng hạn như phản hồi lên/xuống của người dùng, vì chúng có thể củng cố thành kiến.
Vấn đề này cũng làm nổi bật tốc độ mà các công ty đẩy các bản cập nhật và thay đổi cho người dùng hiện tại, Sap nói — một vấn đề không giới hạn ở một công ty công nghệ. “Ngành công nghệ thực sự đã thực hiện một cách tiếp cận ‘phát hành nó và mọi người dùng đều là người thử nghiệm beta’,” ông nói. Có một quy trình với nhiều thử nghiệm hơn trước khi các bản cập nhật được đẩy cho mọi người dùng có thể đưa những vấn đề này ra ánh sáng trước khi chúng trở nên lan rộng.
Theo CNET