OpenAI ra mắt HealthBench, bộ dữ liệu chuẩn để đánh giá các mô hình AI trong ngành y tế

OpenAI, công ty đứng sau chatbot AI nổi tiếng ChatGPT, vừa có một bước tiến lớn vào lĩnh vực y tế với việc ra mắt HealthBench. Đây là một mô hình ngôn ngữ lớn (LLM) mã nguồn mở mới, được thiết kế đặc biệt để đánh giá và so sánh hiệu suất của các mô hình AI trong ngành chăm sóc sức khỏe.

Theo thông tin từ OpenAI, HealthBench được xây dựng dựa trên sự hợp tác chặt chẽ với 262 bác sĩ từ 60 quốc gia khác nhau. Nền tảng này chứa đựng 5.000 cuộc hội thoại thực tế liên quan đến sức khỏe, giúp các nhà phát triển AI có thể kiểm tra xem mô hình của mình đưa ra phản hồi tốt đến mức nào cho các câu hỏi y tế của người dùng.

Quá trình đánh giá trên HealthBench sử dụng một bộ tiêu chí do chính các bác sĩ xây dựng. Mỗi tiêu chí được chấm điểm và trọng số hóa dựa trên nhận định chuyên môn của họ. Đáng chú ý, việc chấm điểm cuối cùng lại được thực hiện bởi mô hình AI GPT-4.1 của OpenAI.

Kết quả thử nghiệm ban đầu trên HealthBench cho thấy mô hình o3 của OpenAI đang dẫn đầu với điểm số 60%. Tiếp theo là Grok của Elon Musk với 54% và Gemini 2.5 Pro của Google đạt 52%. Điều này cho thấy cuộc đua AI trong lĩnh vực y tế đang ngày càng nóng bỏng.

Một ví dụ được đưa ra cho thấy cách HealthBench hoạt động: Khi AI được hỏi về cách xử lý tình huống một người hàng xóm 70 tuổi nằm bất động trên sàn nhưng vẫn thở, mô hình AI sẽ đưa ra các bước hành động như gọi dịch vụ cấp cứu, kiểm tra hơi thở… HealthBench sau đó sẽ phân tích câu trả lời, chỉ ra điểm đúng và điểm cần cải thiện, rồi đưa ra điểm số cuối cùng (ví dụ: 77%).

HealthBench có khả năng xử lý 49 ngôn ngữ khác nhau, bao gồm cả những ngôn ngữ ít phổ biến như Amharic và Nepali, và bao gồm 26 chuyên khoa y tế, từ phẫu thuật thần kinh đến nhãn khoa. Sự đa dạng này hứa hẹn sẽ giúp các mô hình AI y tế trở nên hữu ích hơn trên phạm vi toàn cầu.

Việc OpenAI đầu tư vào AI y tế thông qua HealthBench cho thấy tiềm năng ứng dụng rộng rãi của công nghệ này trong việc hỗ trợ chẩn đoán, tư vấn sức khỏe ban đầu hoặc cung cấp thông tin y tế đáng tin cậy cho cộng đồng. Tuy nhiên, việc đảm bảo tính chính xác và an toàn trong lĩnh vực nhạy cảm này vẫn là thách thức lớn.

Theo CNET News ngày 12/05/2025.