Nếu bạn không phải là người nói tiếng Anh bản ngữ, có lẽ bạn sẽ đồng ý rằng các mô hình ngôn ngữ lớn (LLM), tức là công nghệ đằng sau các chatbot AI hiện đại, thường hoạt động tốt hơn nhiều bằng tiếng Anh so với ngôn ngữ mẹ đẻ của bạn.
Sự khác biệt này đôi khi nhỏ, nhưng cũng có lúc rất đáng kể. Thậm chí, một nghiên cứu năm 2023 từ Carnegie Mellon đã chỉ ra rằng việc nhập liệu bằng ngôn ngữ khác tiếng Anh có thể dễ dàng vượt qua các bộ lọc an toàn của AI, gây ra những rủi ro tiềm ẩn.
Apple, cùng với các nhà nghiên cứu từ Inria Paris, École Polytechnique, và Đại học Sapienza ở Rome, vừa công bố một nghiên cứu mới đề xuất phương pháp giúp thu hẹp khoảng cách này.
Theo giải thích từ Apple:
Các mô hình ngôn ngữ lớn hiện nay chủ yếu được thiết kế với tiếng Anh là ngôn ngữ chính. Ngay cả một số mô hình đa ngôn ngữ cũng có xu hướng thiên vị mạnh mẽ theo hướng tiếng Anh.
Tương tự như người học ngoại ngữ có thể tạo ra những cách diễn đạt gượng ép, LLM thường tạo ra đầu ra không tự nhiên bằng ngôn ngữ khác tiếng Anh, phản ánh các mẫu ngữ pháp và từ vựng tập trung vào tiếng Anh.
Nói cách khác, ngay cả khi AI tạo ra văn bản bằng tiếng Trung hay tiếng Pháp, chúng vẫn đang “suy nghĩ” theo cấu trúc và từ vựng của tiếng Anh. Điều này dẫn đến kết quả là văn bản ở các ngôn ngữ khác nghe vẫn “khác” hoặc không tự nhiên như người bản ngữ viết.
Giải pháp được Apple đề xuất
Để khắc phục, Apple đã huấn luyện một mô hình AI để ưu tiên các cách diễn đạt tự nhiên thay vì gượng ép. Họ sử dụng một phương pháp khá thông minh: thay vì thu thập thủ công các ví dụ không tự nhiên, họ tự động tạo ra chúng bằng cách dịch ngược.
Ví dụ, một câu trả lời tự nhiên bằng tiếng Trung do người bản ngữ viết sẽ được dịch sang tiếng Anh, rồi dịch ngược lại sang tiếng Trung. Quá trình này thường tạo ra những cấu trúc hoặc từ ngữ “lai căng”, không hoàn toàn tự nhiên, được gọi là “translationese”. Những văn bản bị “biến đổi” này được dùng làm ví dụ tiêu cực, trong khi văn bản gốc tự nhiên là ví dụ tích cực.
Bằng cách huấn luyện mô hình để chọn phiên bản tự nhiên hơn, Apple đã cải thiện đáng kể cả việc chọn từ vựng lẫn ngữ pháp, mà không làm giảm hiệu suất chung của mô hình trên các bài kiểm tra chuẩn.
Điều này cho thấy một bước tiến quan trọng trong việc làm cho AI trở nên hữu ích và tự nhiên hơn cho người dùng trên toàn thế giới, không chỉ riêng những người nói tiếng Anh.
(Theo tin từ 9to5Mac ngày 16/05/2025)