Vào thời điểm mối quan tâm ngày càng tăng về vai trò tiềm năng của công nghệ trí tuệ nhân tạo (AI) trong y học và chăm sóc sức khỏe, một nghiên cứu mới được công bố trên Urology Practice cho thấy rằng chatbot ChatGPT đột phá hoạt động kém trên một công cụ tự đánh giá chuyên môn chính.

 

ChatGPT đạt tỷ lệ câu trả lời đúng dưới 30% trong Chương trình Nghiên cứu Tự Đánh giá về Tiết niệu (SASP) được sử dụng rộng rãi của AUA. Bác sĩ Christopher M. Deibert đến từ Trung tâm y tế Đại học Nebraska nhận xét: "ChatGPT không chỉ có tỷ lệ trả lời đúng thấp đối với các câu hỏi lâm sàng trong thực hành tiết niệu mà còn mắc một số loại lỗi nhất định có nguy cơ lan truyền thông tin sai lệch về y tế".

Những tiến bộ gần đây trong các mô hình ngôn ngữ lớn (LLM) tạo cơ hội để điều chỉnh công nghệ AI như một công cụ làm trung gian cho sự tương tác của con người. Các tác giả lưu ý: “Với việc đào tạo và ứng dụng đầy đủ, các hệ thống AI này có thể xử lý thông tin phức tạp, phân tích mối quan hệ giữa các ý tưởng và tạo ra các phản hồi mạch lạc cho một câu hỏi”.

Để tìm hiểu, Tiến sĩ Deibert và các đồng nghiệp đã đánh giá hiệu suất của ChatGPT trong Chương trình Nghiên cứu Tự Đánh giá (SASP) của AUA-một bài kiểm tra thực hành gồm 150 câu hỏi đề cập đến chương trình cốt lõi về kiến thức y khoa về tiết niệu. SASP là một bài kiểm tra kiến thức lâm sàng có giá trị dành cho các bác sĩ tiết niệu trong việc đào tạo và thực hành các chuyên gia chuẩn bị cho chứng chỉ của Hội đồng. Nghiên cứu đã loại trừ 15 câu hỏi có chứa thông tin trực quan như hình ảnh hoặc đồ thị.

Nhìn chung, ChatGPT đưa ra câu trả lời đúng cho dưới 30% câu hỏi SASP: 28,2% câu hỏi trắc nghiệm và 26,7% câu hỏi mở. Chatbot cung cấp câu trả lời "không xác định" cho một số câu hỏi. Đối với những câu hỏi này, độ chính xác đã giảm khi mô hình LLM được yêu cầu tạo lại câu trả lời của nó. Đối với hầu hết các câu hỏi mở, ChatGPT đã cung cấp giải thích cho câu trả lời đã chọn. Theo các tác giả, các giải thích do ChatGPT cung cấp dài hơn so với các giải thích do SASP cung cấp, nhưng "thường dư thừa và có tính chất chu kỳ".

Tiến sĩ Deibert nói rằng:"Nhìn chung, ChatGPT thường đưa ra những lời biện minh mơ hồ với những tuyên bố chung chung và hiếm khi bình luận về những chi tiết cụ thể. Ngay cả khi được phản hồi, ChatGPT vẫn liên tục nhắc lại lời giải thích ban đầu mặc dù nó không chính xác”.

Độ chính xác kém của ChatGPT trên SASP trái ngược với hiệu suất của nó trong USMLE và các kỳ thi cấp độ sau đại học khác. Các tác giả gợi ý rằng mặc dù ChatGPT có thể làm tốt các bài kiểm tra yêu cầu nhớ lại các sự kiện, nhưng nó dường như không đáp ứng được các câu hỏi liên quan đến y học lâm sàng, vốn yêu cầu "cân nhắc đồng thời nhiều sự kiện, tình huống và kết quả chồng chéo.

Tiến sĩ Deibert và các đồng nghiệp kết luận: “Do LLM bị hạn chế bởi quá trình đào tạo con người, nên cần nghiên cứu thêm để hiểu những hạn chế và khả năng của chúng trong nhiều lĩnh vực trước khi nó được cung cấp cho mục đích sử dụng chung. Như vậy, việc sử dụng ChatGPT trong khoa tiết niệu có nhiều khả năng tạo điều kiện cung cấp thông tin sai lệch về y tế cho người dùng chưa được đào tạo”.