Trong bối cảnh trí tuệ nhân tạo đang ngày càng được ứng dụng mạnh mẽ vào giáo dục, các Mô hình Ngôn ngữ Lớn (LLMs) – dù rất thông minh – vẫn tồn tại những hạn chế đáng kể khi xử lý câu hỏi trắc nghiệm. Từ phát hiện này, nhóm nghiên cứu trong đó có TS Vũ Đức Lý – Giảng viên khoa Công nghệ thông tin EIU là một trong các tác giả chính, đã đề xuất một phương pháp Single-Token Logit (STL), giúp AI đánh giá từng phương án độc lập, qua đó cải thiện đáng kể độ chính xác và mở ra hướng ứng dụng thực tiễn hơn cho AI trong giáo dục.
Công trình nghiên cứu với tiêu đề “Nâng cao khả năng trả lời câu hỏi trắc nghiệm tự động của mô hình ngôn ngữ lớn bằng kỹ thuật nhắc lệnh Single-Token Logit” vừa được đăng trên tạp chí Computers and Education: Artificial Intelligence – thuộc Nhà xuất bản Elsevier, hiện xếp hạng Q1, đồng thời ở vị trí số 1 trong lĩnh vực Trí tuệ nhân tạo và số 2 trong lĩnh vực Giáo dục theo SCImago.
Nội dung bài nghiên cứu được tóm tắt như sau:
Mặc dù các Mô hình Ngôn ngữ Lớn (LLMs) mang lại tiềm năng đáng kể cho các ứng dụng giáo dục, chúng vẫn bộc lộ những hạn chế rõ rệt khi trả lời các câu hỏi trắc nghiệm (MCQs). Do các LLM được tối ưu hóa cho việc dự đoán token tự hồi quy (autoregressive), hiệu suất của chúng giảm sút đáng kể khi các lựa chọn đáp án bị xáo trộn vị trí — một hiện tượng được gọi là hạn chế Liên kết Biểu tượng Trắc nghiệm (MCSB).
Để giảm thiểu vấn đề này, chúng tôi giới thiệu một kỹ thuật gợi ý (prompting) mới có tên là Single-Token Logit (STL). Thay vì đánh giá giá trị logit đầu ra của tất cả các nhãn đáp án, STL trích xuất và chuẩn hóa giá trị logit của một loại token duy nhất (cụ thể là “yes”) để xác minh độc lập từng phương án.
Nhóm nghiên cứu đã đánh giá toàn diện STL so với các phương pháp cơ sở (baselines) đã được thiết lập, bao gồm Labels Token Logits (LTL) và Chain-of-Thought (CoT), trên các bộ dữ liệu ARC, OpenBookQA và SciQ. Kết quả nghiên cứu cho thấy:
- Hiệu suất vượt trội: Trong hầu hết các cấu hình, STL tương đương hoặc vượt xa phương pháp cơ sở tiêu chuẩn (LTL) – đạt mức tăng trưởng lên đến 11 phần trăm.
- Chi phí vận hành hợp lý: Duy trì mức tăng nhẹ về tài nguyên tính toán (độ trễ và bộ nhớ GPU so với LTL).
- Độ tin cậy thống kê: Kiểm định McNemar trên từng mẫu ($p < 0.05$) xác nhận STL ưu việt hơn về mặt thống kê so với LTL và có khả năng cạnh tranh cao với phương pháp CoT vốn tốn kém về mặt tính toán.
- Tính ứng dụng cao: Cuối cùng, nhóm nghiên cứu chứng minh tính bền vững của STL trong các môi trường thâm dụng tri thức bằng cách tích hợp nó với Retrieval-Augmented Generation (RAG). Tại đây, phương pháp này đạt độ chính xác lên tới 81,06% trên bộ dữ liệu ARC tổng hợp với mô hình Mistral 7B – tăng 9,36 phần trăm so với mức cơ sở không có ngữ cảnh ban đầu (LTL) là 71,7%.
TS Vũ Đức Lý – Giảng viên Khoa Công nghệ thông tin EIU
Chia sẻ về công trình nghiên cứu này, TS Vũ Đức Lý cho biết thêm:
Công trình nghiên cứu này là một kết quả vượt ngoài mong đợi của nhóm tác giả, đánh dấu một bước tiến đáng kể trong việc ứng dụng AI vào giáo dục. Bài báo được công bố trên tạp chí truy cập mở thuộc Nhà xuất bản Elsevier, hiện xếp hạng Q1, dẫn đầu lĩnh vực Giáo dục, đồng thời nằm trong top 5 của lĩnh vực Khoa học máy tính ứng dụng và Trí tuệ nhân tạo theo SCImago.
Đặc biệt, đây còn là thành quả của sự hợp tác và kết nối hiệu quả giữa các nhà nghiên cứu tại Trường Đại học Quốc tế Miền Đông và Trường Đại học Bách Khoa Thành phố Hồ Chí Minh. Thành công này không chỉ khẳng định năng lực nghiên cứu mà còn mở ra kỳ vọng về việc thúc đẩy mạnh mẽ hơn nữa các hoạt động hợp tác khoa học trong tương lai.
