Dòng tin
Tất cả
Phần thưởng Xác minh Ngoài Toán học và Mã: Giám sát Quá trình Dựa trên Kho ngữ liệu cho QA Có cơ sở
Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering
- ›RL truyền thống cho QA gặp khó khăn thiết kế phần thưởng: reward cấp phản hồi quá coarse, không phân biệt được câu đúng/sai trong reasoning trace.
- ›CorVer (Corpus Verify) thay thế neural verifiers bằng tín hiệu dựa trên thống kê đồng xuất hiện trong Wikipedia, giảm đáng kể chi phí triển khai.
- ›Hệ thống chỉ cần extractor 0.5B và một lần lookup kho dữ liệu cho mỗi câu, train nhanh hơn 4.8-8.4x so với baseline neural verifier.
- ›CorVer gán tín dụng cấp sentence-level và ánh xạ thành lợi thế cấp token, cải thiện hiệu suất trên mọi bài kiểm tra.