Dòng tin

1 nội dung mới nhất
Tất cả
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·4 ngày trước
Phần thưởng Xác minh Ngoài Toán học và Mã: Giám sát Quá trình Dựa trên Kho ngữ liệu cho QA Có cơ sở
Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering
  • RL truyền thống cho QA gặp khó khăn thiết kế phần thưởng: reward cấp phản hồi quá coarse, không phân biệt được câu đúng/sai trong reasoning trace.
  • CorVer (Corpus Verify) thay thế neural verifiers bằng tín hiệu dựa trên thống kê đồng xuất hiện trong Wikipedia, giảm đáng kể chi phí triển khai.
  • Hệ thống chỉ cần extractor 0.5B và một lần lookup kho dữ liệu cho mỗi câu, train nhanh hơn 4.8-8.4x so với baseline neural verifier.
  • CorVer gán tín dụng cấp sentence-level và ánh xạ thành lợi thế cấp token, cải thiện hiệu suất trên mọi bài kiểm tra.