Dòng tin

3 nội dung mới nhất
Tất cả
AK (_akhaliq)
AK (_akhaliq)XBài đăng·3 ngày trước
BeliefTrack - Quản lý Niềm tin cho Suy luận Dài hạn của LLM
RT by @_akhaliq: When should LLMs update, preserve, or ignore information? Contextual Belief Management is what long-horizon reasoning was missing. We introduce BeliefTrack—and show that optimizing belief states cuts reasoning failures by over 70%.
  • BeliefTrack là framework quản lý contextual belief cho LLM
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·4 ngày trước
Suy nghĩ trước khi hạn chế: Khung Decoding thống nhất cho Mô hình ngôn ngữ lớn
Thinking Before Constraining: A Unified Decoding Framework for Large Language Models
  • Natural generation cho phép LLM sản xuất free-form responses với reasoning phong phú nhưng khó xác minh; constrained decoding đảm bảo định dạng chuẩn nhưng hạn chế reasoning.
  • Phương pháp In-Writing kết hợp free-form reasoning và structured generation bằng trigger token để tách biệt chúng.
  • Model thực hiện unconstrained reasoning trước, sau đó áp dụng structured decoding khi trigger token được sinh ra, tránh premature triggering.
  • Đạt được cải thiện lên tới 27% về độ chính xác so với natural generation trên các bộ dữ liệu classification và reasoning.
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·4 ngày trước
RePoT: Khôi phục Program-of-Thought thông qua Sửa chữa Checkpoint
REPOT: Recoverable Program-of-Thought via Checkpoint Repair
  • Program-of-Thought (PoT) sinh ra chương trình Python nhưng một lỗi duy nhất có thể làm vô hiệu toàn bộ kế hoạch.
  • RePoT xác minh lại kế hoạch, chạy qua môi trường đến lỗi đầu tiên, rồi dùng một lệnh gọi LLM để tiếp tục từ phần đã xác minh.
  • RePoT cải thiện +3 đến +11 điểm phần trăm so với PoT trên các mô hình khác nhau, đạt 96.9% so với 86.3%.
  • Adaptive RePoT dùng rule-based dispatcher để chọn giữa suffix repair và fresh PoT retry dựa trên verified-prefix length.