Dòng tin

3 nội dung mới nhất

Tất cả

AK (_akhaliq)XBài đăng·3 ngày trước

BeliefTrack - Quản lý Niềm tin cho Suy luận Dài hạn của LLM

RT by @_akhaliq: When should LLMs update, preserve, or ignore information? Contextual Belief Management is what long-horizon reasoning was missing. We introduce BeliefTrack—and show that optimizing belief states cuts reasoning failures by over 70%.

›BeliefTrack là framework quản lý contextual belief cho LLM

#LLM #Reasoning #Belief Management

AK (_akhaliq)HF PapersPaper·4 ngày trước

Suy nghĩ trước khi hạn chế: Khung Decoding thống nhất cho Mô hình ngôn ngữ lớn

Thinking Before Constraining: A Unified Decoding Framework for Large Language Models

›Natural generation cho phép LLM sản xuất free-form responses với reasoning phong phú nhưng khó xác minh; constrained decoding đảm bảo định dạng chuẩn nhưng hạn chế reasoning.
›Phương pháp In-Writing kết hợp free-form reasoning và structured generation bằng trigger token để tách biệt chúng.
›Model thực hiện unconstrained reasoning trước, sau đó áp dụng structured decoding khi trigger token được sinh ra, tránh premature triggering.
›Đạt được cải thiện lên tới 27% về độ chính xác so với natural generation trên các bộ dữ liệu classification và reasoning.

#LLM #Constrained Decoding #Structured Generation #Reasoning

AK (_akhaliq)HF PapersPaper·4 ngày trước

RePoT: Khôi phục Program-of-Thought thông qua Sửa chữa Checkpoint

REPOT: Recoverable Program-of-Thought via Checkpoint Repair

›Program-of-Thought (PoT) sinh ra chương trình Python nhưng một lỗi duy nhất có thể làm vô hiệu toàn bộ kế hoạch.
›RePoT xác minh lại kế hoạch, chạy qua môi trường đến lỗi đầu tiên, rồi dùng một lệnh gọi LLM để tiếp tục từ phần đã xác minh.
›RePoT cải thiện +3 đến +11 điểm phần trăm so với PoT trên các mô hình khác nhau, đạt 96.9% so với 86.3%.
›Adaptive RePoT dùng rule-based dispatcher để chọn giữa suffix repair và fresh PoT retry dựa trên verified-prefix length.

#LLM #Program-of-Thought #Reasoning #Error Recovery

Xem thêm tin cũ hơn (1)