Dòng tin

1 nội dung mới nhất
Tất cả
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·4 ngày trước
UniSteer: Flow Matching Dẫn Hướng Bằng Văn Bản Cho LLM Steering Đa Năng
UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering
  • UniSteer là mô hình activation-based control học một conditional velocity field trong activation space từ điều kiện ngôn ngữ tự nhiên.
  • Thay vì tạo intervention riêng cho mỗi hành vi, UniSteer học một universal model hỗ trợ multiple behaviors từ một interface duy nhất.
  • Lúc inference, thực hiện flow inversion để vận chuyển activation theo hướng mục tiêu, hỗ trợ behavioral control, truthfulness steering, và concept steering.