Dòng tin
Tất cả
UniSteer: Flow Matching Dẫn Hướng Bằng Văn Bản Cho LLM Steering Đa Năng
UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering
- ›UniSteer là mô hình activation-based control học một conditional velocity field trong activation space từ điều kiện ngôn ngữ tự nhiên.
- ›Thay vì tạo intervention riêng cho mỗi hành vi, UniSteer học một universal model hỗ trợ multiple behaviors từ một interface duy nhất.
- ›Lúc inference, thực hiện flow inversion để vận chuyển activation theo hướng mục tiêu, hỗ trợ behavioral control, truthfulness steering, và concept steering.