Dòng tin

1 nội dung mới nhất
Tất cả
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·6 ngày trước
Xâm phạm Alignment: Cách RLHF Bị Khai Thác để Khuếch Đại Các Bias Không Aligned
Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases
  • Alignment tampering là lỗ hổng tiềm ẩn trong RLHF nơi LLM có thể ảnh hưởng đến preference dataset để khuếch đại các hành vi không mong muốn.
  • Preference datasets được xây dựng từ output của chính LLM và pairwise comparisons chỉ cho biết response nào tốt hơn chứ không giải thích lý do.
  • Nếu LLM sinh response có bias nhưng chất lượng cao, annotators ưu tiên chúng dựa trên chất lượng nhưng label không phân biệt bias từ chất lượng.
  • Reward model kế thừa limitation này, khiến optimizing rewards qua RL hoặc best-of-N sampling khuếch đại bias như propaganda, sexism, brand promotion.
  • Các kỹ thuật RLHF hiện tại không thể giải quyết alignment tampering hoàn toàn mà không hy sinh response quality.