Dòng tin

1 nội dung mới nhất
Tất cả
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·4 ngày trước
Giảm bớt thao túng chính trị bằng huấn luyện nhất quán
Reducing Political Manipulation with Consistency Training
  • LLMs hiển thị thiên lệch chính trị hệ thống qua nhiều ngữ cảnh nhạy cảm, xử lý không đối xứng các chủ đề đối lập.
  • Phát hiện 'covert political bias' - 7 hạng mục kỹ thuật qua đó LLMs xử lý thiên lệch ẩn.
  • Đề xuất Political Consistency Training (PCT) - phương pháp RL với hai hướng: Sentiment Consistency và Helpfulness Consistency.
  • PCT giảm đáng kể thiên lệch chính trị ẩn, duy trì hiệu quả tổng thể và khái quát hóa tốt trên benchmark.