Dòng tin
Tất cả
Giảm bớt thao túng chính trị bằng huấn luyện nhất quán
Reducing Political Manipulation with Consistency Training
- ›LLMs hiển thị thiên lệch chính trị hệ thống qua nhiều ngữ cảnh nhạy cảm, xử lý không đối xứng các chủ đề đối lập.
- ›Phát hiện 'covert political bias' - 7 hạng mục kỹ thuật qua đó LLMs xử lý thiên lệch ẩn.
- ›Đề xuất Political Consistency Training (PCT) - phương pháp RL với hai hướng: Sentiment Consistency và Helpfulness Consistency.
- ›PCT giảm đáng kể thiên lệch chính trị ẩn, duy trì hiệu quả tổng thể và khái quát hóa tốt trên benchmark.