Dòng tin

1 nội dung mới nhất
Tất cả
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·5 ngày trước
PRISM: Tiêu chuẩn Đánh giá Đa Chiều cho Các Công cụ Đánh giá Bài báo Dựa trên LLM
PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers
  • PRISM là framework đánh giá chất lượng review trên bốn chiều: độ sâu phân tích, tính mới, xác định lỗi và ưu tiên vấn đề quan trọng.
  • Dùng argument mining, retrieval-augmented verification và consensus-based scoring thay vì metric bề mặt như ROUGE hoặc BLEU.
  • LLM có thể ngang bằng hoặc vượt human reviewer trên từng chiều riêng lẻ nhưng không hệ thống nào khớp hiệu suất cân bằng của con người.
  • Mỗi hệ thống LLM có profil chuyên biệt riêng với những điểm mù đặc trưng mà metric tổng hợp bỏ lỡ.
  • LLM reviewer nên xem là bổ sung mục tiêu cho peer review con người, không phải thay thế độc lập.