Dòng tin
Tất cả
PRISM: Tiêu chuẩn Đánh giá Đa Chiều cho Các Công cụ Đánh giá Bài báo Dựa trên LLM
PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers
- ›PRISM là framework đánh giá chất lượng review trên bốn chiều: độ sâu phân tích, tính mới, xác định lỗi và ưu tiên vấn đề quan trọng.
- ›Dùng argument mining, retrieval-augmented verification và consensus-based scoring thay vì metric bề mặt như ROUGE hoặc BLEU.
- ›LLM có thể ngang bằng hoặc vượt human reviewer trên từng chiều riêng lẻ nhưng không hệ thống nào khớp hiệu suất cân bằng của con người.
- ›Mỗi hệ thống LLM có profil chuyên biệt riêng với những điểm mù đặc trưng mà metric tổng hợp bỏ lỡ.
- ›LLM reviewer nên xem là bổ sung mục tiêu cho peer review con người, không phải thay thế độc lập.