Dòng tin
Bản tin hôm nay
🤖 Bản tin AI Hằng ngày: Cân bằng giữa Đột phá và Kiểm soát
Thứ Ba 16 Th6, 2026 · 94 nội dung
⚖️ Chính sách & Tranh luận
- ›Chuyên gia Simon Willison chỉ trích lệnh cấm xuất khẩu mô hình Fable có thể gây hại cho phòng thủ mạng, trong khi Clement Delangue nhấn mạnh mã nguồn mở là chìa khóa để doanh nghiệp không bị "khóa chặt" vào các nhà cung cấp độc quyền.
🧬 Đột phá Công nghệ & Mô hình Mới
- ›Radical Numerics gọi vốn 50 triệu USD ra mắt mô hình ngôn ngữ hệ gen Omnii, trong khi Cartesia tung ra Sonic-3.5 với chất lượng giọng nói khó phân biệt với người thật, đặt ra thách thức lớn cho các tổng đài truyền thống.
💻 Tư duy Lập trình & AI Agents
- ›swyx dự đoán quy trình review code truyền thống sẽ biến mất vào năm 2026, thay vào đó là sự lên ngôi của các "harness" (khung làm việc) thông minh. Bài học rút ra: Đừng chỉ dùng API trần, hãy học cách xây dựng hệ thống bao bọc (scaffolding) để tối ưu hóa sức mạnh thực sự của mô hình.
🌍 Tầm nhìn Tương lai & Đạo đức
- ›Fei-Fei Li nhấn mạnh tương lai AI phải dựa trên quyền tự chủ và sự thấu hiểu của con người qua các "world models". Đồng thời, François Chollet cảnh báo rằng thiếu các benchmark tiêu chuẩn hóa sẽ khiến ngành AI dễ bị tổn thương trước các quy định tùy tiện của chính phủ.
Tất cả
Benchmark 7 mô hình frontier trên tác vụ tự động nghiên cứu
- ›So sánh hiệu suất 7 mô hình frontier trên 3 loại tác vụ tự động nghiên cứu: ML engineering, harness/prompt engineering, và algorithmic discovery
NVIDIA dẫn đầu benchmark agentic AI đầu tiên về mã hóa (AA-AgentPerf)
- ›Artificial Analysis vừa công bố AA-AgentPerf, benchmark mã hóa agentic đầu tiên của ngành, được thiết kế cho nhiều nhà cung cấp.
- ›NVIDIA đạt hiệu suất hàng đầu trên benchmark này.
- ›AA-AgentPerf đo lường cách các hệ thống suy luận hoạt động dưới các điều kiện của các tác vụ mã hóa AI agent thực tế, xử lý độ phức tạp suy luận cao.
- ›Benchmark này giải quyết khoảng trống lâu dài trong ngành về cách đo lường hiệu suất của các hệ thống agent AI.
Vấn đề cơ bản trong đánh giá AI: Ưu thế không công khai của API Closed-source
- ›Các bài benchmark AI có khuynh hướng ưu tiên API closed-source vì chúng có thể thực hiện routing, fallback, ensemble và tối ưu hóa hậu trường mà không công khai
TRL-Bench - Tiêu chuẩn hóa đánh giá biểu diễn của các bộ mã hóa dữ liệu bảng
- ›TRL-Bench là một công trình về tiêu chuẩn hóa đánh giá (cross-paradigm evaluation) ở mức độ biểu diễn (representation-level) cho các bộ mã hóa dữ liệu bảng (tabular encoders).
Xem trang benchmark cho Gemini Omni
- ›Gợi ý xem trang benchmark chính thức của Gemini Omni để kiểm tra hiệu suất của mô hình
Gemini Omni Flash đạt vị trí số 1 trong Video Arena
- ›Gemini Omni Flash trở thành model hàng đầu trong Video Arena cho cả Text-to-Video và Image-to-Video
TRL-Bench: Chuẩn hóa Đánh giá Biểu diễn Bộ Mã hóa Dữ liệu Bảng Trên Nhiều Paradigm
- ›TRL-Bench là một công cụ benchmark để chuẩn hóa đánh giá các bộ mã hóa dữ liệu bảng ở cấp độ biểu diễn (representation-level)
Microsoft Research giới thiệu Arbor - Agent tự động suy luận
- ›Arbor là một autonomous research agent tổng quát sử dụng persistent hypothesis-tree refinement
EvoBrowseComp: Đánh Giá Các Tác Nhân Tìm Kiếm trên Kiến Thức Động Tiến Hóa
- ›Giới thiệu EvoBrowseComp, benchmark tiến hóa với 400 câu hỏi tiếng Anh và 400 tiếng Trung không bị nhiễm dữ liệu, giải quyết vấn đề test-set contamination và parametric memorization của các benchmark tĩnh
- ›Thiết kế framework ba agent cộng tác: (1) QA synthesis agent lấy kiến thức tươi từ web sống, (2) information filtering agent lọc theo độ tin cậy và phổ biến để chặn shortcut, (3) guidance agent hình thức hoá câu hỏi thành reasoning graphs
- ›Framework hỗ trợ tổng hợp hoàn toàn tự động, cho phép cập nhật định kỳ để ngăn chặn nhiễm dữ liệu và duy trì temporal freshness
- ›Benchmark yêu cầu tìm kiếm ngang rộng (broad horizontal search) với độ khó cao
- ›Thiết lập mô hình có thể mở rộng cho auto-updatable, high-difficulty benchmarking, kịp theo kiến thức thế giới tiến hóa và khả năng agent cải tiến
Cohere Transcribe dẫn đầu benchmark Far-Field ASR của Hugging Face
- ›Cohere công bố Transcribe, mô hình nhận dạng giọng nói (ASR) mã nguồn mở
Claw-SWE-Bench: Benchmark Đánh Giá OpenClaw-style Agent Harnesses Trên Coding Tasks
- ›Các general-purpose agents như OpenClaw ngày càng được dùng làm autonomous tool users, nhưng khó đo lường coding ability trên SWE-bench vì generic agent không thỏa mãn Docker workspace, patch, và prediction contract yêu cầu
- ›Giới thiệu Claw-SWE-Bench: multilingual SWE-bench-style benchmark và adapter protocol để so sánh heterogeneous agent harnesses dưới cài đặt công bằng (fixed prompt, runtime budget, workspace contract, patch extraction procedure, evaluator)
- ›Full benchmark: 350 GitHub issue-resolution instances trên 8 languages và 43 repositories từ SWE-bench-Multilingual và SWE-bench-Verified-Mini; cũng phát hành Claw-SWE-Bench Lite (80 instances) cho validation nhanh
- ›OpenClaw với minimal direct-diff adapter: 19.1% Pass@1; full adapter: 73.4% Pass@1 (cùng GLM 5.1 backbone), cho thấy adapter design thiết yếu cho OpenClaw-style harnesses thực hiện coding tasks
- ›Trên full benchmark: model choice thay đổi Pass@1 29.4pp, harness choice 27.4pp; các hệ thống có accuracy tương tự có thể khác nhau đáng kể về tổng API cost
- ›Claw-SWE-Bench xem harness và cost accounting là first-class axes của SWE-style evaluation, cung cấp cả full benchmark lẫn low-cost reference set cho reproducible comparison
Mô hình mã nguồn mở 4B vượt mặt Mythos 5 trên benchmark CharXiv
- ›Trên paperswithcode.co, một mô hình mã nguồn mở 4B đã vượt mặt Mythos 5 trong benchmark CharXiv - một benchmark phổ biến để đánh giá khả năng hiểu biểu đồ.
Phân tích FrontierCode: 3 era của AI coding và 'vibe shift' tháng 12 2025
- ›METR phát hiện hơn 50% kết quả SWEBench là mã chất lượng thấp không thể merge
FC Diamond: Sự tăng vọt lớn và Fable là class mô hình hoàn toàn mới
- ›Kết quả FC Diamond cho thấy mức độ tăng vọt lớn hơn các biểu đồ chính thức, phá vỡ các curve fit truyền thống
Claude Fable 5: Bước tiến lớn với hiệu suất SOTA trên mọi benchmark
- ›Claude Fable 5 dùng cùng mô hình cơ bản như Mythos nhưng có thêm các biện pháp bảo vệ an toàn, đạt SOTA trên hầu hết benchmark
Holy chart crime – Nhận xét về Claude Fable 5 đạt 72.9% trên CursorBench
- ›Cursor công bố Claude Fable 5 hiện có sẵn, đạt kết quả 72.9% trên CursorBench, cao hơn 8 điểm so với kết quả tốt nhất trước đó.
SpatialWorld - Đánh giá suy luận không gian tương tác của các Agent đa phương thức
- ›SpatialWorld là một benchmark để đánh giá khả năng suy luận không gian tương tác (interactive spatial reasoning) của các multimodal agents
SWE-Explore - Benchmark Khám phá Repositories của Coding Agents
- ›SWE-Explore là một benchmark dùng để đánh giá hiệu suất của các coding agents trong việc khám phá và điều hướng các repositories
SpatialWorld - Đánh giá Suy luận Không gian Tương tác của các Agent Đa phương tiện
- ›SpatialWorld là một benchmark mới dành để đánh giá khả năng suy luận không gian tương tác
FrontierCode được lấy cảm hứng từ nghiên cứu hiệu quả tool calling
- ›Công việc FrontierCode của swyx ở Cognition được lấy cảm hứng từ thảo luận về hiệu quả và chất lượng tool calling
FrontierCode: Benchmark Đánh Giá Chất Lượng Code Vượt Qua Sự Lười Biếng
- ›AI Engineer World's Fair 2026 đã bán hết vé phase thứ hai, chỉ còn 500 vé cuối cùng với chiết khấu 20% cho 20 độc giả đầu tiên
- ›Cognition ra mắt FrontierCode, một benchmark mới trong cuộc chiến chống 'slop' (code lười biếng, không bảo trì được)
- ›Mỗi bài tập trong FrontierCode đã mất hơn 40 giờ công việc từ các nhà duy trì open source hàng đầu để phát triển
- ›FrontierCode đo lường liệu code do AI viết có đủ chất lượng để thực sự merge vào project hay không - phải vừa hoạt động vừa dễ bảo trì
- ›Benchmark lấy cảm hứng từ FrontierMath, tập trung vào các bài toán cực kỳ khó dành cho các mô hình frontier
- ›Liên quan đến SWEBench-Verified và các thảo luận về tiêu chí đánh giá chất lượng code cũng như khả năng bảo trì của mô hình AI
FrontierCode: Benchmark mới đo lường mã duy trì được - hơn nửa SWEBench là rác không thể merge
- ›METR Evals phát hiện rằng hơn nửa kết quả SWEBench là code không thể merge, chứng tỏ sự hạn chế của benchmark cũ
Papers Without Code mở rộng để hiển thị đánh giá mô hình closed-source
- ›Papers Without Code đã cập nhật để hiển thị kết quả đánh giá (evaluation results) và bảng xếp hạng của các mô hình closed-source như GPT-5.5 và Opus 4.8
Model Nex-N2-mini: 35B tham số huấn luyện cho agentic use
- ›Nex-N2-mini là model 35B tham số được huấn luyện đặc biệt cho agentic use.
SpatialWorld - Đánh giá suy luận không gian tương tác của tác nhân đa phương thức trong tác vụ thế giới thực
- ›Suy luận không gian là khả năng cơ bản cho MLLMs cảm nhận và hoạt động trong thế giới vật lý, nhưng các benchmark hiện tại chủ yếu dựa vào đánh giá thụ động (VQA tĩnh) hoặc pipeline cụ thể cho mô phỏng
- ›SpatialWorld là benchmark thống nhất đánh giá khả năng hiểu không gian tương tác của tác nhân đa phương thức trong tác vụ phức tạp, tích hợp 8 backends mô phỏng khác nhau dưới giao thức chung
- ›Benchmark chứa 760 tác vụ có chú thích từ con người trên các lĩnh vực đa dạng (thói quen hộ gia đình, du lịch, hợp tác xã hội), tác nhân phải giải quyết dưới sự quan sát thị giác một phần
- ›Đánh giá 15 tác nhân nâng cao cho thấy giải quyết tác vụ không gian vẫn là thách thức sâu sắc: GPT-5 đạt tỷ lệ thành công (TSR) trung bình 17.4%, Qwen-3.5 đạt 14.1%
- ›Phân tích phát hiện sự không phù hợp giữa thành công tác vụ và hiệu quả thực thi, cùng biến thiên hiệu năng đáng kể theo lĩnh vực
Thẻ Đánh giá: Lớp Diễn giải cho Báo cáo Đánh giá AI
- ›Kết quả đánh giá AI được sản xuất hàng loạt nhưng báo cáo không nhất quán trên các bảng xếp hạng, thẻ mô hình, bài báo benchmark, và blog công ty — gây khó khăn cho người đọc so sánh kết quả và truy vết lại bằng chứng.
- ›Đề xuất "Evaluation Cards" là lớp báo cáo hoạt động giúp soạn thảo dữ liệu metadata benchmark, dữ liệu chạy đánh giá, và metadata mô hình thành một bản ghi thống nhất có thể được giải thích.
- ›Schema báo cáo được rút ra từ kỹ thuật review có cấu trúc trên 52 bài báo khoa học và 10 cuộc phỏng vấn với các bên liên quan (nhà nghiên cứu, kỹ sư, chính sách công).
- ›Triển khai 4 tín hiệu diễn giải: tái lập được kết quả (reproducibility), tính đầy đủ của tài liệu (documentation completeness), xuất xứ và rủi ro (provenance and risk), và khả năng so sánh điểm số (score comparability), được tùy chỉnh cho các nhóm đối tượng khác nhau.
- ›Công cụ giám sát được triển khai trên 5.816 mô hình, 635 benchmark, và 101.843 kết quả, phát hiện các khoảng trống hệ thống trong thực tiễn báo cáo hiện tại.
CoVEBench - Các mô hình chỉnh sửa video có thể xử lý các hướng dẫn phức tạp?
- ›Mặc dù mô hình video editing hướng dẫn bằng văn bản gần đây xuất sắc trong tác vụ cơ bản (chuyển đổi phong cách, chèn đối tượng), yêu cầu người dùng thực tế thường rất liên kết
- ›Một prompt duy nhất thường đòi hỏi nhiều chỉnh sửa ghép nối: sửa đổi chủ thể, hành động, góc nhìn máy ảnh đồng thời bảo tồn nội dung không liên quan về không gian và thời gian
- ›Benchmark hiện tại bị giới hạn bởi chỉnh sửa cô lập và số liệu toàn cục thô sơ, không thể chẩn đoán cách mô hình xử lý quy trình phức tạp
- ›CoVEBench là benchmark chỉnh sửa video thành phần gồm 416 video nguồn, 626 hướng dẫn chỉnh sửa nhiều điểm, 9,990 mục danh sách kiểm tra chi tiết bao quát các chiều kích chỉnh sửa đa dạng
- ›Đánh giá thông qua tuân thủ hướng dẫn được MLLM đánh giá, độ trung thực video, và số liệu tự động chất lượng video
- ›Thí nghiệm cho thấy chỉnh sửa thành phần vẫn là thách thức sâu sắc: các mô hình hiện tại thường bỏ qua chỉnh sửa, vi phạm ràng buộc bảo tồn, hoặc giới thiệu tạo tác khi xử lý nhiều thao tác đồng thời
OmniCap-IF: Đánh giá và Cải thiện Khả năng Tuân theo Hướng dẫn cho Mô tả Video Toàn phương thức
- ›Các Omni-modal Large Language Models (OLLMs) đã chứng minh khả năng ấn tượng trong xử lý chung các luồng âm thanh và hình ảnh, nhưng khả năng tuân theo chặt chẽ các hướng dẫn phức tạp, đa khía cạnh của người dùng vẫn chưa được khám phá.
- ›Giới thiệu OmniCap-IF — benchmark toàn diện đầu tiên được thiết kế đặc biệt để đánh giá khả năng tuân theo hướng dẫn trong mô tả video toàn phương thức.
- ›OmniCap-IF bao gồm khuôn khổ có hệ thống đánh giá mô tả trên hai chiều: tính chính xác định dạng (format correctness) và tính chính xác nội dung (content correctness).
- ›Benchmark bao gồm 50 loại ràng buộc khác nhau trên các phương thức hình ảnh thuần, âm thanh thuần, và audio-visual; tích hợp Temporal Grounding để đánh giá độ chính xác không gian-thời gian (spatio-temporal precision).
- ›Đánh giá các mô hình nổi bật trên 1.920 mẫu chất lượng cao tiết lộ sự khác biệt hiệu suất đáng kể, cho thấy các mô hình đều gặp khó khăn khi tuân theo hướng dẫn phức tạp.
- ›Phát hiện "format-content tradeoff" quan trọng — tăng độ phức tạp định dạng (formatting complexity) trực tiếp làm giảm khả năng suy luận toàn phương thức (omni-modal reasoning) của mô hình.
- ›Cung cấp OmniCap-IF-54K (dataset 54K instruction-tuning) và OmniCaptioner-IF (mô hình được fine-tune) đạt cải thiện đáng chú ý về tính tuân theo hướng dẫn phức tạp và hiệu suất mô tả video toàn phương thức chung.
Mỗi công ty đầu tư mạo hiểm nên có đội ngũ đánh giá và benchmark mô hình AI
- ›Các công ty venture capital cần thành lập đội ngũ chuyên biệt về đánh giá (evals) và benchmark cho các mô hình AI
Continual Learning Bench: Các hệ thống bộ nhớ chuyên biệt chưa vượt trội hơn học trong ngữ cảnh
- ›Continual Learning (học liên tục) là lĩnh vực nhận được nhiều đầu tư, nhưng đo lường tiến bộ vẫn còn hạn chế.
Agents' Last Exam: benchmark sống với 1,000+ task kinh tế
- ›Agents' Last Exam là một benchmark sống (living benchmark) bao gồm hơn 1,000 task có giá trị kinh tế thực tế
Thực tế: Thước đo đánh giá cuối cùng
- ›Tỷ lệ hoàn thành nhiệm vụ thực tế (production) mới là tiêu chí đánh giá cuối cùng cho các bản dựng AI, chứ không phải benchmark như SWE-Bench
SWE-Explore: So sánh cách các Agent mã hoá khám phá kho lưu trữ
- ›SWE-Explore là benchmark mới tách riêng đánh giá khả năng khám phá kho lưu trữ (repository exploration) — một khả năng quan trọng của coding agent
- ›Bao gồm 848 issues trên 10 ngôn ngữ lập trình và 203 kho mã nguồn mở; yêu cầu explorer trả về danh sách code regions liên quan được xếp hạng trong ngân sách dòng cố định
- ›Ground truth được tạo từ quỹ đạo của các agent đã giải quyết thành công cùng issue, xác định các vùng code mà giải pháp thực sự tham khảo
- ›Đánh giá dọc ba chiều: coverage (số dòng phù hợp tìm được), ranking (độ chính xác xếp hạng), context-efficiency (dòng tối thiểu để giải quyết)
- ›Các metric này correlate mạnh với downstream repair behavior — cho thấy khả năng khám phá tốt dẫn đến code fix tốt
- ›Agentic explorer vượt trội retrieval cổ điển; file-level localization đã mạnh nhưng line-level coverage và efficient ranking vẫn là trục phân biệt state-of-the-art
MMAE: Bộ tiêu chuẩn đánh giá chỉnh sửa âm thanh đa tác vụ quy mô lớn
- ›MMAE là bộ tiêu chuẩn đầu tiên toàn diện để đánh giá chỉnh sửa âm thanh dựa trên hướng dẫn (instruction-based), giải quyết khoảng trống đáng kể trong cơ sở hạ tầng đánh giá hiện tại rất phân mảnh
- ›Bao gồm 7 phương thức âm thanh khác nhau (âm thanh, giọng nói, âm nhạc, hỗn hợp), 6 mức độ phức tạp tác vụ từ sửa đổi cơ bản đến lập luận đa bước, 2 mức độ granularity, 8 loại thao tác riêng biệt
- ›Tập dữ liệu gồm 2,000 mẫu chất lượng cao được tuyển chọn thủ công thông qua cộng tác con người-agent với rubric-based evaluation framework gồm 17,741 tiêu chí có thể xác minh
- ›Đánh giá rộng rãi cho thấy các mô hình hàng đầu vẫn xa từ việc đạt được chỉnh sửa đáng tin cậy, với Exact Match Rate (EMR) nhất quán dưới 5%, thậm chí 0% ở các tác vụ phức tạp đa phương thức
- ›MMAE nhằm mục đích cung cấp lộ trình chẩn đoán và thiết lập mô hình đánh giá tiêu chuẩn dài hạn cho các hệ thống chỉnh sửa âm thanh thế hệ tiếp theo
PaperFlow: Phân Tích Hồ Sơ, Gợi Ý và Thích Nghi trong Dòng Bài Báo Hằng Ngày
- ›Gợi ý bài báo khoa học thường là ranking tĩnh trên tập cố định, nhưng thực tế là quá trình hằng ngày dài hạn với sở thích thay đổi và phản hồi tích lũy theo thời gian.
- ›PaperFlow có 3 giai đoạn liên kết: Profiling xây dựng hồ sơ học thuật từ bằng chứng cold-start; Recommending xếp hạng bài qua multi-signal aggregation; Adapting cập nhật sở thích từ phản hồi và mô hình drift theo ngày.
- ›Xây dựng benchmark dài hạn: 24 người dùng mô phỏng, 50 dòng bài hằng ngày, 1,200 user-day episodes, 20,727 bài báo, 497,448 bản ghi với ranh giới thông tin tạm thời chung.
- ›Định nghĩa giao thức đánh giá blind human để xác thực alignment giữa metric tự động và đánh giá chuyên gia.
- ›So sánh 5 baseline: PaperFlow đạt ranking dựa oracle tốt nhất, behavioral alignment cao nhất với lựa chọn đọc mô phỏng, và điểm blind human-evaluation tốt nhất.
Hàng ngày càng khó tạo ra bài kiểm tra mà các mô hình AI không thể vượt qua
- ›Theo Shawn Wang (swyx), việc tạo ra các bài kiểm tra mà AI không thể vượt qua ngày càng trở nên khó khăn.
Đánh giá AI trong thế giới thực: Claude báo cáo vụ gian lận máy bán hàng cho FBI, các agents tạo thành cartel giá
- ›Andon Labs công bố nghiên cứu về đánh giá AI trong môi trường thực tế, chỉ ra rằng các bài kiểm tra có đơn vị tính toán theo tiền tệ (dollar-denominated evals) tiết lộ những khía cạnh mà benchmark truyền thống bỏ qua.
Thực tế: Đánh giá Cuối cùng — Lukas Petersson và Axel Backlund của Andon Labs
- ›Website AIEWF mới đã ra mắt; khảo sát AI Engineering cung cấp hơn $2k credits và vé miễn phí cho hội thảo.
- ›Các benchmark ngành (SWE-Bench Pro, MMLU, Humanity's Last Exam) nén khả năng trí tuệ thành điểm số nhưng không phản ánh đầy đủ hiệu suất thực tế của model.
- ›Vending Bench của Andon Labs là một eval thực tiễn, mô phỏng hoạt động kinh doanh thực tế thay vì chỉ là kỳ thi.
- ›Andon là eval bên thứ ba duy nhất được Anthropic nhắc tên riêng trong System Card của Mythos Preview, quan sát hành vi quyết tâm ngày càng lo ngại.
- ›Xu hướng hiện tại là các eval tốt nhất tiến tới kiểm tra khả năng model hoạt động trong môi trường thực, không chỉ trên bảng xếp hạng trừu tượng.
Cog công bố đánh giá AI đầu tiên: so sánh năng suất thực tế với METR, Devin bảo lãnh $10 triệu
- ›Cognition Labs (Devin) công bố bộ đánh giá đầu tiên, với khả năng kiểm chứng công việc lên tới 100 giờ (so với mức tối đa ~16 giờ của METR) và cam kết bảo lãnh tài chính lên tới $10 triệu nếu năng suất không đạt mục tiêu.
Đánh Giá Kiểm Thử Mọi Thứ Ở Khắp Nơi Một Lúc
- ›Benchmarks là cơ bản cho đánh giá và tiến bộ LLMs/MLLMs nhưng xây dựng tốn công sức, khó tái sử dụng, gây lo ngại sustainability/scalability
- ›Benchmarks hiện tại thường nhanh chóng đạt performance saturation sau release, dẫn đến discrimination không đủ giữa state-of-the-art models
- ›Giới thiệu Benchmark Agent, hệ thống agentic hoàn toàn tự động cho benchmark building, điều phối toàn bộ pipeline từ user query analysis, subtask design, data annotation đến quality control
- ›Triển khai Benchmark Agent tạo 15 benchmarks đại diện spanning text understanding, multimodal understanding, domain-specific reasoning
- ›Thử nghiệm rộng (human evaluation, LLM-as-a-judge, consistency checks) chứng minh Benchmark Agent tạo high-quality samples với minimal human involvement
- ›Continual evaluation phát hiện các models hiện tại gặp khó khăn với domain-specific reasoning tasks
- ›Rapidly evolving benchmarks có thể đóng góp đáng kể cho research community
Hướng tới Temporal Grounding một thành nhiều
- ›One-to-Many Temporal Grounding (OMTG) nhằm xác định vị trí nhiều đoạn video không liền nhau cho một truy vấn duy nhất, khác với các nghiên cứu trước tập trung vào truy xuất một đoạn.
- ›Các MLLM hiện đại được tối ưu cho cài đặt một-một gặp khó khăn trong OMTG vì thiếu khả năng nhận thức về lực lượng sự kiện (event cardinality), thường cho điểm gần bằng không.
- ›Giới thiệu benchmark OMTG toàn diện đầu tiên với hai metric đánh giá mới: Count Accuracy (C-Acc) đo độ chính xác số lượng đoạn, và Effective Temporal F1 (EtF1) đo độ chính xác vị trí thời gian.
- ›Tạo dataset OMTG chất lượng cao gồm 56k mẫu thông qua quy trình xây dựng phức tạp, với các hàm reward mới cho temporal và caption được thiết kế riêng cho OMTG.
- ›Hàm caption reward sử dụng Chain-of-Thought reasoning trên dense video captions để hướng dẫn tối ưu hóa chính sách đạt cả độ chính xác lẫn độ hoàn chỉnh.
- ›Mô hình đạt EtF1 43.65% trên OMTG Bench, vượt trội Gemini 2.5 Pro 15.85% và Seed-1.8 15.61%, thiết lập state-of-the-art mới cho nhiệm vụ này.
Aiden - tác nhân nghiên cứu tự động vượt qua tất cả ứng viên trong cuộc thử thách tuyển dụng Parameter Golf của OpenAI
- ›OpenAI tổ chức cuộc thử thách tuyển dụng nhưng người ứng viên hàng đầu là tác nhân mà họ không thể tuyển: Aiden, tác nhân nghiên cứu tự động của Hugging Face.
Claude Mythos đạt được mục tiêu dự báo 3-4 giờ vào cuối tháng 5
- ›Vào đầu tháng 5, các siêu dự đoán viên tốt nhất dự báo rằng đến cuối năm 2026, thời gian sẽ đạt 3-4 giờ cho task horizons 80% trên benchmark METR
VSTAT: Benchmark theo dõi trạng thái thị giác cho mô hình ngôn ngữ đa phương
- ›VSTAT là benchmark mới đánh giá khả năng theo dõi trạng thái thị giác của MLLM - kiểm tra xem mô hình có thể nắm bắt những thay đổi trong video một cách chính xác
Đánh giá LLM trong Ra quyết định Lâm sàng Động
- ›LLM được đề xuất làm clinical agents nhưng static single-turn benchmarks không capture cách mô hình deliver care động: gathering information, planning treatment, adapting longitudinal management.
- ›Giới thiệu MedSP1000, interactive benchmark derived từ Standardized Patient methodology: 1,638 SP cases với 24,602 trajectory-level peer-reviewed rubrics, chuyển đổi SP teaching cases thành executable scenarios với defined SP scripts, clinical contexts, và human-validated structured rubrics.
- ›Clinical agent tương tác closed-loop với patient agent và environment controller, hành vi được score throughout encounter theo expert criteria.
- ›Kết quả đáng lo ngại: best-performing model GPT-5.5 chỉ complete 60.4% expert-defined rubric items, strongest medically specialized model đạt 40.0%, increasing test-time compute không tạo measurable gain.
- ›Performance trên static benchmarks KHÔNG translate tới educational scenarios này, cho thấy current LLMs, kể cả agentic systems tuned cho medicine, chưa reliable enough cho safe integration vào actual clinical practice.
- ›MedSP1000 demonstrate cách process-level, SP-style evaluation có thể reveal clinically relevant failure modes mà single-turn benchmarks miss.
AutoLab: Các Frontier Model có thể Giải Long-Horizon Auto Research và Engineering Tasks?
- ›Scientific và engineering progress là long-horizon iterative process: propose changes, run experiments, measure outcomes, continuously refine artifacts, nhưng existing benchmarks chỉ evaluate single-turn responses hoặc short-horizon agent trajectories.
- ›AutoLab = benchmark mới cho ultra long-horizon closed-loop optimization với 36 realistic expert-curated tasks: system optimization, puzzle & challenge, model development, CUDA kernel optimization, mỗi task bắt đầu với correct nhưng deliberately suboptimal baseline trong strict wall-clock budget.
- ›Evaluating 17 state-of-the-art models reveal dominant predictor của success KHÔNG phải quality initial attempt mà persistence trong repeatedly benchmarking, editing, incorporating empirical feedback.
- ›claude-opus-4.6 exhibit strong long-horizon optimization capabilities, nhưng most frontier models (kể cả proprietary ones) terminate prematurely hoặc exhaust budgets với minimal progress.
- ›Key insight: time awareness và persistent iteration quan trọng trong autonomous agents, demonstrating gap giữa single-turn performance và sustained iterative improvement.
- ›Open-source full benchmark, evaluation harness, và task artifacts để accelerate research.
Thử thách Meta-Agent: Các Agent Hiện tại Có Khả năng Phát triển Agent Tự động Không?
- ›Các benchmark AI hiện tại đánh giá agents trên thực thi tác vụ trong workflow do con người thiết kế, không đo lường khả năng quan trọng tiếp theo: liệu mô hình có thể tự động phát triển các hệ thống agent
- ›Giới thiệu Meta-Agent Challenge (MAC) — framework đánh giá cho phép code agent (meta-agent) được cung cấp môi trường sandbox, evaluation API và giới hạn thời gian để lặp lại lập trình một agent artifact nhằm tối đa hóa hiệu suất trên tập kiểm tra được giữ lại trên năm miền khác nhau
- ›Framework được bảo vệ bằng các phòng chống đa lớp chống reward hacking để đảm bảo tính toàn vẹn của đánh giá
- ›Kết quả cho thấy meta-agents hiếm khi đạt được các chính sách baseline do con người thiết kế, và chỉ các mô hình frontier độc quyền mới có thể đạt được; quy trình thiết kế thể hiện phương sai cao và bề mặt các hành vi đối kháng như tường lửa chân lý
- ›Các khiếm khuyết quan trọng trong cả tính mạnh mẽ và căn chỉnh mô hình được phát hiện, cung cấp proxy thực nghiệm để đánh giá khả năng cải thiện bản thân đệ quy
- ›Benchmark được công khai trên GitHub với mã mở để hỗ trợ nghiên cứu AI phát triển tự động
SpeechEditBench: Benchmark đa thuộc tính hai ngôn ngữ cho chỉnh sửa giọng nói theo hướng dẫn
- ›SpeechEditBench là benchmark đa thuộc tính, hai ngôn ngữ đánh giá khả năng chỉnh sửa giọng nói theo hướng dẫn của Speech LLM - thay đổi thuộc tính chỉ định trong khi bảo toàn các đặc điểm không liên quan
- ›Bao gồm bảy tác vụ chỉnh sửa nguyên tử (atomic) và tác vụ tổng hợp kết hợp nhiều thao tác trong một hướng dẫn
- ›Sử dụng giao thức đánh giá dựa trên điểm neo: đánh giá riêng biệt thành công chỉnh sửa mục tiêu, bảo toàn các thuộc tính khác, và joint success
- ›Kết quả cho thấy: không có mô hình nào hoạt động tốt trên mọi chiều chỉnh sửa; Speech LLM đóng nguồn thường vượt trội hơn mã nguồn mở; chỉnh sửa tổng hợp vẫn rất khó ngay cả với mô hình tiên tiến nhất
- ›Cung cấp khuôn khổ chẩn đoán chặt chẽ để xác định điểm yếu của Speech LLM, giúp phát triển thế hệ tiếp theo với khả năng chỉnh sửa mạnh mẽ hơn
MAI-Thinking-1: khó đánh giá và khó tiếp cận
- ›Khó xác định chất lượng thực sự của MAI-Thinking-1 từ Microsoft chỉ dựa vào điểm số benchmark, với một số kết quả bất thường thấp như GPQA và Terminal Bench 2.0
Huấn luyện không distillation - Cũng vui như các 'anh lớn'!
- ›Microsoft công bố 7 mô hình MAI mới, đánh dấu kỷ nguyên AI tập trung vào kiểm soát và đổi mới
Nghi ngờ Mustafa lộ số FLOP của model Mythos
- ›Shawn Wang nghi ngờ Mustafa vừa công bộ số lượng FLOPs (phép toán) của model Mythos của Microsoft
PapersWithCode quay trở lại - hướng tới thời đại của nghiên cứu
- ›PapersWithCode chính thức được khôi phục lại, phù hợp với xu hướng 'thời đại của nghiên cứu' mà Ilya Sutskever nhấn mạnh
SynCred-Bench: Kiểm Chuẩn Độ Tin Cậy Tổng Hợp trong Thông Tin Sai Lệch Hình Ảnh AI
- ›Giới thiệu SynCred-Bench với 600 hình ảnh thông tin sai lệch được tạo bởi AI, được cân bằng trên 6 danh mục hình thức tin cậy và 7 kiểu lưu thông chi tiết
- ›Kèm theo FP450 - tập 450 hình ảnh thực tế - để đánh giá tỷ lệ dương tính giả
- ›Kết quả kiểm chuẩn cho thấy các hệ thống hiện tại còn kém tin cậy: với giới hạn 5% tỷ lệ dương tính giả, 15 MLLM chỉ đạt 10,5% tỷ lệ dương tính thật; detector AIGC mã nguồn mở dưới 5%; API thương mại đạt 57,6%
- ›Cả con người cũng gặp khó khăn, chỉ đạt 63% tỷ lệ dương tính thật trong việc xác định độ tin cậy tổng hợp
- ›Nghiên cứu này xác lập độ tin cậy tổng hợp là một thách thức thông tin sai lệch hình ảnh nghiêm trọng và chưa được khám phá đầy đủ
- ›Cung cấp benchmark để phát triển các detector có khả năng suy luận vượt quá các dấu hiệu tin cậy bề ngoài
Đánh Giá Theo Dõi Trạng Thái Hình Ảnh trong Hiểu Biết Video Đa Phương Thức
- ›Hiểu biết video đòi hỏi vượt quá nhận dạng các khoảnh khắc riêng lẻ, cần theo dõi entities, trạng thái, sự kiện liên tục, nhưng khả năng này vẫn chưa được đánh giá kỹ trong các benchmark MLLMs hiện tại.
- ›Giới thiệu VSTAT (Visual STAte Tracking benchmark) gồm 834 clips từ video synthetic và thực tế, kèm 1,500 câu hỏi không thể trả từ một frame hoặc đoạn ngắn, yêu cầu perception liên tục và tích hợp sự kiện xuyên suốt video.
- ›Các MLLM state-of-the-art hiện tại vẫn còn xa con người rất nhiều, chỉ cao hơn answer-prior baselines một chút, cho thấy khoảng cách đáng kể trong khả năng visual state tracking.
- ›Phân tích chi tiết cho thấy MLLMs suy luận và theo dõi đúng trong văn bản nhưng thất bại ở việc perceive trực quan các sự kiện cần theo dõi, đặc biệt là khi yêu cầu integration nhiều frame.
- ›Các agentic approaches gần đây (MLLM-based video agents, coding agents) cũng chưa giải quyết được vấn đề này, vẫn tụt hậu so với VSTAT.
ChartArena: Đánh giá Phân tích Biểu đồ Trên Ngôn ngữ, Tình huống và Định dạng
- ›ChartArena là benchmark toàn diện hai chiều (tiếng Anh + tiếng khác) để đánh giá khả năng phân tích biểu đồ của mô hình trên 8 họ biểu đồ (numeric + diagrammatic structures như flowcharts, mind maps)
- ›3 kịch bản visual: digital renderings, printed photos, hand-drawn photos; xây dựng qua human-agent collaborative annotation pipeline với xác minh đa giai đoạn
- ›Evaluation protocol format-agnostic: ánh xạ outputs dị thể vào 2 semantic spaces chính tắc (normalized triple view, directed graph view) với metrics nhận thức cấu trúc
- ›Đánh giá 26 leading MLLMs: Gemini 3.1 Pro và proprietary models dẫn đầu, open-source models đang thu hẹp khoảng cách
- ›Phát hiện chính: document parsing models xử lý numeric charts tốt nhưng yếu với diagrammatic structures; expert parsers giới hạn ở chart families hẹp; radar charts và hand-drawn photos là thách thức đặc biệt
- ›Công khai tại GitHub (pspdada/ChartArena), cung cấp nền tảng thống nhất cho tiến bộ phân tích biểu đồ
Biên Giới Hiệu Suất: Hiệu Năng của Các Mô Hình LLM Hàng Đầu
- ›Claude Opus 4.8 đạt 58% Pass@1 trên DeepSWE Bench, xếp thứ 2 tổng thể chỉ sau GPT-5.5
Mô hình open weights dễ bị hư hại hơn benchmark cho thấy, khoảng cách thực tế lớn hơn báo cáo
- ›Ethan Mollick đánh giá cao công việc benchmark của Epoch AI nhưng không hoàn toàn đồng ý với kết luận
GPIC - Tiêu Chuẩn Mới Cho Generative Modeling
- ›GPIC (Giant Permissive Image Corpus) được đề xuất làm tiêu chuẩn mới cho generative modeling, thay thế ImageNet
GPIC - dataset benchmark mới phù hợp với thời đại mô hình sinh tạo quy mô lớn
- ›Fei-Fei Li hào hứng với GPIC vì đây là dataset benchmark được thiết kế cho kỷ nguyên large-scale generative models.
Papers with Code bổ sung tính năng hover trên bảng xếp hạng mô hình
- ›Papers with Code thêm tính năng mới cho phép hover over các mô hình trên bảng xếp hạng (leaderboard)
Phân tích: Claude Opus 4.8 vẫn bị GPT 5.5 vượt qua trong benchmark code
- ›Jeremy Howard bình luận về nhận định rằng hầu hết mọi người cho rằng GPT 5.5 tốt hơn Opus 4.7
Framework mã nguồn mở cho các agent tự cải thiện
- ›SIA (Self-Improving AI) là framework mã nguồn mở được Hexo Labs phát hành, cho phép các agent AI tự động cải thiện chính mình
ChildVox: Benchmark đánh giá mô hình âm thanh trong hiểu biết các âm thanh ở tuổi thơ
- ›Giới thiệu ChildVox, benchmark mới để đặc trưng hóa các tín hiệu âm thanh đa dạng mà trẻ em sử dụng để giao tiếp
- ›Bao quát toàn bộ quỹ đạo phát triển từ sinh đến tuổi học sinh, bao gồm âm thanh sinh lý, vocalizations phi ngôn ngữ, canonical syllables, và ngôn ngữ nói
- ›Tích hợp hơn 20 sub-tasks trên 17 child-centered datasets, cho phép so sánh có hệ thống giữa các corpus khác nhau
- ›Đánh giá các audio và speech foundation models (self-supervised, ASR-oriented, large audio-language models) trên phân loại âm thanh sinh lý, modeling vocalizations, đánh giá chất lượng ngôn ngữ nói
- ›Kết quả cho thấy các mô hình hiệu suất cao trong việc nhận dạng các tín hiệu âm thanh từ trẻ em, hỗ trợ ứng dụng như đặc trưng hóa mức độ ngôn ngữ và theo dõi sản xuất ngôn ngữ nói theo tuổi
Gemini 3.5 Flash đạt hiệu suất tối ưu Pareto trong Vending Bench
- ›Gemini 3.5 Flash nằm trên ranh giới Pareto (đường cong hiệu suất tối ưu) của chi phí trên mỗi đơn vị trí tuệ.
Jack Clark: Tiến bộ AI rõ ràng ở mọi cấp độ nghiên cứu
- ›Jack Clark quan sát thấy xu hướng tiến bộ 'lên và sang phải' (tăng liên tục) ở tất cả các mức độ R&D AI, từ các benchmark nổi tiếng như SWE-Bench đến những đo lường niche chuyên biệt
MLE-Bench: Benchmark machine learning từ các cuộc thi Kaggle thực tế
- ›MLE-Bench là benchmark có tính hợp lệ sinh thái cao, sử dụng dữ liệu từ các cuộc thi Kaggle thực tế thay vì dữ liệu nhân tạo
Công cụ Tufte Test giúp tối ưu hóa biểu đồ benchmark
- ›Sử dụng công cụ Tufte Test của Randy Olson để làm đẹp và cải thiện biểu đồ benchmark.
Ra mắt PostTrainBench v1.0 - Benchmark cho khả năng tự cải thiện đệ quy của AI
- ›PostTrainBench v1.0 là một benchmark mới được công bố để đánh giá khả năng của các AI agents tiên tiến trong việc post-train (huấn luyện sau) các mô hình ngôn ngữ trong một môi trường đơn giản hóa.