Dòng tin

19 nội dung mới nhất
Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung
Điều Quan Trọng Nhất Hôm Nay
  • Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.
Mới hôm nay
NVIDIA AI
NVIDIA AIBlogBài viết·khoảng 8 giờ trướcMớiHot
NVIDIA dẫn đầu benchmark agentic AI đầu tiên về mã hóa (AA-AgentPerf)
  • Artificial Analysis vừa công bố AA-AgentPerf, benchmark mã hóa agentic đầu tiên của ngành, được thiết kế cho nhiều nhà cung cấp.
  • NVIDIA đạt hiệu suất hàng đầu trên benchmark này.
  • AA-AgentPerf đo lường cách các hệ thống suy luận hoạt động dưới các điều kiện của các tác vụ mã hóa AI agent thực tế, xử lý độ phức tạp suy luận cao.
  • Benchmark này giải quyết khoảng trống lâu dài trong ngành về cách đo lường hiệu suất của các hệ thống agent AI.
Clement Delangue
Clement DelangueXBài đăng·khoảng 15 giờ trướcMới
Vấn đề cơ bản trong đánh giá AI: Ưu thế không công khai của API Closed-source
  • Các bài benchmark AI có khuynh hướng ưu tiên API closed-source vì chúng có thể thực hiện routing, fallback, ensemble và tối ưu hóa hậu trường mà không công khai
Trước đó
AK (_akhaliq)
AK (_akhaliq)XBài đăng·1 ngày trước
TRL-Bench - Tiêu chuẩn hóa đánh giá biểu diễn của các bộ mã hóa dữ liệu bảng
  • TRL-Bench là một công trình về tiêu chuẩn hóa đánh giá (cross-paradigm evaluation) ở mức độ biểu diễn (representation-level) cho các bộ mã hóa dữ liệu bảng (tabular encoders).
Logan Kilpatrick
Logan KilpatrickXBài đăng·1 ngày trước
Xem trang benchmark cho Gemini Omni
  • Gợi ý xem trang benchmark chính thức của Gemini Omni để kiểm tra hiệu suất của mô hình
Demis Hassabis
Demis HassabisXBài đăng·1 ngày trước
Gemini Omni Flash đạt vị trí số 1 trong Video Arena
  • Gemini Omni Flash trở thành model hàng đầu trong Video Arena cho cả Text-to-Video và Image-to-Video
AK (_akhaliq)
AK (_akhaliq)XBài đăng·1 ngày trước
TRL-Bench: Chuẩn hóa Đánh giá Biểu diễn Bộ Mã hóa Dữ liệu Bảng Trên Nhiều Paradigm
  • TRL-Bench là một công cụ benchmark để chuẩn hóa đánh giá các bộ mã hóa dữ liệu bảng ở cấp độ biểu diễn (representation-level)
AK (_akhaliq)
AK (_akhaliq)XBài đăng·1 ngày trước
Microsoft Research giới thiệu Arbor - Agent tự động suy luận
  • Arbor là một autonomous research agent tổng quát sử dụng persistent hypothesis-tree refinement
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·2 ngày trước
EvoBrowseComp: Đánh Giá Các Tác Nhân Tìm Kiếm trên Kiến Thức Động Tiến Hóa
  • Giới thiệu EvoBrowseComp, benchmark tiến hóa với 400 câu hỏi tiếng Anh và 400 tiếng Trung không bị nhiễm dữ liệu, giải quyết vấn đề test-set contamination và parametric memorization của các benchmark tĩnh
  • Thiết kế framework ba agent cộng tác: (1) QA synthesis agent lấy kiến thức tươi từ web sống, (2) information filtering agent lọc theo độ tin cậy và phổ biến để chặn shortcut, (3) guidance agent hình thức hoá câu hỏi thành reasoning graphs
  • Framework hỗ trợ tổng hợp hoàn toàn tự động, cho phép cập nhật định kỳ để ngăn chặn nhiễm dữ liệu và duy trì temporal freshness
  • Benchmark yêu cầu tìm kiếm ngang rộng (broad horizontal search) với độ khó cao
  • Thiết lập mô hình có thể mở rộng cho auto-updatable, high-difficulty benchmarking, kịp theo kiến thức thế giới tiến hóa và khả năng agent cải tiến
AK (_akhaliq)
AK (_akhaliq)XBài đăng·2 ngày trước
Cohere Transcribe dẫn đầu benchmark Far-Field ASR của Hugging Face
  • Cohere công bố Transcribe, mô hình nhận dạng giọng nói (ASR) mã nguồn mở
swyx (Shawn Wang)
swyx (Shawn Wang)XBài đăng·3 ngày trước
Phân tích FrontierCode: 3 era của AI coding và 'vibe shift' tháng 12 2025
  • METR phát hiện hơn 50% kết quả SWEBench là mã chất lượng thấp không thể merge
swyx (Shawn Wang)
swyx (Shawn Wang)XBài đăng·3 ngày trước
FC Diamond: Sự tăng vọt lớn và Fable là class mô hình hoàn toàn mới
  • Kết quả FC Diamond cho thấy mức độ tăng vọt lớn hơn các biểu đồ chính thức, phá vỡ các curve fit truyền thống
Andrej Karpathy
Andrej KarpathyXBài đăng·3 ngày trước
Claude Fable 5: Bước tiến lớn với hiệu suất SOTA trên mọi benchmark
  • Claude Fable 5 dùng cùng mô hình cơ bản như Mythos nhưng có thêm các biện pháp bảo vệ an toàn, đạt SOTA trên hầu hết benchmark
Jeremy Howard
Jeremy HowardXBài đăng·3 ngày trước
Holy chart crime – Nhận xét về Claude Fable 5 đạt 72.9% trên CursorBench
  • Cursor công bố Claude Fable 5 hiện có sẵn, đạt kết quả 72.9% trên CursorBench, cao hơn 8 điểm so với kết quả tốt nhất trước đó.
#LLM#Claude#Benchmark
swyx (Shawn Wang)
swyx (Shawn Wang)XBài đăng·4 ngày trước
FrontierCode được lấy cảm hứng từ nghiên cứu hiệu quả tool calling
  • Công việc FrontierCode của swyx ở Cognition được lấy cảm hứng từ thảo luận về hiệu quả và chất lượng tool calling
swyx (Shawn Wang)
swyx (Shawn Wang)BlogBài viết·4 ngày trước
FrontierCode: Benchmark Đánh Giá Chất Lượng Code Vượt Qua Sự Lười Biếng
  • AI Engineer World's Fair 2026 đã bán hết vé phase thứ hai, chỉ còn 500 vé cuối cùng với chiết khấu 20% cho 20 độc giả đầu tiên
  • Cognition ra mắt FrontierCode, một benchmark mới trong cuộc chiến chống 'slop' (code lười biếng, không bảo trì được)
  • Mỗi bài tập trong FrontierCode đã mất hơn 40 giờ công việc từ các nhà duy trì open source hàng đầu để phát triển
  • FrontierCode đo lường liệu code do AI viết có đủ chất lượng để thực sự merge vào project hay không - phải vừa hoạt động vừa dễ bảo trì
  • Benchmark lấy cảm hứng từ FrontierMath, tập trung vào các bài toán cực kỳ khó dành cho các mô hình frontier
  • Liên quan đến SWEBench-Verified và các thảo luận về tiêu chí đánh giá chất lượng code cũng như khả năng bảo trì của mô hình AI
swyx (Shawn Wang)
swyx (Shawn Wang)XBài đăng·4 ngày trước
FrontierCode: Benchmark mới đo lường mã duy trì được - hơn nửa SWEBench là rác không thể merge
  • METR Evals phát hiện rằng hơn nửa kết quả SWEBench là code không thể merge, chứng tỏ sự hạn chế của benchmark cũ
Clement Delangue
Clement DelangueXBài đăng·5 ngày trước
Model Nex-N2-mini: 35B tham số huấn luyện cho agentic use
  • Nex-N2-mini là model 35B tham số được huấn luyện đặc biệt cho agentic use.
#LLM#Benchmark#Agent
Logan Kilpatrick
Logan KilpatrickXBài đăng·6 ngày trước
Mỗi công ty đầu tư mạo hiểm nên có đội ngũ đánh giá và benchmark mô hình AI
  • Các công ty venture capital cần thành lập đội ngũ chuyên biệt về đánh giá (evals) và benchmark cho các mô hình AI
DAIR.AI
DAIR.AIXBài đăng·7 ngày trước
Continual Learning Bench: Các hệ thống bộ nhớ chuyên biệt chưa vượt trội hơn học trong ngữ cảnh
  • Continual Learning (học liên tục) là lĩnh vực nhận được nhiều đầu tư, nhưng đo lường tiến bộ vẫn còn hạn chế.