Dòng tin

19 nội dung mới nhất

Tất cả 1915 Chuyên sâu 594 Đã lưu 0

Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung

Điều Quan Trọng Nhất Hôm Nay

›Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.

Đọc đầy đủ

Mới hôm nay

NVIDIA AIBlogBài viết·khoảng 8 giờ trướcMớiHot

NVIDIA dẫn đầu benchmark agentic AI đầu tiên về mã hóa (AA-AgentPerf)

›Artificial Analysis vừa công bố AA-AgentPerf, benchmark mã hóa agentic đầu tiên của ngành, được thiết kế cho nhiều nhà cung cấp.
›NVIDIA đạt hiệu suất hàng đầu trên benchmark này.
›AA-AgentPerf đo lường cách các hệ thống suy luận hoạt động dưới các điều kiện của các tác vụ mã hóa AI agent thực tế, xử lý độ phức tạp suy luận cao.
›Benchmark này giải quyết khoảng trống lâu dài trong ngành về cách đo lường hiệu suất của các hệ thống agent AI.

#Agentic AI #Lập trình AI #Benchmark #NVIDIA

Clement DelangueXBài đăng·khoảng 15 giờ trướcMới

Vấn đề cơ bản trong đánh giá AI: Ưu thế không công khai của API Closed-source

›Các bài benchmark AI có khuynh hướng ưu tiên API closed-source vì chúng có thể thực hiện routing, fallback, ensemble và tối ưu hóa hậu trường mà không công khai

#Benchmark #AI Evaluation #Open-source #Transparency

Trước đó

AK (_akhaliq)XBài đăng·1 ngày trước

TRL-Bench - Tiêu chuẩn hóa đánh giá biểu diễn của các bộ mã hóa dữ liệu bảng

›TRL-Bench là một công trình về tiêu chuẩn hóa đánh giá (cross-paradigm evaluation) ở mức độ biểu diễn (representation-level) cho các bộ mã hóa dữ liệu bảng (tabular encoders).

#Tabular learning #Representation learning #Benchmark

Logan KilpatrickXBài đăng·1 ngày trước

Xem trang benchmark cho Gemini Omni

›Gợi ý xem trang benchmark chính thức của Gemini Omni để kiểm tra hiệu suất của mô hình

#Gemini Omni #Benchmark

Demis HassabisXBài đăng·1 ngày trước

Gemini Omni Flash đạt vị trí số 1 trong Video Arena

›Gemini Omni Flash trở thành model hàng đầu trong Video Arena cho cả Text-to-Video và Image-to-Video

#Gemini Omni Flash #Text-to-Video #Video Generation #Benchmark

AK (_akhaliq)XBài đăng·1 ngày trước

TRL-Bench: Chuẩn hóa Đánh giá Biểu diễn Bộ Mã hóa Dữ liệu Bảng Trên Nhiều Paradigm

›TRL-Bench là một công cụ benchmark để chuẩn hóa đánh giá các bộ mã hóa dữ liệu bảng ở cấp độ biểu diễn (representation-level)

#Dữ liệu bảng #Representation learning #Benchmark

AK (_akhaliq)XBài đăng·1 ngày trước

Microsoft Research giới thiệu Arbor - Agent tự động suy luận

›Arbor là một autonomous research agent tổng quát sử dụng persistent hypothesis-tree refinement

#Agent AI #Suy luận #Benchmark

AK (_akhaliq)HF PapersPaper·2 ngày trước

EvoBrowseComp: Đánh Giá Các Tác Nhân Tìm Kiếm trên Kiến Thức Động Tiến Hóa

›Giới thiệu EvoBrowseComp, benchmark tiến hóa với 400 câu hỏi tiếng Anh và 400 tiếng Trung không bị nhiễm dữ liệu, giải quyết vấn đề test-set contamination và parametric memorization của các benchmark tĩnh
›Thiết kế framework ba agent cộng tác: (1) QA synthesis agent lấy kiến thức tươi từ web sống, (2) information filtering agent lọc theo độ tin cậy và phổ biến để chặn shortcut, (3) guidance agent hình thức hoá câu hỏi thành reasoning graphs
›Framework hỗ trợ tổng hợp hoàn toàn tự động, cho phép cập nhật định kỳ để ngăn chặn nhiễm dữ liệu và duy trì temporal freshness
›Benchmark yêu cầu tìm kiếm ngang rộng (broad horizontal search) với độ khó cao
›Thiết lập mô hình có thể mở rộng cho auto-updatable, high-difficulty benchmarking, kịp theo kiến thức thế giới tiến hóa và khả năng agent cải tiến

#Đánh giá LLM #Tác nhân tìm kiếm #Benchmark

AK (_akhaliq)XBài đăng·2 ngày trước

Cohere Transcribe dẫn đầu benchmark Far-Field ASR của Hugging Face

›Cohere công bố Transcribe, mô hình nhận dạng giọng nói (ASR) mã nguồn mở

#ASR #Nhận dạng giọng nói #Cohere #Benchmark

swyx (Shawn Wang)XBài đăng·3 ngày trước

Phân tích FrontierCode: 3 era của AI coding và 'vibe shift' tháng 12 2025

›METR phát hiện hơn 50% kết quả SWEBench là mã chất lượng thấp không thể merge

#FrontierCode #Benchmark #LLM #Coding AI

swyx (Shawn Wang)XBài đăng·3 ngày trước

FC Diamond: Sự tăng vọt lớn và Fable là class mô hình hoàn toàn mới

›Kết quả FC Diamond cho thấy mức độ tăng vọt lớn hơn các biểu đồ chính thức, phá vỡ các curve fit truyền thống

#Claude Fable #Mythos #Benchmark #LLM

Andrej KarpathyXBài đăng·3 ngày trước

Claude Fable 5: Bước tiến lớn với hiệu suất SOTA trên mọi benchmark

›Claude Fable 5 dùng cùng mô hình cơ bản như Mythos nhưng có thêm các biện pháp bảo vệ an toàn, đạt SOTA trên hầu hết benchmark

#LLM #Claude #Benchmark #Phát triển phần mềm

Jeremy HowardXBài đăng·3 ngày trước

Holy chart crime – Nhận xét về Claude Fable 5 đạt 72.9% trên CursorBench

›Cursor công bố Claude Fable 5 hiện có sẵn, đạt kết quả 72.9% trên CursorBench, cao hơn 8 điểm so với kết quả tốt nhất trước đó.

#LLM #Claude #Benchmark

swyx (Shawn Wang)XBài đăng·4 ngày trước

FrontierCode được lấy cảm hứng từ nghiên cứu hiệu quả tool calling

›Công việc FrontierCode của swyx ở Cognition được lấy cảm hứng từ thảo luận về hiệu quả và chất lượng tool calling

#FrontierCode #Tool Calling #Benchmark

swyx (Shawn Wang)BlogBài viết·4 ngày trước

FrontierCode: Benchmark Đánh Giá Chất Lượng Code Vượt Qua Sự Lười Biếng

›AI Engineer World's Fair 2026 đã bán hết vé phase thứ hai, chỉ còn 500 vé cuối cùng với chiết khấu 20% cho 20 độc giả đầu tiên
›Cognition ra mắt FrontierCode, một benchmark mới trong cuộc chiến chống 'slop' (code lười biếng, không bảo trì được)
›Mỗi bài tập trong FrontierCode đã mất hơn 40 giờ công việc từ các nhà duy trì open source hàng đầu để phát triển
›FrontierCode đo lường liệu code do AI viết có đủ chất lượng để thực sự merge vào project hay không - phải vừa hoạt động vừa dễ bảo trì
›Benchmark lấy cảm hứng từ FrontierMath, tập trung vào các bài toán cực kỳ khó dành cho các mô hình frontier
›Liên quan đến SWEBench-Verified và các thảo luận về tiêu chí đánh giá chất lượng code cũng như khả năng bảo trì của mô hình AI

#Benchmark #Lập trình #Đánh giá AI

swyx (Shawn Wang)XBài đăng·4 ngày trước

FrontierCode: Benchmark mới đo lường mã duy trì được - hơn nửa SWEBench là rác không thể merge

›METR Evals phát hiện rằng hơn nửa kết quả SWEBench là code không thể merge, chứng tỏ sự hạn chế của benchmark cũ

#FrontierCode #Benchmark #AI Coding #Opus

Clement DelangueXBài đăng·5 ngày trước

Model Nex-N2-mini: 35B tham số huấn luyện cho agentic use

›Nex-N2-mini là model 35B tham số được huấn luyện đặc biệt cho agentic use.

#LLM #Benchmark #Agent

Logan KilpatrickXBài đăng·6 ngày trước

Mỗi công ty đầu tư mạo hiểm nên có đội ngũ đánh giá và benchmark mô hình AI

›Các công ty venture capital cần thành lập đội ngũ chuyên biệt về đánh giá (evals) và benchmark cho các mô hình AI

#Đánh giá AI #Venture capital #Benchmark

DAIR.AIXBài đăng·7 ngày trước

Continual Learning Bench: Các hệ thống bộ nhớ chuyên biệt chưa vượt trội hơn học trong ngữ cảnh

›Continual Learning (học liên tục) là lĩnh vực nhận được nhiều đầu tư, nhưng đo lường tiến bộ vẫn còn hạn chế.

#Continual Learning #Agents #Benchmark #Memory Systems

Xem thêm tin cũ hơn (38)