Dòng tin

7 nội dung mới nhất

Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung

Điều Quan Trọng Nhất Hôm Nay

›Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.

Tất cả

AK (_akhaliq)HF PapersPaper·2 ngày trước

›Giới thiệu EvoArena, suite benchmark mô hình các thay đổi môi trường như chuỗi cập nhật tiến hành trên terminal, software, và social domains
›Đề xuất EvoMem, mô hình bộ nhớ dựa trên patch ghi lại tiến hóa bộ nhớ như lịch sử cập nhật có cấu trúc, cho phép agent suy luận về tiến hóa môi trường
›Các agent hiện tại đạt độ chính xác trung bình 39.6% trên EvoArena, cho thấy họ gặp khó khăn với environments động; EvoMem cải thiện 1.5% trên EvoArena, 6.1% trên GAIA, 4.8% trên LoCoMo
›EvoMem cải thiện chain-level accuracy 3.7% trên EvoArena khi yêu cầu hoàn thành chuỗi các evolutionary subtasks liên quan
›Phân tích cơ chế cho thấy EvoMem cải thiện evidence capture trong bộ nhớ, dẫn tới bảo tồn tốt hơn của complete evolving environment states
›Kết quả nhấn mạnh tầm quan trọng của mô hình hoá tiến hóa trong cả đánh giá và bộ nhớ để triển khai agent đáng tin cậy

AK (_akhaliq)HF PapersPaper·3 ngày trước

›EEVEE là khung công tác đầu tiên cho học prompt lúc kiểm tra (test-time prompt learning) với nhiều bộ dữ liệu cho các agent LLM, cho phép học prompt thích ứng trên các luồng tác vụ thực tế không đồng nhất từ nhiều bộ dữ liệu, miền và phân bố tác vụ khác nhau
›Giới thiệu router (bộ định tuyến) phân chia đầu vào thành các cụm tác vụ và gán chúng vào các cấu hình prompt phù hợp, giải quyết vấn đề can thiệp giữa các tập dữ liệu
›Sử dụng chiến lược router-prompt co-evolution với các pha học lặp lại để xử lý sự phụ thuộc lẫn nhau giữa router và prompt
›Kết quả thực nghiệm: EEVEE cải thiện điểm số trung bình trên nhiều benchmark lên 10,38 và 24,32 điểm so với Qwen3-4B-Instruct và DeepSeek-V3.2, vượt trội các phương pháp SOTA như GEPA và ACE lên đến 37,2% và 48,2%

AK (_akhaliq)HF PapersPaper·9 ngày trước

›AURA là phương pháp mới giúp agents LLM tình huống (situated agents) hiểu được nhu cầu tiềm ẩn của người dùng ngoài ý nghĩa bề mặt của truy vấn
›Chèn một bước suy luận (inference step) giữa nhận thức cảnh (scene perception) và tool use để tạo ra IntentFrame — ước tính có cấu trúc của nhu cầu tiềm ẩn với gap score điều khiển ngân sách probe per-query
›Trên benchmark 100 truy vấn với 4 cảnh, AURA cải thiện coverage nhu cầu tiềm ẩn +0.07 so với ReAct-style probing (p < 10^-6), với 3/4 cảnh có ý nghĩa thống kê riêng
›Trên tác vụ tra cứu thực tế, đạt 82% ít probe hơn và zero vi phạm forbidden-tool trên các truy vấn nhạy cảm về quyền riêng tư
›Code, simulator, và benchmark được công khai tại GitHub

AK (_akhaliq)HF PapersPaper·12 ngày trước

›Model Context Protocol (MCP) là tiêu chuẩn biến đổi để kết nối LLMs với các nguồn dữ liệu và công cụ bên ngoài, được áp dụng nhanh chóng trong các ứng dụng cá nhân
›Các benchmark hiện tại chủ yếu tập trung vào công cụ tìm kiếm thông tin chung, không nắm bắt được thách thức thực tiễn của các ứng dụng xã hội cá nhân nơi công cụ tương tác với tài khoản cá nhân hoặc cơ sở dữ liệu cục bộ
›Giới thiệu MCP-Persona, benchmark đầu tiên được thiết kế đặc biệt để đánh giá hiệu suất agent trên các công cụ MCP cá nhân hóa thực tế, bao gồm Reddit, Xiaohongshu/Rednote, Lark/Feishu, và Slack
›Các thí nghiệm rộng rãi với các agents SOTA khác nhau cho thấy chúng gặp khó khăn đáng kể với việc sử dụng công cụ cá nhân hóa, nêu bật vai trò quan trọng của benchmark trong xác định và khắc phục những giới hạn này
›Công khai sẵn tại GitHub để hỗ trợ nghiên cứu và phát triển agent

AK (_akhaliq)HF PapersPaper·16 ngày trước

›Tool retrieval trên large API catalogs là bottleneck chính cho LLM agents: user queries dùng natural language, nhưng API catalog dùng technical vocabulary mà fixed encoder không thể bridge.
›So sánh hai approach phổ biến: contrastive encoder fine-tuning excel khi surface form matches catalog nhưng fail khi không; HyDE-style robust với underspecified queries nhưng generate catalog-unaware descriptions.
›Giới thiệu CoHyDE - iterative procedure co-evolving: encoder retrained với InfoNCE trên catalog-style hypothetical descriptions từ rewriter, rewriter preference-aligned via DPO theo encoder's retrieval scores.
›Cả hai components warm-start trên tool catalog trước co-training loop.
›Trên ~10k tool subset của ToolBench catalog: 3 rounds of CoHyDE cải thiện +2.5 pp NDCG@5 trên standard queries, +6.3 pp trên vague queries, lên tới +8 pp trên hardest vague tier.
›Ablation studies xác nhận co-training là key ingredient: dùng một component đơn lẻ fail match CoHyDE, tổn thất lên tới -8 pp trên vague queries.

Andrej KarpathyXBài đăng·2 tháng trước

›Farzapedia là bách khoa toàn thư cá nhân được LLM tạo từ 2,500 mục nhật ký, Apple Notes và iMessage, bao gồm 400 bài viết chi tiết với backlink.

Andrej KarpathyXBài đăng·2 tháng trước

›Tweet về LLM Knowledge Bases đã viral, tác giả chia sẻ phiên bản cải tiến dưới dạng 'idea file' để người khác tận dụng.