Dòng tin

10 nội dung mới nhất
Bản tin hôm nay

🤖 Bản tin AI Hằng ngày: Cân bằng giữa Đột phá và Kiểm soát

Thứ Ba 16 Th6, 2026 · 94 nội dung
⚖️ Chính sách & Tranh luận
  • Chuyên gia Simon Willison chỉ trích lệnh cấm xuất khẩu mô hình Fable có thể gây hại cho phòng thủ mạng, trong khi Clement Delangue nhấn mạnh mã nguồn mở là chìa khóa để doanh nghiệp không bị "khóa chặt" vào các nhà cung cấp độc quyền.
🧬 Đột phá Công nghệ & Mô hình Mới
  • Radical Numerics gọi vốn 50 triệu USD ra mắt mô hình ngôn ngữ hệ gen Omnii, trong khi Cartesia tung ra Sonic-3.5 với chất lượng giọng nói khó phân biệt với người thật, đặt ra thách thức lớn cho các tổng đài truyền thống.
💻 Tư duy Lập trình & AI Agents
  • swyx dự đoán quy trình review code truyền thống sẽ biến mất vào năm 2026, thay vào đó là sự lên ngôi của các "harness" (khung làm việc) thông minh. Bài học rút ra: Đừng chỉ dùng API trần, hãy học cách xây dựng hệ thống bao bọc (scaffolding) để tối ưu hóa sức mạnh thực sự của mô hình.
🌍 Tầm nhìn Tương lai & Đạo đức
  • Fei-Fei Li nhấn mạnh tương lai AI phải dựa trên quyền tự chủ và sự thấu hiểu của con người qua các "world models". Đồng thời, François Chollet cảnh báo rằng thiếu các benchmark tiêu chuẩn hóa sẽ khiến ngành AI dễ bị tổn thương trước các quy định tùy tiện của chính phủ.
Tất cả
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·2 ngày trước
VisualClaw: Tác nhân đa phương thức tự tiến hóa, thời gian thực và được cá nhân hóa cho thế giới thực
  • VisualClaw là một tác nhân đa phương thức tự tiến hóa (self-evolving multimodal agent), giải quyết ba hạn chế của VLMs: độ trễ và chi phí cao khi xử lý video dày đặc, khung tác nhân (agent scaffold) tĩnh sau khi triển khai, và các benchmark video-QA tiêu chuẩn không kiểm tra khả năng sử dụng bằng chứng hình ảnh trong không gian làm việc có công cụ.
  • Framework dựa trên hai nguyên tắc: mã hóa lai (hybrid encoding) giảm chi phí bằng cách lọc khung hình ít thông tin qua cổng tầng (cascaded gate) và nén ngân hàng kỹ năng văn bản; cùng với sự tiến hóa kỹ năng (skill evolution) cho phép tác nhân học từ thất bại để cập nhật ngân hàng kỹ năng.
  • Trên 4 benchmark video-QA với 2 VLMs, VisualClaw giảm trung bình 98% chi phí API cho mỗi câu hỏi so với tải lên toàn bộ khung hình, và giảm 25.9% so với baseline 8 khung hình đồng đều ngoại tuyến.
  • Độ chính xác được cải thiện trong hầu hết các cài đặt, ví dụ: tăng trung bình 3.85% và đạt đỉnh 15.80% trên EgoSchema khi sử dụng Gemini 3 Flash.
  • Nhóm nghiên cứu giới thiệu VisualClawArena, một benchmark đa tác nhân đa phương thức gồm 200 kịch bản, yêu cầu mô hình sử dụng bằng chứng video, tài liệu, cập nhật động và kiểm tra có thể thực thi trong không gian làm việc.
  • Trên VisualClawArena, framework này cải thiện độ chính xác macro thêm 2.9% cho Codex (GPT-5.5) và 3.2% cho Claude Code (Sonnet 4.6) so với baseline không tiến hóa, đồng thời giảm 9.5% chi phí.
  • Các đặc tính này giúp VisualClaw phù hợp cho ứng dụng edge, giảm một phiên phát trực tuyến 1 giờ từ khoảng 3.600 lần gọi API xuống chỉ còn 5-20 lần gọi, biến nó thành trợ lý cá nhân hóa lý tưởng.
Clement Delangue
Clement DelangueXBài đăng·5 ngày trước
Về lỗi logic 'fallacy of division' trong so sánh điểm benchmark: Opus 4.8 có thể vẫn vượt trội Fable 5 trên một số test cụ thể
  • Giải thích 'fallacy of division' (sai lầm chia tách): chỉ vì một mô hình có điểm trung bình thấp hơn không có nghĩa nó kém hơn trên 100% các truy vấn riêng lẻ
swyx (Shawn Wang)
swyx (Shawn Wang)BlogBài viết·7 ngày trước
Claude Fable 5: Model Mythos được phát hành công khai với cải thiện benchmark đáng kể
  • Anthropic công bố Claude Fable 5, một model Mythos-class (kích thước ít nhất gấp 2 lần Opus 4.8), khả dụng cho tất cả người dùng.
  • Sự phát hành này diễn ra 34 ngày sau SpaceXai deal và 63 ngày sau thông báo ban đầu về Mythos, cùng lúc với Claude Tokyo - thể hiện tốc độ phát triển đặc biệt nhanh chóng.
  • Thành tích kỹ thuật lớn lao trong việc đưa các research model lên trạng thái GA (Generally Available) với cam kết truy cập rộng rãi cho cộng đồng.
  • Hiệu năng cải thiện đáng kể trên benchmark FrontierCode Diamond (mới, out-of-distribution), tăng từ 13.4% lên 29.3%.
  • Mặc dù benchmark tốt nhưng bài viết nêu rõ có một số 'asterisks' (cảnh báo/điểm cần lưu ý) về kết quả, yêu cầu đánh giá chi tiết hơn.
Simon Willison
Simon WillisonXBài đăng·8 ngày trước
Claude Fable 5: Model lập trình hàng đầu với hiệu năng xuất sắc nhưng chi phí cao
  • Claude Fable 5 đạt 91/100 trên benchmark Senior Engineer (mức con người), vượt xa Opus 4.8 (63 điểm) và GPT-5.5 (62 điểm) - hiệu năng vượt trội nhất từng thấy
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·9 ngày trước
Cứng hóa Agent Benchmarks với các vòng lặp Hacker-Fixer đối kháng
  • Kiểm toán 1,968 tác vụ trên năm terminal-agent benchmarks, phát hiện 323 (16%) có thể bị hack bởi frontier models chỉ với mô tả tác vụ, làm sai lệch leaderboard và RL training signal
  • Đề xuất hacker-fixer loop — phương pháp xây dựng exploit-resistant verifier mà không cần manual patching từng tác vụ, xen kẽ ba agent: hacker tìm exploit, fixer vá verifier, solver xác nhận giải pháp hợp lệ
  • Trên KernelBench, vòng lặp giảm attack success rate từ 62% xuống 0% trên exploit corpus công khai; Gemini 3 Flash loop đưa Gemini 3.1 Pro và Claude Opus 4.7 từ 76% và 61% xuống 0%
  • Release Terminal Wrench: 323 hackable environments, 3,632 hack trajectories, patched verifier, và implementation làm cơ sở cho công việc tương lai
Ethan Mollick
Ethan MollickXBài đăng·11 ngày trước
Các bản phát hành AI ngày càng tốt hơn từ OpenAI và Anthropic
  • Các bản phát hành AI ý nghĩa hơn đang tăng tốc độ, đặc biệt từ OpenAI và Anthropic
Jack Clark
Jack ClarkXBài đăng·khoảng 1 tháng trước
Bài viết phản biện tuyên bố 'RSI 60% trước cuối 2028' với các benchmark cụ thể cho cái nhìn thận trọng hơn
  • Jack Clark ca ngợi bài viết phản biện tuyên bố 'RSI (Recursive Self-Improvement) đạt 60% trước cuối 2028' của ông
Jack Clark
Jack ClarkXBài đăng·khoảng 1 tháng trước
CORE-Bench: Benchmark cho việc triển khai các bài báo AI
  • CORE-Bench là ví dụ về việc xây dựng kết luận từ nhiều nguồn dữ liệu khác nhau