Dòng tin

10 nội dung mới nhất

Tất cả 2126 Chuyên sâu 655 Đã lưu 0

Bản tin hôm nay

🤖 Bản tin AI Hằng ngày: Cân bằng giữa Đột phá và Kiểm soát

Thứ Ba 16 Th6, 2026 · 94 nội dung

⚖️ Chính sách & Tranh luận

›Chuyên gia Simon Willison chỉ trích lệnh cấm xuất khẩu mô hình Fable có thể gây hại cho phòng thủ mạng, trong khi Clement Delangue nhấn mạnh mã nguồn mở là chìa khóa để doanh nghiệp không bị "khóa chặt" vào các nhà cung cấp độc quyền.

🧬 Đột phá Công nghệ & Mô hình Mới

›Radical Numerics gọi vốn 50 triệu USD ra mắt mô hình ngôn ngữ hệ gen Omnii, trong khi Cartesia tung ra Sonic-3.5 với chất lượng giọng nói khó phân biệt với người thật, đặt ra thách thức lớn cho các tổng đài truyền thống.

💻 Tư duy Lập trình & AI Agents

›swyx dự đoán quy trình review code truyền thống sẽ biến mất vào năm 2026, thay vào đó là sự lên ngôi của các "harness" (khung làm việc) thông minh. Bài học rút ra: Đừng chỉ dùng API trần, hãy học cách xây dựng hệ thống bao bọc (scaffolding) để tối ưu hóa sức mạnh thực sự của mô hình.

🌍 Tầm nhìn Tương lai & Đạo đức

›Fei-Fei Li nhấn mạnh tương lai AI phải dựa trên quyền tự chủ và sự thấu hiểu của con người qua các "world models". Đồng thời, François Chollet cảnh báo rằng thiếu các benchmark tiêu chuẩn hóa sẽ khiến ngành AI dễ bị tổn thương trước các quy định tùy tiện của chính phủ.

⚖️ Chính sách & Tranh luận

›Chuyên gia Simon Willison chỉ trích lệnh cấm xuất khẩu mô hình Fable có thể gây hại cho phòng thủ mạng, trong khi Clement Delangue nhấn mạnh mã nguồn mở là chìa khóa để doanh nghiệp không bị "khóa chặt" vào các nhà cung cấp độc quyền.

🧬 Đột phá Công nghệ & Mô hình Mới

›Radical Numerics gọi vốn 50 triệu USD ra mắt mô hình ngôn ngữ hệ gen Omnii, trong khi Cartesia tung ra Sonic-3.5 với chất lượng giọng nói khó phân biệt với người thật, đặt ra thách thức lớn cho các tổng đài truyền thống.

💻 Tư duy Lập trình & AI Agents

›swyx dự đoán quy trình review code truyền thống sẽ biến mất vào năm 2026, thay vào đó là sự lên ngôi của các "harness" (khung làm việc) thông minh. Bài học rút ra: Đừng chỉ dùng API trần, hãy học cách xây dựng hệ thống bao bọc (scaffolding) để tối ưu hóa sức mạnh thực sự của mô hình.

🌍 Tầm nhìn Tương lai & Đạo đức

›Fei-Fei Li nhấn mạnh tương lai AI phải dựa trên quyền tự chủ và sự thấu hiểu của con người qua các "world models". Đồng thời, François Chollet cảnh báo rằng thiếu các benchmark tiêu chuẩn hóa sẽ khiến ngành AI dễ bị tổn thương trước các quy định tùy tiện của chính phủ.

Đọc đầy đủ

Tất cả

Ethan MollickXBài đăng·1 ngày trước

Meme 'le chaton fat' đang rò rỉ ra thế giới bên ngoài và tôi dự kiến sẽ bị hỏi về mô hình mèo khổng lồ mới của Mistral với điểm benchmark vô hạn trong cuộc họp tiếp theo với các lãnh đạo doanh nghiệp. Tôi đoán điều này vẫn tốt hơn là bị hỏi về 'nghiên cứu thí điểm AI của MIT'.

›Meme 'le chaton fat' (mèo con béo) đang lan rộng ra cộng đồng bên ngoài giới công nghệ.

#Văn hóa AI #Mistral #Benchmark AI

Ethan MollickXBài đăng·2 ngày trước

Tiêu đề kỳ lạ - Tôi không chắc việc giải được 7 trên 10 bài toán mới rất khó đồng nghĩa với việc AI 'không hoàn thành nhiệm vụ', khi mà 15 tháng trước LLMs còn không thể làm toán. Nhưng nghiên cứu thực tế rất thú vị và làm sáng tỏ những điểm yếu & thành công của AI trong toán học.

›Ethan Mollick chỉ trích tiêu đề của một bài báo (từ Nature) cho rằng AI 'không hoàn thành nhiệm vụ' (did not live up to the task) trong bài kiểm tra toán học khắt khe nhất.

#Toán học AI #LLM #Benchmark AI #Nghiên cứu AI

AK (_akhaliq)HF PapersPaper·2 ngày trước

VisualClaw: Tác nhân đa phương thức tự tiến hóa, thời gian thực và được cá nhân hóa cho thế giới thực

›VisualClaw là một tác nhân đa phương thức tự tiến hóa (self-evolving multimodal agent), giải quyết ba hạn chế của VLMs: độ trễ và chi phí cao khi xử lý video dày đặc, khung tác nhân (agent scaffold) tĩnh sau khi triển khai, và các benchmark video-QA tiêu chuẩn không kiểm tra khả năng sử dụng bằng chứng hình ảnh trong không gian làm việc có công cụ.
›Framework dựa trên hai nguyên tắc: mã hóa lai (hybrid encoding) giảm chi phí bằng cách lọc khung hình ít thông tin qua cổng tầng (cascaded gate) và nén ngân hàng kỹ năng văn bản; cùng với sự tiến hóa kỹ năng (skill evolution) cho phép tác nhân học từ thất bại để cập nhật ngân hàng kỹ năng.
›Trên 4 benchmark video-QA với 2 VLMs, VisualClaw giảm trung bình 98% chi phí API cho mỗi câu hỏi so với tải lên toàn bộ khung hình, và giảm 25.9% so với baseline 8 khung hình đồng đều ngoại tuyến.
›Độ chính xác được cải thiện trong hầu hết các cài đặt, ví dụ: tăng trung bình 3.85% và đạt đỉnh 15.80% trên EgoSchema khi sử dụng Gemini 3 Flash.
›Nhóm nghiên cứu giới thiệu VisualClawArena, một benchmark đa tác nhân đa phương thức gồm 200 kịch bản, yêu cầu mô hình sử dụng bằng chứng video, tài liệu, cập nhật động và kiểm tra có thể thực thi trong không gian làm việc.
›Trên VisualClawArena, framework này cải thiện độ chính xác macro thêm 2.9% cho Codex (GPT-5.5) và 3.2% cho Claude Code (Sonnet 4.6) so với baseline không tiến hóa, đồng thời giảm 9.5% chi phí.
›Các đặc tính này giúp VisualClaw phù hợp cho ứng dụng edge, giảm một phiên phát trực tuyến 1 giờ từ khoảng 3.600 lần gọi API xuống chỉ còn 5-20 lần gọi, biến nó thành trợ lý cá nhân hóa lý tưởng.

#Tác nhân AI #Thị giác máy tính #Tối ưu hóa chi phí #Benchmark AI

Clement DelangueXBài đăng·5 ngày trước

Về lỗi logic 'fallacy of division' trong so sánh điểm benchmark: Opus 4.8 có thể vẫn vượt trội Fable 5 trên một số test cụ thể

›Giải thích 'fallacy of division' (sai lầm chia tách): chỉ vì một mô hình có điểm trung bình thấp hơn không có nghĩa nó kém hơn trên 100% các truy vấn riêng lẻ

#LLM đánh giá #Benchmark AI #Transparency mô hình

swyx (Shawn Wang)BlogBài viết·7 ngày trước

Claude Fable 5: Model Mythos được phát hành công khai với cải thiện benchmark đáng kể

›Anthropic công bố Claude Fable 5, một model Mythos-class (kích thước ít nhất gấp 2 lần Opus 4.8), khả dụng cho tất cả người dùng.
›Sự phát hành này diễn ra 34 ngày sau SpaceXai deal và 63 ngày sau thông báo ban đầu về Mythos, cùng lúc với Claude Tokyo - thể hiện tốc độ phát triển đặc biệt nhanh chóng.
›Thành tích kỹ thuật lớn lao trong việc đưa các research model lên trạng thái GA (Generally Available) với cam kết truy cập rộng rãi cho cộng đồng.
›Hiệu năng cải thiện đáng kể trên benchmark FrontierCode Diamond (mới, out-of-distribution), tăng từ 13.4% lên 29.3%.
›Mặc dù benchmark tốt nhưng bài viết nêu rõ có một số 'asterisks' (cảnh báo/điểm cần lưu ý) về kết quả, yêu cầu đánh giá chi tiết hơn.

#Claude Fable 5 #Model Mythos #Benchmark AI

Simon WillisonXBài đăng·8 ngày trước

Claude Fable 5: Model lập trình hàng đầu với hiệu năng xuất sắc nhưng chi phí cao

›Claude Fable 5 đạt 91/100 trên benchmark Senior Engineer (mức con người), vượt xa Opus 4.8 (63 điểm) và GPT-5.5 (62 điểm) - hiệu năng vượt trội nhất từng thấy

#Claude Fable 5 #Benchmark AI #Lập trình với AI

AK (_akhaliq)HF PapersPaper·9 ngày trước

Cứng hóa Agent Benchmarks với các vòng lặp Hacker-Fixer đối kháng

›Kiểm toán 1,968 tác vụ trên năm terminal-agent benchmarks, phát hiện 323 (16%) có thể bị hack bởi frontier models chỉ với mô tả tác vụ, làm sai lệch leaderboard và RL training signal
›Đề xuất hacker-fixer loop — phương pháp xây dựng exploit-resistant verifier mà không cần manual patching từng tác vụ, xen kẽ ba agent: hacker tìm exploit, fixer vá verifier, solver xác nhận giải pháp hợp lệ
›Trên KernelBench, vòng lặp giảm attack success rate từ 62% xuống 0% trên exploit corpus công khai; Gemini 3 Flash loop đưa Gemini 3.1 Pro và Claude Opus 4.7 từ 76% và 61% xuống 0%
›Release Terminal Wrench: 323 hackable environments, 3,632 hack trajectories, patched verifier, và implementation làm cơ sở cho công việc tương lai

#Benchmark AI #An toàn agent #Học đối kháng

Ethan MollickXBài đăng·11 ngày trước

Các bản phát hành AI ngày càng tốt hơn từ OpenAI và Anthropic

›Các bản phát hành AI ý nghĩa hơn đang tăng tốc độ, đặc biệt từ OpenAI và Anthropic

#Tiến bộ LLM #OpenAI #Anthropic #Benchmark AI

Jack ClarkXBài đăng·khoảng 1 tháng trước

Bài viết phản biện tuyên bố 'RSI 60% trước cuối 2028' với các benchmark cụ thể cho cái nhìn thận trọng hơn

›Jack Clark ca ngợi bài viết phản biện tuyên bố 'RSI (Recursive Self-Improvement) đạt 60% trước cuối 2028' của ông

#AGI #Suy luận đệ quy #Benchmark AI

Jack ClarkXBài đăng·khoảng 1 tháng trước

CORE-Bench: Benchmark cho việc triển khai các bài báo AI

›CORE-Bench là ví dụ về việc xây dựng kết luận từ nhiều nguồn dữ liệu khác nhau

#CORE-Bench #Benchmark AI #Thực thi research #AI R&D

Thu gọn về 7 ngày gần nhất