Dòng tin
Bản tin hôm nay
Thứ Bảy 13 Th6, 2026 · 294 nội dung
Điều Quan Trọng Nhất Hôm Nay
- ›Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.
Mới hôm nay
Nâng cấp công cụ OpenAI WebRTC với gpt-realtime-2 và hỗ trợ tài liệu
- ›Simon Willison nâng cấp công cụ OpenAI-WebRTC playground để sử dụng mô hình gpt-realtime-2 được cải thiện hơn
Nâng cấp công cụ OpenAI WebRTC với gpt-realtime-2 và hỗ trợ tài liệu
- ›Simon Willison nâng cấp công cụ OpenAI-WebRTC playground để hỗ trợ mô hình gpt-realtime-2 được cải thiện
OpenAI WebRTC Audio Session - Hỗ trợ ngữ cảnh tài liệu
- ›Simon Willison xây dựng phiên bản đầu tiên tháng 12/2024 để thử nghiệm OpenAI WebRTC API cho tương tác với mô hình audio realtime
- ›OpenAI gần đây giới thiệu gpt-realtime-2 - 'mô hình giọng nói đầu tiên với khả năng suy luận như GPT-5' với kiến thức cắt ngang 30/9/2024
- ›Mô hình vẫn chưa xuất hiện trong ứng dụng iPhone ChatGPT, nên Simon nâng cấp công cụ để sử dụng gpt-realtime-2
- ›Cập nhật cho phép chọn mô hình, dán ngữ cảnh tài liệu lớn, và trò chuyện bằng giọng nói trực tiếp
- ›Giao diện bao gồm token API, chọn giọng/mô hình, vùng dán tài liệu (tùy chọn), và hiển thị transcript
Text-to-SQL không phải bài toán đã giải quyết
- ›Text-to-SQL tưởng chừng như đã là bài toán được giải quyết nhưng thực tế vẫn còn nhiều thách thức do dữ liệu thực tế rất phức tạp và lộn xộn
Claude Fable 5 đạt điểm cao trên benchmark FrontierMath
- ›Claude Fable 5 ghi dấu ấn trên bài kiểm tra FrontierMath với tỷ lệ chính xác 87% trên Tiers 1-3 và 88% trên Tier 4 (v2)
SpenseGPT: Cắt tỉa một lần cho GEMM thưa/dày trong suy luận LLM
- ›SpenseGPT là phương pháp cắt tỉa một lần (one-shot pruning) được thiết kế cho suy luận LLM
MiniMax phát hành kernel trên Hugging Face
- ›MiniMax đã phát hành kernel MSA trên Hugging Face Kernel Hub
MiniMax phát hành kernel trên Hugging Face
- ›MiniMax đã phát hành một kernel mới trên nền tảng Hugging Face
MiniMax M3: Mô Hình Mã Mở 428 Tỷ Tham Số Dành Cho Thời Đại Agent
- ›MiniMax M3 từ MiniMax_AI được phát hành trên Hugging Face với mã nguồn mở hoàn toàn
MiniMax M3 - Mô Hình Open-Weight Trên Hugging Face
- ›MiniMax M3 từ MiniMax AI hiện đã khả dụng trên Hugging Face, được hỗ trợ bởi Novita.
MiniMax M3 - Mô hình 428B với 23B tham số kích hoạt
- ›MiniMax M3 hiện đã có sẵn trên Hugging Face, được hỗ trợ bởi Novita
Các mô hình LLM frontier vượt trội các công cụ AI lâm sàng
- ›Các frontier LLM (Google, OpenAI, Anthropic) vượt trội hơn các công cụ AI lâm sàng chuyên dụng như OpenEvidence và UpToDate trên ba bài đánh giá
Kimi-K2.7-Code - Mô Hình Lập Trình Mới
- ›Mô hình Kimi-K2.7-Code đã được phát hành trên Hugging Face.
Hugging Face giới thiệu Kimi-K2.7-Code của Moonshot AI
- ›Hugging Face chia sẻ mô hình Kimi-K2.7-Code từ Moonshot AI
MiniMax M3 - Mô Hình Open-Weight Với Hiệu Năng Coding Đột Phá
- ›MiniMax M3 là mô hình open-weight với ~428B tham số tổng cộng và ~23B tham số hoạt động, phát hành trên Hugging Face.
MiniMax v3 xuất bản với kernel MSA tối ưu hóa chuỗi dài
- ›MiniMax v3 được phát hành kèm kernel MSA (Multi-head Sparse Attention) mới
Kimi phát hành Kimi-K2.7-Code - mô hình code frontier mới open source
- ›Kimi.ai (Moonshot AI) đã công bố Kimi-K2.7-Code, một mô hình code open source mới thuộc dòng frontier (tiên tiến)
Công bố mã và trọng số Kimi K2.7-Code
- ›Công bố mô hình Kimi K2.7-Code cùng mã nguồn mở và trọng số
Trước đó
Kỹ năng /learn: công cụ học tập thích ứng sắp ra mắt
- ›Giới thiệu kỹ năng /learn — một công cụ học tập có thể tùy chỉnh theo chủ đề và mức độ hiểu biết của người dùng
Mâu thuẫn trong các con số không phải là vấn đề prompt đơn thuần
- ›Ethan Mollick trả lời các bình luận, bất đồng với quan điểm rằng một vấn đề chỉ là 'pure prompting problem'
Các mô hình LLM tiên tiến vẫn thất bại với bài kiểm tra dịch thuật Beninatto-Trombetti
- ›Valerio Capraro giới thiệu 'Beninatto-Trombetti test', bài kiểm tra dịch thuật chuyên nghiệp để đánh giá khả năng suy luận ngữ cảnh và cập nhật hình thức của các LLM
Opus 4.8 và GPT-5.5: sự kết hợp tối ưu lập kế hoạch và thực thi
- ›Sử dụng Claude Opus 4.8 cho lập kế hoạch (planning) và GPT-5.5 cho thực thi (execution) là sự kết hợp hiệu quả
Tối ưu hóa phong cách lập trình để các mô hình LLM yếu hơn cũng có thể xử lý code
- ›Có thể tối ưu hóa cách viết code sao cho các mô hình LLM yếu hơn vẫn có khả năng thực hiện được nhiệm vụ trong một codebase
Atomic Chat chính thức được công bố trên Hugging Face
- ›Atomic Chat được chính thức công bố là một Local App trên Hugging Face - nền tảng AI lớn nhất thế giới
Nhắc Nhở Hàng Ngày: Sử Dụng Gateway Giữa Code và Các Nhà Cung Cấp Mô Hình
- ›Khuyên sử dụng gateway/API gateway làm trung gian giữa code và các nhà cung cấp mô hình AI thay vì kết nối trực tiếp
Ma trận so sánh các mô hình LLM
- ›Chia sẻ ma trận so sánh các mô hình ngôn ngữ lớn (hình ảnh)
MiniMax Sparse Attention: Xử Lý Ngữ Cảnh Siêu Dài Hiệu Quả cho LLM
- ›Giới thiệu MiniMax Sparse Attention (MSA), cơ chế attention thưa theo khối dựa trên Grouped Query Attention (GQA) để xử lý ngữ cảnh 1M token
- ›Index Branch nhẹ xác điểm key-value blocks và độc lập chọn Top-k subset cho mỗi GQA group; Main Branch thực hiện block-sparse attention chính xác trên blocks được chọn
- ›Thiết kế đơn giản, dễ triển khai hiệu quả trên nhiều GPU; đồng thiết kế kernel GPU sử dụng exp-free Top-k selection và KV-outer sparse attention
- ›Trên mô hình 109B tham số với native multimodal training: giảm per-token attention compute 28.4x ở ngữ cảnh 1M, đạt 14.2x tăng tốc prefill và 7.6x decoding trên H800
- ›MiniMax-M3, mô hình natively multimodal production-grade sử dụng MSA, đã release công khai trên Hugging Face; inference kernel available trên GitHub
MaxProof: Tỷ Lệ Hóa Chứng Minh Toán Học Bằng Generative Verifier RL Và Test-Time Scaling Cấp Quần Thể
- ›MaxProof là framework test-time scaling chuyên dụng cho bài toán chứng minh toán cấp thi (IMO, USAMO), khác biệt với các cách tiếp cận truyền thống.
- ›Giai đoạn huấn luyện kết hợp ba khả năng: sinh chứng minh (generation), xác minh (verification), và sửa có điều kiện (conditional refinement), sử dụng generative verifier có tỷ lệ false-positive thấp.
- ›Tích hợp ba khả năng này thành một model M3 đơn nhất có thể hoạt động như generator, verifier, refiner, và ranker trong quá trình inference.
- ›Test-time strategy sử dụng tìm kiếm trên quần thể (population search) các chứng minh ứng viên kết hợp tournament selection để lựa chọn đáp án tốt nhất.
- ›Đạt kết quả ngoạn mục: 35/42 câu hỏi IMO 2025 và 36/42 câu hỏi USAMO 2026, vượt qua ngưỡng huy chương vàng (top 8 contestants) trên cả hai kỳ thi.
Phát hành datasette-agent 0.2a0 với tính năng hỏi người dùng giữa lúc thực thi
- ›datasette-agent 0.2a0 cho phép các công cụ hỏi người dùng câu hỏi trong quá trình thực thi - công cụ khai báo tham số `context` để nhận đối tượng `ToolContext`
- ›Công cụ sử dụng `await context.ask_user()` để hỏi yes/no, multiple-choice hoặc free-text questions
- ›Khi câu hỏi chưa được trả lời, agent turn bị tạm dừng - câu hỏi render thành form trong chat UI và lưu trữ trong database nội bộ để phục hồi sau khi server khởi động lại
- ›Khi câu trả lời được gửi, công cụ thực thi lại từ đầu với các câu trả lời đã lưu được replay, đảm bảo không có side effects trước khi người dùng trả lời
- ›Công cụ `save_query` mới cho phép agent lưu SQL dưới dạng Datasette stored query - quá trình lưu luôn yêu cầu phê duyệt từ người dùng với hiển thị SQL đầy đủ, tên, database và cài đặt visibility
Nhà cung cấp voice AI hàng đầu giảm giá API 50% trên toàn bộ stack
- ›Inworld AI, một trong những nhà cung cấp voice AI tốt nhất, đã giảm giá API khoảng 50% trên toàn bộ stack gồm TTS, STT và LLM
Anthropic giới hạn các khả năng vô hại như nghiên cứu LLM với bộ lọc moderation quá nhạy cảm
- ›Anthropic đang áp dụng các biện pháp gating (giới hạn khả năng) đối với các hoạt động vô hại như nghiên cứu LLM.
Tại sao chỉ chuyển sang mô hình rẻ hơn không phải là giải pháp tối ưu
- ›Lời khuyên 'chuyển sang mô hình rẻ hơn để tiết kiệm chi phí' là không tối ưu vì các mô hình rẻ hơn luôn kém chất lượng hơn
Lần đầu tiên chạy mô hình trillion-parameter trên thiết bị cá nhân
- ›Công bố lần đầu tiên: có thể chạy mô hình trillion-parameter (1 triệu tỷ tham số) trên phần cứng cá nhân, nhờ công nghệ NVIDIA-accelerated
Chạy DiffusionGemma trên NVIDIA: Sinh tạo Văn bản Tốc độ Cao cho Nhà phát triển
- ›DiffusionGemma do Google DeepMind tạo ra, được tối ưu hóa chuyên biệt để chạy hiệu quả trên nền tảng NVIDIA
- ›Đối trọng vấn đề chai hẹp tốc độ sinh tạo token-by-token trong các ứng dụng AI thời gian thực (chatbot, copilot, agentic workflows)
- ›Cải thiện độ phản hồi, giảm chi phí phục vụ mô hình, và tạo trải nghiệm tương tác mượt mà hơn
- ›Cung cấp khả năng sinh tạo văn bản công suất cao (high-throughput), sẵn dùng cho nhà phát triển mà không cần phức tạp hóa
Lời kêu gọi Anthropic thay đổi chính sách về hành động thao túng mô hình AI
- ›Simon Willison chỉ trích Anthropic - công ty nổi tiếng vì nhận thức về AI manipulation (thao túng AI) - lại đang cho phép các hành động mà anh coi là hình thức cao nhất của thao túng: cung cấp ý định các câu trả lời xấu cho người dùng mà họ không biết
34 ngày từ ký kết hợp đồng đến phát hành mô hình Mythos
- ›Mô hình Mythos-class được phát hành chỉ trong vòng 34 ngày kể từ ký kết hợp đồng, cho thấy tốc độ phát triển đáng chú ý
Phân tích FrontierCode: 3 era của AI coding và 'vibe shift' tháng 12 2025
- ›METR phát hiện hơn 50% kết quả SWEBench là mã chất lượng thấp không thể merge
FC Diamond: Sự tăng vọt lớn và Fable là class mô hình hoàn toàn mới
- ›Kết quả FC Diamond cho thấy mức độ tăng vọt lớn hơn các biểu đồ chính thức, phá vỡ các curve fit truyền thống
Claude Fable 5: Bước tiến lớn với hiệu suất SOTA trên mọi benchmark
- ›Claude Fable 5 dùng cùng mô hình cơ bản như Mythos nhưng có thêm các biện pháp bảo vệ an toàn, đạt SOTA trên hầu hết benchmark
Holy chart crime – Nhận xét về Claude Fable 5 đạt 72.9% trên CursorBench
- ›Cursor công bố Claude Fable 5 hiện có sẵn, đạt kết quả 72.9% trên CursorBench, cao hơn 8 điểm so với kết quả tốt nhất trước đó.
Mythos sẽ cố ý kém hiệu suất trên các tác vụ nghiên cứu LLM biên giới
- ›Mythos sẽ cố ý hoạt động kém trên các tác vụ 'frontier LLM research', là tin buồn cho cộng đồng nghiên cứu.
Anthropic Giới Thiệu Claude Fable 5: Mô Hình Mythos-class Dành Cho Sử Dụng Chung
- ›Anthropic ra mắt Claude Fable 5 - một mô hình Mythos-class đã được đảm bảo an toàn cho sử dụng chung
Giới thiệu Claude Fable 5: Mô hình Mythos-class
- ›Anthropic giới thiệu Claude Fable 5, một mô hình Mythos-class được tối ưu hóa cho sử dụng chung an toàn.
Claude Fable 5 và Mythos 5: Kỷ nguyên thứ ba của AI - từ task sang responsibility
- ›Anthropic công bố Claude Fable 5 và Mythos 5, hai phiên bản khác nhau của next major language model
LCML - Các Mô hình Ngôn ngữ Nén Ngữ cảnh Tiềm ẩn
- ›Các nhà nghiên cứu đã phát triển LCML (Latent Context Language Models) - mô hình ngôn ngữ có khả năng nén các ngữ cảnh lớn thành các biểu diễn tiềm ẩn nhỏ gọn
Huấn luyện mô hình nhanh hơn với JAX và MaxText sử dụng NVFP4 trên NVIDIA Blackwell
- ›Huấn luyện các mô hình LLM biên giới phụ thuộc chủ yếu vào thông lượng xử lý (throughput)
- ›Khi huấn luyện trên hàng triệu token trên hàng ngàn GPU, mỗi phần trăm cải thiện thời gian bước huấn luyện có thể tiết kiệm hàng ngày huấn luyện và chi phí tính toán đáng kể
- ›Độ chính xác số (numerical precision) là một trong những yếu tố cấp độ cao nhất để tối ưu hóa hiệu suất huấn luyện
- ›NVFP4 cho phép huấn luyện mixed-precision ở mức độ thấp (low-bit) một cách hiệu quả trên NVIDIA Blackwell, giải quyết vấn đề khó thực hiện trước đây
Mã hóa hướng dẫn rõ ràng vào các automation với mục tiêu cụ thể
- ›Nên bắt đầu triển khai các cách mã hóa instructions/prompts có mục tiêu rõ ràng vào các automation
Những kết quả kỳ diệu từ distillation của Geoffrey Hinton
- ›Geoffrey Hinton công bố những kết quả về distillation (chưng cất mô hình) gây sốc — mức độ mạnh mẽ và hiệu quả vượt quá mong đợi ngay cả khi được dịch giả Jeremy Howard thừa nhận chưa hoàn toàn hiểu hết