Dòng tin

10 nội dung mới nhất
Bản tin hôm nay

🤖 Bản tin AI Hằng ngày: Cân bằng giữa Đột phá và Kiểm soát

Thứ Ba 16 Th6, 2026 · 94 nội dung
⚖️ Chính sách & Tranh luận
  • Chuyên gia Simon Willison chỉ trích lệnh cấm xuất khẩu mô hình Fable có thể gây hại cho phòng thủ mạng, trong khi Clement Delangue nhấn mạnh mã nguồn mở là chìa khóa để doanh nghiệp không bị "khóa chặt" vào các nhà cung cấp độc quyền.
🧬 Đột phá Công nghệ & Mô hình Mới
  • Radical Numerics gọi vốn 50 triệu USD ra mắt mô hình ngôn ngữ hệ gen Omnii, trong khi Cartesia tung ra Sonic-3.5 với chất lượng giọng nói khó phân biệt với người thật, đặt ra thách thức lớn cho các tổng đài truyền thống.
💻 Tư duy Lập trình & AI Agents
  • swyx dự đoán quy trình review code truyền thống sẽ biến mất vào năm 2026, thay vào đó là sự lên ngôi của các "harness" (khung làm việc) thông minh. Bài học rút ra: Đừng chỉ dùng API trần, hãy học cách xây dựng hệ thống bao bọc (scaffolding) để tối ưu hóa sức mạnh thực sự của mô hình.
🌍 Tầm nhìn Tương lai & Đạo đức
  • Fei-Fei Li nhấn mạnh tương lai AI phải dựa trên quyền tự chủ và sự thấu hiểu của con người qua các "world models". Đồng thời, François Chollet cảnh báo rằng thiếu các benchmark tiêu chuẩn hóa sẽ khiến ngành AI dễ bị tổn thương trước các quy định tùy tiện của chính phủ.
Tất cả
AK (_akhaliq)
AK (_akhaliq)XBài đăng·5 ngày trước
Gemma 4 12B: Hơn 4 triệu lần tải xuống chỉ trong tuần đầu, VLM encoderfree phổ biến nhất
  • Google phát hành Gemma 4 12B tuần trước và đã đạt hơn 4 triệu lần tải xuống trên HuggingFace một mình
#Gemma#VLM#Google#LLM
Clement Delangue
Clement DelangueXBài đăng·5 ngày trước
Gemma 4 12B đạt 4 triệu lượt tải, là VLM không encoder phổ biến nhất
  • Gemma 4 12B phát hành tuần trước đã đạt hơn 4 triệu lượt tải xuống trên Hugging Face, trở thành VLM không encoder phổ biến nhất với khoảng cách lớn so với các model khác.
#Gemma 4#VLM#Audio#LLM
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·14 ngày trước
Bộ Mã hoá Hình ảnh Có Trạng thái cho Mô hình Thị giác-Ngôn ngữ
  • Các mô hình thị giác-ngôn ngữ (VLM) được sử dụng rộng rãi trong các cài đặt đa hình ảnh, đa lượt tương tác với agents, nơi quyết định phụ thuộc vào sự thay đổi hình ảnh qua thời gian
  • Hiện tại, bộ mã hoá hình ảnh trong VLM mã mở là stateless (không có trạng thái) — mỗi hình ảnh được mã hoá độc lập mà không có quyền truy cập vào ngữ cảnh hình ảnh trước đó, khiến các thay đổi nhỏ nhưng quan trọng bị suy giảm trước khi mô hình ngôn ngữ có cơ hội so sánh
  • Giới thiệu Stateful Visual Encoder, điều chỉnh mỗi biểu diễn hình ảnh dựa trên các đặc trưng hình ảnh trước đó, cải thiện sự nhạy cảm với những thay đổi tinh tế
  • Với tinh chỉnh có giám sát, VLM được trang bị stateful encoders đạt cải thiện nhất quán trên các tác vụ tổng hợp không gian đa hình ảnh, phân biệt hình ảnh đa đối tượng, và sao chép hành vi quỹ đạo
  • Các cải thiện nhất quán trên các độ phân giải đầu vào, kích thước mô hình ngôn ngữ và các kiến trúc VLM khác nhau, từ các bài kiểm tra được kiểm soát đến các ứng dụng thực tế như chẩn đoán hình ảnh y tế dọc theo thời gian, so sánh hình ảnh tỉ mỉ, và cảm biến từ xa
AK (_akhaliq)
AK (_akhaliq)XBài đăng·15 ngày trước
Nghiên cứu SpatialUncertain: Đánh giá khả năng VLMs trong câu hỏi về không gian
  • Công bố nghiên cứu 'Seeing Isn't Knowing' đánh giá xem các Vision Language Models (VLMs) có biết khi nào không nên trả lời các câu hỏi về không gian hay không
AK (_akhaliq)
AK (_akhaliq)XBài đăng·15 ngày trước
Nhìn thấy không phải là hiểu - VLMs có biết khi nào không nên trả lời câu hỏi không gian?
  • Nghiên cứu về khả năng của Vision Language Models (VLM) trong việc nhận biết khi nào chúng không có đủ thông tin để trả lời các câu hỏi liên quan đến không gian.
AK (_akhaliq)
AK (_akhaliq)XBài đăng·15 ngày trước
Hãy thử Cosmos 3 Nano hôm nay
  • Cosmos 3 Nano đã được tạo thành một ứng dụng Gradio dễ sử dụng.
#Cosmos 3 Nano#VLM#Demo
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·15 ngày trước
PaddleOCR-VL-1.6: Cải Thiện Phân Tích Tài Liệu với Tinh Chỉnh Khu Vực và Huấn Luyện Sau
  • Giới thiệu PaddleOCR-VL-1.6, một mô hình phân tích tài liệu nhỏ gọn 0.9B được nâng cấp, cải thiện dựa trên PaddleOCR-VL-1.5.
  • Các lỗi còn lại trong PaddleOCR-VL-1.5 tập trung ở các khu vực tối ưu hoá thấp nơi hành vi mô hình không ổn định, độ che phủ dữ liệu thưa thớt hoặc giám sát không đáng tin cậy.
  • Thay vì mở rộng corpus huấn luyện một cách tùy tiện, PaddleOCR-VL-1.6 giới thiệu khung công tác tối ưu hoá dữ liệu nhận thức khu vực: xác định các khu vực yếu từ mô hình trước, áp dụng cải thiện có mục tiêu, và cải thiện độ tin cậy của các tín hiệu giám sát.
  • Áp dụng công thức huấn luyện sau lũy tiến dựa trên lựa chọn dữ liệu được quản lý và học tăng cường, đẩy hiệu suất mô hình lên một mức cao hơn thông qua tối ưu hoá được tổ chức theo giai đoạn.
  • Đạt được điểm state-of-the-art mới là 96.33% trên OmniDocBench v1.6, thể hiện tính cạnh tranh mạnh mẽ so với các VLM hàng đầu, và cung cấp công thức post-training thực tế cho loạt PaddleOCR-VL.
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·17 ngày trước
HakushoBench: Benchmark VQA biểu đồ và bảng tiếng Nhật từ sách trắng chính phủ
  • Hiểu biểu đồ và bảng hình ảnh là cần thiết để áp dụng VLM vào hiểu tài liệu thực tế; benchmark tiếng Anh tiến bộ nhanh nhưng các bộ đối với tiếng không phải Anh còn thiếu hụt, để lại câu hỏi về khả năng tổng quát.
  • Giới hạn lớn là khó khăn trong việc thu thập ảnh biểu đồ/bảng không phải tiếng Anh tại quy mô; HakushoBench được xây dựng từ 33 sách trắng chính phủ như nguồn có thể mở rộng được.
  • HakushoBench chứa 2,053 hình ảnh trên 10+ loại hình ảnh với cặp QA được chú thích thủ công; được thiết kế để đánh giá hiểu biết sâu và toàn diện về biểu đồ/bảng thay vì các gợi ý hình ảnh cục bộ.
  • Thí nghiệm trên nhiều VLM cho thấy HakushoBench vẫn thách thức đối với mô hình open-weight: mô hình open-weight tốt nhất chỉ đạt 58.6% độ chính xác, khoảng cách 34.9 điểm giữa open-weight và proprietary cho thấy dư địa cải thiện lớn.
  • Dataset và code được công khai để hỗ trợ nghiên cứu và phát triển VLM đa ngôn ngữ.
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·18 ngày trước
RoboStressBench: Đánh giá độ bền vững của VLM trước áp lực hình ảnh vật lý trong cảnh nhúng
  • RoboStressBench là benchmark mới để đánh giá độ bền vững của Vision-Language Models (VLM) trước các áp lực hình ảnh vật lý trong các cảnh nhúng (embodied scenes).
  • Benchmark phân tách áp lực hình ảnh thành 4 chiều vật lý dựa trên phương trình rendering: Material (Vật liệu), Viewpoint (Góc nhìn), Lighting (Ánh sáng), và Geometry (Hình học).
  • Thông qua đánh giá toàn diện các VLM tiên tiến, nghiên cứu xác định các chế độ thất bại cụ thể theo loại áp lực và cho thấy các yếu tố vật lý khác nhau ảnh hưởng đến các khả năng nhúng khác nhau.
  • Giới thiệu một stress-aware agentic solver có khả năng phát hiện các tác nhân gây áp lực hình ảnh và gọi các kỹ năng chỉnh sửa ảnh trước khi suy luận, cải thiện độ bền vững trong các tình huống áp lực cao.
  • RoboStressBench cung cấp khung đánh giá có nguyên tắc để chẩn đoán và cải thiện nhận thức VLM dưới tác động áp lực vật lý thực tế, hỗ trợ phát triển các hệ thống AI nhúng đáng tin cậy hơn.
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·20 ngày trước
Nhỏ nhưng Đáng Tin: Suy Luận Thị Giác-Ngôn Ngữ Hiệu Quả cho Phát Hiện Bất Thường Chuỗi Thời Gian
  • VLMs đạt impressive performance trên many tasks nhưng prior studies report unsatisfactory performance khi apply lên time-series anomaly detection
  • Public anomaly detection benchmarks cung cấp interval annotations nhưng không natural-language rationales, khó để fine-tune VLMs produce grounded, interpretable decisions
  • Construct VisAnomBench từ public time-series datasets, augmented với high-quality anomaly explanations từ multiple large VLMs dùng fine-grained task-specific rewards
  • Develop VisAnomReasoner: parameter-efficient VLM cho time-series anomaly detection thông qua fine-tuning trên benchmark
  • VisAnomBench: VisAnomReasoner achieve more accurate anomaly localization, outperform all baselines với improvement ≥21.23% precision, ≥23.87% F1
  • TSB-AD-U benchmark: strong cross-benchmark generalization với +9.57% precision, +13.39% F1