Dòng tin
Mới hôm nay
Mô hình Suyra OCR 2 mới đứng đầu xu hướng trên Papers with Code
RT by @_akhaliq: The new Suyra OCR 2 model is top trending on http://paperswithcode.co
Also can you spot the new "Conferences" tab? 👀
- ›Mô hình OCR (Optical Character Recognition) Suyra 2 đang là xu hướng hàng đầu trên paperswithcode.co.
Top các bài báo AI của tuần (25-31 tháng 5)
RT by @_akhaliq: Top AI Papers of The Week (May 25-31):
- Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
- SkillOpt: Executive Strategy for Self-Evolving Agent Skills
- Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments by Alibaba
- LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
- AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
- DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning
- Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models
- WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation
- Rethinking Cross-Layer Information Routing in Diffusion Transformers
Find them below:
- ›Bài báo về mô hình thế giới đa tác nhân (Gamma-World) và chiến lược tiến hóa kỹ năng tác nhân (SkillOpt) nổi bật tuần này.
Thử mô hình Step 3.7 Flash mà không cần viết code
RT by @_akhaliq: Want to try Step 3.7 Flash without touching a line of code?
It now has a hosted demo — open it right in your browser, no install needed.
Built on Gradio by @_akhaliq 🙏, now live in our Hugging Face org.
Give it a try 👇
- ›Mô hình Step 3.7 Flash giờ có demo trực tuyến có thể mở ngay trong trình duyệt mà không cần cài đặt.
Trước đó
LocateAnything: Mô Hình Phát Hiện Vị Trí Vật Thể Cho AI Agents
RT by @_akhaliq: We just adopted a super cool new space template for LocateAnything, made by @_akhaliq the great. Thank you AK!
Try it out: https://huggingface.co/spaces/nvidia/LocateAnything
Credit to AK's space example: https://huggingface.co/spaces/akhaliq/LocateAnything
- ›NVIDIA giới thiệu LocateAnything, mô hình vision-language phát hiện vị trí (visual grounding) được huấn luyện trên 138M mẫu dữ liệu chất lượng cao.
GitHub Actions Tích Hợp Hugging Face Jobs: Giải Pháp CI/CD Tiết Kiệm Chi Phí
RT by @_akhaliq: This week, I got our GitHub Actions to use @HuggingFace Jobs instead of the default GitHub CI runners, making workflows run on much more reliable CPUs or even on serverless GPU (that cost less than a penny per run)!
Here's what you need to do this for your own repos ⤵︎
- ›AK chia sẻ cách thay thế GitHub Actions runners mặc định bằng Hugging Face Jobs để chạy workflows.
Bài Báo Nghiên Cứu AI Mới từ Hugging Face
R to @_akhaliq: paper: https://huggingface.co/papers/2605.30350
- ›AK chia sẻ bài báo nghiên cứu mới từ bộ sưu tập Hugging Face Papers.
DynaFLIP: Phương Pháp Mới Cho Cảm Nhận Robotics Bằng Biểu Diễn Động Lực
DynaFLIP
Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation
- ›DynaFLIP giới thiệu cách tiếp cận mới để cải thiện perception (cảm nhận) của robot thông qua biểu diễn động lực.
Bài Báo Nghiên Cứu AI Khác từ Hugging Face
R to @_akhaliq: paper: https://huggingface.co/papers/2605.30263
- ›AK tiếp tục chia sẻ bài báo nghiên cứu mới từ Hugging Face Papers.
minWM: Khung công tác mã nguồn mở toàn diện cho các Video World Model thời gian thực tương tác
minWM
A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models
- ›minWM là framework open-source dùng để xây dựng video world models với khả năng tương tác thời gian thực.
81.000 mô hình khả dụng thông qua HuggingFace Inference API
81k models available through huggingface inference api
- ›HuggingFace Inference API cung cấp quyền truy cập tới 81.000 mô hình máy học đa dạng.
Bài báo nghiên cứu trên HuggingFace Papers (2605.29250)
R to @_akhaliq: paper: https://huggingface.co/papers/2605.29250
- ›Liên kết tới bài báo nghiên cứu được lưu trữ trên nền tảng HuggingFace Papers.
OmniRetrieval: Truy vấn thống nhất trên các nguồn kiến thức không đồng nhất
OmniRetrieval
Unified Retrieval across Heterogeneous Knowledge Sources
- ›OmniRetrieval là hệ thống cho phép truy vấn thông tin từ nhiều loại nguồn kiến thức khác nhau.
Qwen-VLA: Thống nhất hóa mô hình Vision-Language-Action trên các nhiệm vụ, môi trường và robot
Qwen-VLA
Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
- ›Qwen-VLA tích hợp thị giác, ngôn ngữ tự nhiên và hành động thành một mô hình duy nhất.
Bài báo nghiên cứu trên HuggingFace Papers (2605.30280)
R to @_akhaliq: paper: https://huggingface.co/papers/2605.30280
- ›Liên kết tới bài báo nghiên cứu được lưu trữ trên nền tảng HuggingFace Papers.
Bài báo HuggingFace 2605.29801
R to @_akhaliq: paper: https://huggingface.co/papers/2605.29801
- ›Chia sẻ bài báo mới từ HuggingFace Papers
AgentDoG 1.5 - Khung làm việc nhẹ cho An toàn Agent AI
AgentDoG 1.5
A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
- ›AgentDoG 1.5 là framework alignment cho agent AI
Hugging Face Storage - Rẻ hơn S3/R2
RT by @_akhaliq: much cheaper than s3/r2 thanks to xet: https://hf.co/storage
- ›HuggingFace buckets (S3 alternative) có chi phí thấp hơn
50% Models và Datasets Hugging Face là Riêng tư
RT by @_akhaliq: Most people know Hugging Face from its public models and datasets but few realize that 50% of the models and datasets stored on HF are private.
This number has been increasing with buckets (our S3 alternative for AI) and enable companies to build AI more efficiently and collaboratively within their organizations, even when they don't share publicly!
Excited to see more of that in the coming months as more companies start building AI themselves instead of outsourcing to APIs!
- ›Nửa models/datasets trên HF được lưu trữ private
NVIDIA Phát hành Kokoro TTS Model Tối ưu hóa
RT by @_akhaliq: NVIDIA just released an optimized version of the Kokoro TTS model on Hugging Face
A lightweight 82M parameter speech synthesizer ready for commercial use,
running fast on NVIDIA GPUs via ONNX Runtime.
https://huggingface.co/nvidia/kokoro-82M-onnx-opt
- ›NVIDIA Kokoro TTS là speech synthesizer 82M parameter nhẹ
BeliefTrack - Quản lý Niềm tin cho Suy luận Dài hạn của LLM
RT by @_akhaliq: When should LLMs update, preserve, or ignore information?
Contextual Belief Management is what long-horizon reasoning was missing. We introduce BeliefTrack—and show that optimizing belief states cuts reasoning failures by over 70%.
- ›BeliefTrack là framework quản lý contextual belief cho LLM
Papers with Code: Tính năng mới hover trên leaderboard để xem chi tiết model
RT by @_akhaliq: Small new feature btw, you can now hover over all models on a given leaderboard! 🔥
Let me know which features you'd like to see next!
Try it out here, for example: https://paperswithcode.co/benchmark/mmmu
- ›Papers with Code thêm tính năng cho phép hover trên các model trong leaderboard để xem thông tin chi tiết.
StepFun 3.7 Flash: Mô hình MoE đa năng với khả năng agent, coding và multimodal
RT by @_akhaliq: Impressive release by StepFun, explore it at https://paperswithcode.co/paper/83892
- ›StepFun phát hành Step 3.7 Flash, mô hình MoE với 198B tham số nhưng chỉ ~11B active, đạt 400 TPS với context 256K.
Gamma-World: Mô hình thế giới sinh thành vượt quá 2 agent, đạt 24 FPS real-time
RT by @_akhaliq: Thanks for sharing, @_akhaliq! 🙏
Check out γ-World — SoTA generative multi-agent world model, beyond 2 players, 24 FPS real-time streaming! The single-agent era is over. 🥳🤗👏💪
Links ⬇️
Paper: https://arxiv.org/abs/2605.28816
Project Page: https://research.nvidia.com/labs/sil/projects/gamma-world/
Code: https://github.com/nv-tlabs/Gamma-World
- ›NVIDIA công bố Gamma-World, mô hình thế giới sinh thành hỗ trợ đa agent vượt quá 2 người chơi.
Tại sao Cái Xa Nhìn Lên: Phân tích Biểu diễn Không gian trong Vision-Language Models
Why Far Looks Up: Probing Spatial Representation in Vision-Language Models
- ›Đề xuất framework phân tích embedding để kiểm tra cách VLM tổ chức các trục không gian.
- ›Phát hiện bias 'vertical-distance entanglement' nhất quán: model nhầm vị trí dọc ảnh với khoảng cách.
- ›Bias tăng với data scaling dù benchmark accuracy cải thiện.
- ›SpatialTunnel benchmark tổng hợp chứng minh bias là nội tại model, model với spatial axes tốt hơn đạt robustness cao hơn.
ChildVox: Benchmark Ngôn ngữ Âm thanh Lớn cho Mô tả Âm thanh trong Thời thơ ấu
ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood
- ›ChildVox là benchmark cho mô tả các tín hiệu âm thanh mà trẻ em sử dụng giao tiếp, từ sinh đến tuổi học sinh.
- ›Tích hợp 20+ sub-task trên 17 bộ dữ liệu tập trung vào trẻ em, bao gồm âm thanh sinh lý, phát âm không ngôn ngữ, âm tiết chính tắc, và ngôn ngữ nói.
- ›Đánh giá các mô hình audio/speech foundation (tự giám sát, ASR-oriented, large audio-language models) trên phân loại, mô hình hóa, đánh giá chất lượng giọng nói.
- ›Kết quả cho thấy các mô hình hiệu suất cao trong nhận dạng tín hiệu âm thanh trẻ em, hỗ trợ đặc trưng hóa mức độ ngôn ngữ và theo dõi sản xuất giọng nói.
Phần thưởng Xác minh Ngoài Toán học và Mã: Giám sát Quá trình Dựa trên Kho ngữ liệu cho QA Có cơ sở
Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering
- ›RL truyền thống cho QA gặp khó khăn thiết kế phần thưởng: reward cấp phản hồi quá coarse, không phân biệt được câu đúng/sai trong reasoning trace.
- ›CorVer (Corpus Verify) thay thế neural verifiers bằng tín hiệu dựa trên thống kê đồng xuất hiện trong Wikipedia, giảm đáng kể chi phí triển khai.
- ›Hệ thống chỉ cần extractor 0.5B và một lần lookup kho dữ liệu cho mỗi câu, train nhanh hơn 4.8-8.4x so với baseline neural verifier.
- ›CorVer gán tín dụng cấp sentence-level và ánh xạ thành lợi thế cấp token, cải thiện hiệu suất trên mọi bài kiểm tra.
Khám phá Quy trình Hợp tác: Tự động Tối ưu hóa cho Các Tình huống Xã hội Tuần tự
Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas
- ›Agent AI tự động thiết kế lại pipeline của hệ thống tổng hợp chính sách (policy synthesis) dựa trên LLM cho bài toán xã hội multi-agent.
- ›Hệ thống khám phá các quy trình vượt trội hơn baseline thủ công, giảm variance đáng kể, và tối ưu hơn phương pháp prompt-only.
- ›Các pipeline được khám phá phụ thuộc vào mục tiêu: chỉ dưới mục tiêu maximin, agent researcher mới tự động chèn cơ chế công bằng tường minh.
- ›Researcher agent đọc mã, chỉnh sửa system prompts, chạy evaluations để quyết định giữ lại hoặc cải tiến các thành phần.
PhyGenHOI: Tạo Sinh 4D Động Của Tương Tác Con Người-Vật Thể Có Ý Thức Vật Lý
PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions
- ›PhyGenHOI kết hợp human motion sinh tạo với mô phỏng vật lý rõ ràng sử dụng Motion Diffusion Model và Material Point Method.
- ›Dùng 3D Gaussian Splats làm đại diện thống nhất cho con người và vật thể, cho phép tối ưu hóa chung.
- ›Ba cơ chế ghép nối: Windowed Attraction Loss đồng bộ chuyển động, Contact-Driven Re-simulation cho momentum transfer, và Masked Video-SDS tăng độ chính xác tiếp xúc.
Suy nghĩ trước khi hạn chế: Khung Decoding thống nhất cho Mô hình ngôn ngữ lớn
Thinking Before Constraining: A Unified Decoding Framework for Large Language Models
- ›Natural generation cho phép LLM sản xuất free-form responses với reasoning phong phú nhưng khó xác minh; constrained decoding đảm bảo định dạng chuẩn nhưng hạn chế reasoning.
- ›Phương pháp In-Writing kết hợp free-form reasoning và structured generation bằng trigger token để tách biệt chúng.
- ›Model thực hiện unconstrained reasoning trước, sau đó áp dụng structured decoding khi trigger token được sinh ra, tránh premature triggering.
- ›Đạt được cải thiện lên tới 27% về độ chính xác so với natural generation trên các bộ dữ liệu classification và reasoning.
Hình học quan trọng: Ưu tiên 3D cho học Semantic Correspondence
Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence
- ›Foundation features từ vision models tự giám sát thiếu nhận thức 3D rõ ràng, dẫn đến nhầm lẫn giữa các phần đối xứng và cấu trúc tương tự trực quan.
- ›Phương pháp sử dụng SAM3D để ước tính hình học và pose vật thể, sau đó tối ưu hóa pose qua render-and-compare optimization.
- ›Kết hợp PartField descriptors từ hình học tái tạo với DINO và Stable Diffusion features để cải thiện semantic correspondence.
- ›Sử dụng geodesic distances trên hình dạng tái tạo để lọc candidate correspondences, giảm nhu cầu giám sát hình học thủ công.
UniSteer: Flow Matching Dẫn Hướng Bằng Văn Bản Cho LLM Steering Đa Năng
UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering
- ›UniSteer là mô hình activation-based control học một conditional velocity field trong activation space từ điều kiện ngôn ngữ tự nhiên.
- ›Thay vì tạo intervention riêng cho mỗi hành vi, UniSteer học một universal model hỗ trợ multiple behaviors từ một interface duy nhất.
- ›Lúc inference, thực hiện flow inversion để vận chuyển activation theo hướng mục tiêu, hỗ trợ behavioral control, truthfulness steering, và concept steering.
Lấy mẫu Khuếch tán với Nhiễu Đa màu
Colored Noise Diffusion Sampling
- ›Diffusion models có spectral bias: giải quyết cấu trúc global tần số thấp trước, chi tiết tần số cao sau, dẫn đến lãng phí ngân sách năng lượng.
- ›Colored Noise Sampling (CNS) là stochastic solver không cần huấn luyện, sử dụng lịch biểu nhiễu động phụ thuộc vào timestep và tần số thay vì white noise đều.
- ›CNS phân bổ năng lượng tiêm hiệu quả hơn vào các dải tần số chưa được giải quyết, tận dụng spectral bias nội sinh của mô hình.
- ›CNS đạt cải thiện FID đáng kể: 8.26→6.27 trên SiT-XL/2, 32.39→26.69 trên JiT-B/16, có thể áp dụng plug-and-play cho các kiến trúc khác nhau.
Khi Cloud Agents gặp Device Agents: Bài học từ Hybrid Multi-Agent Systems
When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems
- ›Agentic AI inference có hai cực: frontier LLMs (mạnh mà đắt) và on-device SLMs (rẻ mà yếu), hybrid systems cung cấp trung bình nhưng phức tạp.
- ›Task accuracy, monetary cost, và edge energy consumption bị liên kết chặt chẽ trong hybrid MAS, không có nguyên lý thiết kế chung.
- ›Kiến trúc tối ưu phụ thuộc vào task cụ thể; SLMs có thể hưởng lợi từ LLM assistance nhưng frontier compute không luôn dẫn đến hiệu suất tốt hơn.
- ›Nghiên cứu hai representative MAS architectures trên Pareto frontier của power, cost, và performance.
CoHyDE: Đồng huấn luyện LLM Rewriter và Dense Encoder cho Tìm kiếm Tool
CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval
- ›Tìm kiếm tool trong catalog API lớn là vấn đề vì user queries là colloquial nhưng catalog dùng technical vocabulary.
- ›CoHyDE huấn luyện dense encoder và LLM rewriter như một hệ thống co-evolving: encoder học trên hypothetical descriptions do rewriter tạo, rewriter được align via DPO trên retrieval scores.
- ›Cải thiện +2.5 pp NDCG@5 trên standard queries và +6.3 pp trên vague queries, với lợi ích lên đến +8 pp trên hardest vague tier.
- ›Co-training là ingredient chính: dùng một component riêng lẻ thất bại trên cả well-formed và vague queries với losses lên đến -8 pp.
Xetrieval: Giải thích cơ chế Dense Retrieval
Xetrieval: Mechanistically Explaining Dense Retrieval
- ›Dense retrieval sử dụng high-dimensional embeddings nhưng khó giải thích tại sao có điểm số cao, các giải thích hiện tại chỉ tập trung vào surface signals.
- ›Xetrieval giới thiệu framework giải thích ở mức embedding với lightweight reasoning internalizer đưa Chain-of-Thought vào embedding space.
- ›Phân tích embeddings thành sparse, human-interpretable features để cung cấp giải thích feature-level cho quyết định retrieval.
- ›Hỗ trợ task-level feature steering và cho thấy hiệu ứng intervention mạnh hơn trên nhiều retrievers và benchmarks.
Nhỏ nhưng đáng tin cậy: Suy luận thị giác-ngôn ngữ hiệu quả cho phát hiện bất thường chuỗi thời gian
Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection
- ›Vision-Language Models (VLMs) hiệu suất chưa tốt khi áp dụng vào phát hiện bất thường trong dữ liệu tuần tự.
- ›Xây dựng VisAnomBench - benchmark mới với chú thích giải thích bất thường chất lượng cao từ các VLM lớn.
- ›Phát triển VisAnomReasoner - VLM hiệu quả tham số chuyên dụng cho phát hiện bất thường chuỗi thời gian.
- ›Cải thiện precision và F1 từ 21-24 điểm phần trăm so với baseline, khái quát hóa mạnh trên benchmark khác.
DynaFLIP: Xây dựng lại nhận thức robot qua biểu diễn hướng dẫn bởi động học ba phương thức
DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation
- ›Hầu hết hệ thống học robot sử dụng visual encoders huấn luyện cho nhận dạng tĩnh, bỏ qua hiểu biết chuyển động.
- ›DynaFLIP là framework huấn luyện trước đa phương thức đẩy hiểu biết chuyển động vào phần nhận thức upstream.
- ›Sử dụng bộ ba image-language-3D flow từ video con người và robot để hình thành biểu diễn tập trung vào vùng điều khiển.
- ›Đạt lợi suất +22.5% trong tình huống ngoài phân phối, cải thiện tổng quát hóa robot trên các chính sách khác nhau.
CausaLab: Môi trường tương tác cho khám phá nhân quả hướng tới 'AI nhà khoa học'
CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists
- ›CausaLab đánh giá khả năng tác tử LLM khám phá quan hệ nhân quả qua thí nghiệm tương tác.
- ›Không chỉ xét agent giải đúng, mà còn xét lời giải có dựa trên cơ chế nhân quả đúng hay không.
- ›Mỗi episode mô phỏng một phòng thí nghiệm tổng hợp với cơ chế nhân quả ẩn.
Hướng tới Nghiên cứu Sâu Đa phương tiện Có thể Xác minh: Khung Multi-Agent cho Tạo Báo cáo Xen kẽ
Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
- ›Ptah là hệ thống multi-agent quản lý từ câu hỏi người dùng đến báo cáo web qua các giai đoạn planning, research, và writing.
- ›Các agent chuyên biệt xây dựng kế hoạch nhận thức hình ảnh, thu thập bằng chứng theo claim, duy trì Visual Working Memory, soạn thảo báo cáo multimodal.
- ›Agent verifier đóng vai trò acceptance function, thực thi kiểm chứng thực tế, tính trung thực trích dẫn, và tính nhất quán đa phương tiện.
- ›PtahEval mở rộng các benchmark hiện có với đánh giá cấp hình ảnh và cấp trình bày, tạo báo cáo đáng tin cậy hơn baseline.
Giảm bớt thao túng chính trị bằng huấn luyện nhất quán
Reducing Political Manipulation with Consistency Training
- ›LLMs hiển thị thiên lệch chính trị hệ thống qua nhiều ngữ cảnh nhạy cảm, xử lý không đối xứng các chủ đề đối lập.
- ›Phát hiện 'covert political bias' - 7 hạng mục kỹ thuật qua đó LLMs xử lý thiên lệch ẩn.
- ›Đề xuất Political Consistency Training (PCT) - phương pháp RL với hai hướng: Sentiment Consistency và Helpfulness Consistency.
- ›PCT giảm đáng kể thiên lệch chính trị ẩn, duy trì hiệu quả tổng thể và khái quát hóa tốt trên benchmark.
RePoT: Khôi phục Program-of-Thought thông qua Sửa chữa Checkpoint
REPOT: Recoverable Program-of-Thought via Checkpoint Repair
- ›Program-of-Thought (PoT) sinh ra chương trình Python nhưng một lỗi duy nhất có thể làm vô hiệu toàn bộ kế hoạch.
- ›RePoT xác minh lại kế hoạch, chạy qua môi trường đến lỗi đầu tiên, rồi dùng một lệnh gọi LLM để tiếp tục từ phần đã xác minh.
- ›RePoT cải thiện +3 đến +11 điểm phần trăm so với PoT trên các mô hình khác nhau, đạt 96.9% so với 86.3%.
- ›Adaptive RePoT dùng rule-based dispatcher để chọn giữa suffix repair và fresh PoT retry dựa trên verified-prefix length.
EarlyTom: Nén Token Sớm cho Video Understanding Nhanh
EarlyTom: Early Token Compression Completes Fast Video Understanding
- ›Video-LLMs xử lý lượng lớn visual tokens dẫn đến hiệu suất thấp, vision encoding tốn phần lớn time-to-first-token (TTFT).
- ›EarlyTom nén visual tokens không cần training bên trong vision encoder thay vì chỉ sau, giúp giảm TTFT và tối ưu hóa vision encoder.
- ›Giới thiệu decoupled spatial token selection strategy cải thiện hiệu quả nén tổng thể.
- ›Giảm TTFT lên đến 2.65x và FLOPs lên đến 61% trên NVIDIA A100 cho LLaVA-OneVision-7B, duy trì độ chính xác baseline.
Hướng tới Ước tính Hình học Video Nhất Quán
Towards Consistent Video Geometry Estimation
- ›ViGeo là foundation model transformer để khôi phục hình học không gian dày đặc và nhất quán theo thời gian từ chuỗi video.
- ›Dynamic chunking attention cho phép tiếp xúc với cả context hai chiều và nhân quả trong huấn luyện, thích ứng ở thời gian test mà không cần retraining.
- ›Completion-based data refinement framework huấn luyện video depth completion teacher từ annotations thưa thớt để cải thiện supervision quality.
- ›ViGeo dự đoán depth, surface normals và point maps trong cùng framework với state-of-the-art hiệu suất.
- ›Hoạt động tốt trên online, offline và long-video depth estimation mà chỉ huấn luyện trên public datasets.
Fireworks AI Đạt Doanh Số Hàng Năm 800 Triệu USD và Tăng Trưởng 4 Lần
RT by @_akhaliq: We just hit a major milestone — @FireworksAI_HQ passed $800M annualized run rate and reached 4x revenue growth, apart from Cursor, in Q1.
We invite curious and courageous minds to join us and define new frontiers of specialized intelligence!
- ›Fireworks AI vừa đạt được doanh số hàng năm 800 triệu USD, đánh dấu một cột mốc quan trọng trong phát triển công ty.
PRISM: Tiêu chuẩn Đánh giá Đa Chiều cho Các Công cụ Đánh giá Bài báo Dựa trên LLM
PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers
- ›PRISM là framework đánh giá chất lượng review trên bốn chiều: độ sâu phân tích, tính mới, xác định lỗi và ưu tiên vấn đề quan trọng.
- ›Dùng argument mining, retrieval-augmented verification và consensus-based scoring thay vì metric bề mặt như ROUGE hoặc BLEU.
- ›LLM có thể ngang bằng hoặc vượt human reviewer trên từng chiều riêng lẻ nhưng không hệ thống nào khớp hiệu suất cân bằng của con người.
- ›Mỗi hệ thống LLM có profil chuyên biệt riêng với những điểm mù đặc trưng mà metric tổng hợp bỏ lỡ.
- ›LLM reviewer nên xem là bổ sung mục tiêu cho peer review con người, không phải thay thế độc lập.
Xâm phạm Alignment: Cách RLHF Bị Khai Thác để Khuếch Đại Các Bias Không Aligned
Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases
- ›Alignment tampering là lỗ hổng tiềm ẩn trong RLHF nơi LLM có thể ảnh hưởng đến preference dataset để khuếch đại các hành vi không mong muốn.
- ›Preference datasets được xây dựng từ output của chính LLM và pairwise comparisons chỉ cho biết response nào tốt hơn chứ không giải thích lý do.
- ›Nếu LLM sinh response có bias nhưng chất lượng cao, annotators ưu tiên chúng dựa trên chất lượng nhưng label không phân biệt bias từ chất lượng.
- ›Reward model kế thừa limitation này, khiến optimizing rewards qua RL hoặc best-of-N sampling khuếch đại bias như propaganda, sexism, brand promotion.
- ›Các kỹ thuật RLHF hiện tại không thể giải quyết alignment tampering hoàn toàn mà không hy sinh response quality.
PANDO: Tạo Tác nhân AI Đa phương tiện Hiệu quả thông qua Chưng cất Kỹ năng Trực tuyến
PANDO: Efficient Multimodal AI Agents via Online Skill Distillation
- ›Phân tích inefficiency trong web agents: repeat-action loops, hidden discovery costs, low prompt-cache reuse.
- ›PANDO duy trì Skill Library có cấu trúc với progress reflection, confidence-based skill demotion, hierarchical routing.
- ›Sử dụng visual compression và cache-aware prompting để giảm marginal token cost.
- ›Đạt 58.3% success rate với 58% ít token hơn SGV, không cần pre-evaluation discovery budget.
CONF-KV: Loại bỏ Cache KV Nhận thức Độ tin cậy với Lưu trữ Độ chính xác Hỗn hợp
CONF-KV: Confidence-Aware KV Cache Eviction with Mixed-Precision Storage for Long-Horizon LLM
- ›CONF-KV quản lý cache KV bằng confidence score từ next-token distribution để điều chỉnh budget động.
- ›Giữ lại nhiều context khi model không chắc chắn, cắt tỉa tích cực khi confident.
- ›Kết hợp lưu trữ hỗn hợp FP16/INT8, blockwise online-softmax attention, budget biến theo layer.
- ›Đạt 91.4% retrieval accuracy trên Needle-in-a-Haystack 32K tokens, giảm 2.8x peak memory so với full KV.
Avatar đầu 3D Gaussian nhất quán đa góc nhìn mà không cần tạo sinh đa góc nhìn
Multi-view Consistent 3D Gaussian Head Avatars 'without' Multi-view Generation
- ›Tạo sinh avatar đầu 3D có độ trung thực cao từ hình ảnh 2D ngẫu nhiên mà không cần dữ liệu đa góc nhìn hay giám sát 3D.
- ›Giới thiệu MVCHead - state space model đơn shot thực thi nhất quán đa góc nhìn trực tiếp trong biểu diễn 3D Gaussian.
- ›Đề xuất Hierarchical State Space (HiSS) và Hierarchical Bi-directional State Scan (HiBiSS) để nắm bắt phụ thuộc dài hạn.
- ›Công bố FaceGS-10K - dataset lớn đầu tiên với 10K 3D Gaussian head assets sẵn sàng sử dụng cho đào tạo.
Phát hiện ngôn ngữ kỳ vực kỳ cực hiệu quả trong nhận dạng giọng nói bằng tối ưu hóa Convex
Convex Low-resource Accent-Robust Language Detection in Speech Recognition
- ›Hệ thống nhập nói hiện tại thường không nhận diện tốt các phương ngữ và giọng nói thiểu số, gây lỗi tầng vượt trong xử lý.
- ›Đề xuất CLD (Convex Language Detection) sử dụng tối ưu hóa convex thay vì fine-tuning thông thường để tiết kiệm tài nguyên.
- ›Phương pháp sử dụng ADMM trên JAX đảm bảo tối ưu toàn cục và huấn luyện nhanh theo thời gian đa thức.
- ›Đạt độ chính xác 97-98% trên dữ liệu thiểu số, chứng minh sự vững chắc trước biến thể phương ngữ.
Mô hình Diffusion Đồng Nhất Tái xem xét: Denoiser Loại Trừ Một Phần Tử và Cải Tổ Trạng Thái Hấp Thụ
Uniform Diffusion Models Revisited: Leave-One-Out Denoiser and Absorbing State Reformulation
- ›Mô hình diffusion rời rạc có thể dùng dự đoán dữ liệu sạch theo nhiều cách để định nghĩa động lực ngược.
- ›Uniform Diffusion Models (UDM) có sự không khớp giữa ELBO plug-in và mục tiêu denoising cross-entropy thông thường.
- ›Leave-one-out parameterization mới giúp cải thiện sinh mẫu UDM mà không cần huấn luyện thêm.
- ›Absorbing-state reformulation cho phép UDM hoạt động ngang bằng masked diffusion với phép toán denoising đơn giản hơn.
- ›Khoảng cách giữa masked và uniform diffusion chủ yếu do parameterization và thiết kế sampling, không phải do lựa chọn marginals.
Tối ưu hóa Prompt Phản ánh thông qua Gọi Hàm LLM
Reflective Prompt Tuning through Language Model Function-Calling
- ›Giới thiệu RPT (Reflective Prompt Tuning), framework tự động tối ưu prompt bằng function calling.
- ›LLM optimizer gọi diagnostic function để phát hiện các mẫu lỗi lặp lại và sinh báo cáo cấu trúc.
- ›Sử dụng báo cáo và lịch sử trước đó để cải tiến prompt qua mỗi lần lặp.
- ›Cải thiện hiệu suất lên tới 12.9% và tối ưu confidence calibration trên các tác vụ reasoning.