Dòng tin

16 nội dung mới nhất
Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung
Điều Quan Trọng Nhất Hôm Nay
  • Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.
Mới hôm nay
Hugging Face
Hugging FaceXBài đăng·khoảng 14 giờ trướcMới
Transformers tutorials mới cho Vision: Segmentation vệ tinh và Object Detection mobile
  • Hugging Face vừa phát hành các tutorial mới cho vision transformers
Trước đó
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·3 ngày trước
Fine-tuning Mô Hình LLM Đa Phương Tiện với ART: Huấn Luyện Tăng Cường Dựa Trên Nghệ Thuật
  • Các kỹ thuật PEFT hiện tại (LoRA, Soft Prompting) yêu cầu sửa đổi đồ thị tính toán của LLM, không tương thích đầy đủ với các engine tối ưu hóa cao thông lượng như vLLM
  • Bài báo đề xuất ART (Art-based Reinforcement Training) - phương pháp fine-tuning Multimodal LLM (MLLM) bằng cách chỉ tối ưu hóa raw visual input (đầu vào hình ảnh thô), cho phép sử dụng soft-token approach trên đồ thị tính toán đã được biên dịch
  • Phương pháp dựa vào backpropagation gradient vào một mảng pixel đơn giản, hỗ trợ bất kỳ mục tiêu fine-tuning nào mà không cần sửa đồ thị tính toán
  • Đầu vào hình ảnh được tối ưu hóa có thể được tạo kiểu dưới dạng các tác phẩm tính toán liên quan đến nhiệm vụ
  • Hiệu quả được xác nhận trên các kích thước khác nhau của kiến trúc Qwen phổ biến và trên nhiều benchmark textual
  • ART đạt độ chính xác cạnh tranh với LoRA trên các benchmark về toán học (mathematics) và sử dụng công cụ cấu trúc (structured-tool-use)
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·3 ngày trước
Một Biểu diễn Tĩnh (và do đó Tương thích) là Tất cả những gì Bạn Cần
  • Learning compatible representations nhằm học feature representations dùng interchangeably qua thời gian khi model undergoes updates; bài báo chứng minh stationary representations từ d-Simplex fixed classifiers hàm ý compatibility theo định nghĩa hình thức.
  • d-Simplex fixed classifiers với cross-entropy loss align feature distributions ở first-order statistics, nhưng có thể không capture higher-order dependencies giữa model updates.
  • Giải pháp: train model dùng d-Simplex fixed classifier qua convex combination của cross-entropy loss và contrastive loss không chỉ capture higher-order dependencies mà còn equivalent với learning dưới compatibility constraints.
  • Experiments xem xét scenario mới: pre-trained model được sequentially fine-tuned và occasionally replaced với improved model; stationary representations enable uninterrupted retrieval services (không reprocess gallery images) trong khi improving performance khi model updates và replacements, đạt state-of-the-art.
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·4 ngày trước
Mất trí nhớ Attention trong Hybrid LLM: Khi Chain-of-Thought Fine-tuning phá hủy khả năng gọi lại từ xa
  • Chain-of-thought supervised fine-tuning (SFT) cải thiện reasoning nhưng hệ thống suy giảm long-context recall trong hybrid linear-attention models như HypeNet và Jet-Nemotron.
  • Retrieval performance trên Needle-In-A-Haystack (NIAH) giảm đáng kể sau CoT-SFT, ví dụ HypeNet-9B trên NIAH-S2@256K từ 67.2% xuống 9.4%, với suy giảm tồi tệ hơn ở long context windows.
  • Nguyên nhân: CoT-SFT làm lệch attention gradients về short-range patterns, phá vỡ query-key projections (W_Q, W_K) chịu trách nhiệm long-range routing.
  • QK-Restore là training-free method chỉ khôi phục W_Q, W_K từ pre-SFT checkpoint trong khi giữ lại tất cả post-SFT parameters khác; variant Procrustes cân bằng routing preservation và reasoning adaptation.
  • QK-Restore liên tục khôi phục long-context capability với zero training cost khi vẫn preserve reasoning performance, ví dụ HypeNet-5B: S3@256K từ 65.4% lên 76.4%.
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·4 ngày trước
Vai trò của Alignment Feedback trong Self-Distillation
  • Self-distillation huấn luyện mô hình để giữ lại cải thiện từ feedback ngay cả khi không có context, bằng cách khớp phân phối output dưới hai điều kiện: student chỉ thấy câu hỏi và self-teacher cũng thấy context
  • Nghiên cứu thiết kế context bằng cách huấn luyện solver trên feedback từ frozen critic, so sánh ba điều kiện: binary reward (GRPO), reference solution, và step-by-step critique
  • Step-aligned critique đạt gains lớn nhất (Avg@12): vượt GRPO 16.11 điểm và reference-solution-conditioned self-distillation 5.27 điểm
  • Per-token advantage analysis cho thấy step-aligned feedback chỉ nhắm mục tiêu tokens nơi suy luận thất bại, giữ nguyên behavior đúng, trong khi reference solution buộc mô hình thay đổi ở mọi token
  • Kết luận: structural alignment giữa feedback và reasoning trace của solver là key driver chính của self-distillation effectiveness
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·5 ngày trước
Reasoning Arena: Các cuộc thi Trace khi Verifiable Rewards không đủ
  • Giải quyết vấn đề trong RL khi verifiable rewards trở thành vô ích ở cấp độ nhóm — tất cả các trace nhận reward giống nhau mặc dù có chất lượng khác nhau
  • Đề xuất Reasoning Arena: định tuyến các nhóm reward non-diverse đến hệ thống judge thay vì loại bỏ, xây dựng trace tournaments so sánh head-to-head để phát hiện preference fine-grained
  • Sử dụng Bradley-Terry model để fit trên incomplete comparison graph, cho phép RL mà không cần so sánh toàn bộ các cặp, tiết kiệm chi phí tính toán
  • Vượt trội hơn RLVR baseline 7.6% trung bình trên các benchmark toán học cạnh tranh và coding
  • Tăng tốc training 27-41%, tiết kiệm gần 50% generation compute, cải thiện đáng kể hiệu suất suy luận bằng cách chuyển đổi zero-advantage samples thành gradient updates hữu ích
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·8 ngày trước
Biểu tượng hợp âm có thể mang lại đặc trưng thể loại nhạc tới đâu? Khả năng và giới hạn trong mô hình hóa hợp âm đa thể loại
  • Nghiên cứu đánh giá khả năng điều chỉnh (adaptation) các mô hình Music Transformer từ pop-jazz để mô hình hóa 11 thể loại nhạc khác nhau (blues, bossa nova, Bach chorales, country, electronic, folk, funk, gospel, hip-hop, R&B/soul, rock).
  • So sánh 5 phương pháp điều chỉnh: LoRA, IA3, BitFit, prefix tuning, và full fine-tuning trên 165 cấu hình (11 thể loại × 3 seeds). Tất cả các phương pháp đều cải thiện so với mô hình cơ sở trong dự đoán hợp âm, với mức tăng từ +2.89 đến +3.61 điểm.
  • LoRA và IA3 cho kết quả cao nhất, nhưng các kiểm định thống kê (Wilcoxon tests với hiệu chỉnh Holm và Benjamini-Hochberg) không xác định được người chiến thắng decisive. Khi kiểm soát kích cỡ dữ liệu bằng nhau, IA3 vẫn dẫn đầu nhưng lợi thế dữ liệu toàn bộ của LoRA biến mất.
  • Các cơ chế điều chỉnh trọng lượng trên cơ sở hợp âm có thể tái sử dụng hiệu quả hơn một phương pháp adapter cụ thể, và các adapter sai thể loại thường vẫn vượt trội so với mô hình đông lạnh.
  • Kết luận: biểu tượng hợp âm cải thiện dự đoán hợp âm theo từng thể loại một cách đáng tin cậy, nhưng không mang đầy đủ đặc trưng nhận dạng thể loại hoàn chỉnh mà cần có đánh giá có kiểm soát từ người nghe hoặc nhạc sĩ.
Clement Delangue
Clement DelangueXBài đăng·9 ngày trước
Chia sẻ traces NanoClaw lên Hugging Face - Nên lưu traces agent để cải thiện models
  • Chia sẻ trace đầu tiên từ NanoClaw AI lên Hugging Face
AK (_akhaliq)
AK (_akhaliq)XBài đăng·9 ngày trước
SynthTraces - Tạo synthetic traces cho coding agents với Pi
  • Ra mắt dự án SynthTraces, codebase tối thiểu để sinh synthetic coding agent session traces sử dụng mô hình Pi
Clement Delangue
Clement DelangueXBài đăng·9 ngày trước
SynthTraces - Tạo traces agent lập trình tổng hợp để huấn luyện LLM
  • Dự án SynthTraces tạo synthetic coding agent session traces sử dụng Pi (Mario Zechner)
Clement Delangue
Clement DelangueXBài đăng·9 ngày trước
Xu hướng mới: Mô hình open-source được tuỳ chỉnh đánh bại mô hình frontier
  • Hai xu hướng chính sắp phát triển: (1) custom harnesses và finetunes trên mô hình open-source nhỏ để đặc hóa cho tác vụ cụ thể; (2) sử dụng mô hình frontier làm critics/advisors trong quá trình finetuning và harness realtime
Hugging Face
Hugging FaceBlogBài viết·10 ngày trước
Tối ưu hóa ưu thích trực tiếp ngoài chatbot
  • Khám phá các ứng dụng của Direct Preference Optimization (DPO) mở rộng hơn các chatbot truyền thống
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·15 ngày trước
Kỹ năng không phải một kích cỡ duy nhất: căn chỉnh kỹ năng theo mô hình cho tác nhân LLM
  • Hiệu quả kỹ năng phụ thuộc mạnh mẽ vào backbone mô hình: kỹ năng giúp mô hình này có thể làm hại mô hình khác
  • Đề xuất MASA (Model-Aware Skill Alignment), khung điều chỉnh kỹ năng theo từng backbone đích mà không sửa đổi trọng số tác nhân
  • Hai giai đoạn: (1) pipeline tiến hóa kỹ năng phân cấp dùng hill climbing và tree search, hướng dẫn bởi phản hồi môi trường; (2) rewriter kỹ năng điều chỉnh theo mô hình được huấn luyện từ trajectories tiến hóa
  • Thử nghiệm trên ba môi trường tương tác và bốn backbone cho thấy cải thiện tổng thể nhất, với lợi ích lên tới 25.8 điểm so với baseline mạnh nhất
  • Rewriter học được khái quát hóa tới các tác vụ và môi trường chưa thấy mà không cần tìm kiếm thêm, liên tục vượt trội hơn LLM giáo viên lớn hơn với chi phí suy luận một phần
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·15 ngày trước
DRIFT: Rollout độc lập và tinh chỉnh có trọng số cho tối ưu hóa đa lượt hiệu quả
  • Tối ưu hóa multi-turn behavior gặp trade-off: online RL hiệu quả nhưng tốn kém, SFT hiệu quả nhưng bị distribution shift.
  • DRIFT operationalize insight rằng KL-regularized RL objective tương đương với importance-weighted supervised learning.
  • Phương pháp tách rollout khỏi optimization bằng cách sample offline trajectories, tính importance weights, optimize via weighted SFT.
  • DRIFT match hoặc vượt multi-turn RL baselines nhưng giữ training efficiency của supervised fine-tuning.
Jack Clark
Jack ClarkXBài đăng·khoảng 1 tháng trước
PostTrainBench: Tự động hóa fine-tuning mô hình mở để cải thiện hiệu suất
  • PostTrainBench (từ Karina Nguyen et al) là benchmark cho việc tự động hóa phần quan trọng của AI R&D
Sebastian Raschka
Sebastian RaschkaXBài đăng·2 tháng trước
MiCA vượt trội hơn LoRA và fine-tuning toàn bộ trong tinh chỉnh hiệu quả tham số
  • Giới thiệu kỹ thuật MiCA cho parameter-efficient fine-tuning (PEFT), vượt trội LoRA.