Dòng tin

2 nội dung mới nhất
Tất cả
AK (_akhaliq)
AK (_akhaliq)XBài đăng·3 ngày trước
DynaFLIP: Phương Pháp Mới Cho Cảm Nhận Robotics Bằng Biểu Diễn Động Lực
DynaFLIP Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation
  • DynaFLIP giới thiệu cách tiếp cận mới để cải thiện perception (cảm nhận) của robot thông qua biểu diễn động lực.
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·4 ngày trước
Tại sao Cái Xa Nhìn Lên: Phân tích Biểu diễn Không gian trong Vision-Language Models
Why Far Looks Up: Probing Spatial Representation in Vision-Language Models
  • Đề xuất framework phân tích embedding để kiểm tra cách VLM tổ chức các trục không gian.
  • Phát hiện bias 'vertical-distance entanglement' nhất quán: model nhầm vị trí dọc ảnh với khoảng cách.
  • Bias tăng với data scaling dù benchmark accuracy cải thiện.
  • SpatialTunnel benchmark tổng hợp chứng minh bias là nội tại model, model với spatial axes tốt hơn đạt robustness cao hơn.