Dòng tin

1 nội dung mới nhất
Tất cả
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·4 ngày trước
Tại sao Cái Xa Nhìn Lên: Phân tích Biểu diễn Không gian trong Vision-Language Models
Why Far Looks Up: Probing Spatial Representation in Vision-Language Models
  • Đề xuất framework phân tích embedding để kiểm tra cách VLM tổ chức các trục không gian.
  • Phát hiện bias 'vertical-distance entanglement' nhất quán: model nhầm vị trí dọc ảnh với khoảng cách.
  • Bias tăng với data scaling dù benchmark accuracy cải thiện.
  • SpatialTunnel benchmark tổng hợp chứng minh bias là nội tại model, model với spatial axes tốt hơn đạt robustness cao hơn.