Dòng tin
Tất cả
Tại sao Cái Xa Nhìn Lên: Phân tích Biểu diễn Không gian trong Vision-Language Models
Why Far Looks Up: Probing Spatial Representation in Vision-Language Models
- ›Đề xuất framework phân tích embedding để kiểm tra cách VLM tổ chức các trục không gian.
- ›Phát hiện bias 'vertical-distance entanglement' nhất quán: model nhầm vị trí dọc ảnh với khoảng cách.
- ›Bias tăng với data scaling dù benchmark accuracy cải thiện.
- ›SpatialTunnel benchmark tổng hợp chứng minh bias là nội tại model, model với spatial axes tốt hơn đạt robustness cao hơn.