본문 바로가기
Paper Review/Computer Vision

[논문리뷰] AffordanceLLM : Grounding Affordance from Vision Language Models

by 서윤하 2025. 4. 30.
반응형
 

AffordanceLLM: Grounding Affordance from Vision Language Models

Affordance grounding refers to the task of finding the area of an object with which one can interact. It is a fundamental but challenging task, as a successful solution requires the comprehensive understanding of a scene in multiple aspects including detec

arxiv.org

이번에 리뷰할 논문은 AffordanceLLM이다. 그러면 한번 시작해 보자.

Abstract

Affordance grounding refers to the task of finding the area of an object with which one can interact. It is a fundamental but challenging task, as a successful solution requires the comprehensive understanding of a scene in multiple aspects including detection, localization, and recognition of objects with their parts, of geo-spatial configuration/ layout of the scene, of 3D shapes and physics, as well as of the functionality and potential interaction of the objects and humans. Much of the knowledge is hidden and beyond the image content with the supervised labels from a limited training set. In this paper, we make an attempt to improve the generalization capability of the current affordance grounding by taking the advantage of the rich world, abstract, and human-object-interaction knowledge from pretrained large-scale vision language models [40]. Under the AGD20K benchmark, our proposed model demonstrates a significant performance gain over the competing methods for in-the-wild object affordance grounding. We further demonstrate it can ground affordance for objects from random Internet images, even if both objects and actions are unseen during training.

본 논문에서 말하는 'affordance grounding'이란, 물체에서 '상호작용할 수 있는 부분'이 어디인지를 찾는 것을 의미한다. 이는 현재 detection, localization 뿐만이 아니라 로봇공학에서도 사용될 만큼 많은 분야에서 사용되고 있는데, 현재의 문제는 이런 affordance map을 만들 때에 hidden state들이 너무나 많아 limited training set을 통해서는 제대로 구현해낼 수 없다는 것이 문제점으로 지목되었다. 그래서 본 논문에서는 large-scale VLM(Vision Language Model)을 이용하여 이러한 unseen data들에 대해서도 affordance grounding을 제대로 찾아낼 수 있다는 것이 본 논문에서의 main contribution이라고 할 수 있을 것이다.

 

Introduction

기존의 Affordance Grounding 방식들은 Human demonstration 방식을 사용해 좋은 결과를 얻어내었다. 하지만 Human demonstration같은 경우에는 학습하지 않은 데이터에 대한 추론 능력이 급감하는 문제점이 존재하였다. 이러한 generalization의 문제가 발생하는 이유는 affordance grounding이 단순히 객체에 대한 detection만을 수행해야 하는 것이 아니라, 그에 대한 주변 환경을 이해하고 3d geometry 등을 전반적으로 모두 이해해야 하기 때문이다. 그래서 본 논문에서 제안하는 AffordanceLLM의 경우에는, 이러한 환경에 대한 이해를 VLM에게 맡기기로 한다. VLM을 이용하여 '내가 자전거의 어디에 타야해?' 라고 물어본다면, VLM은 '당신은 자전거의 안장에 타야 합니다.'라고 답할 것이다. 그러면 이제 이러한 Knowledge들과, 3D Depth 정보를 담고 있는 image에 대한 depth map을 이용하여 결과적으로 Affordance Grounding(이후 '어포던스'로 칭하겠습니다)를 구하는 것이 전체 Approach이다. 이러한 방식을 사용하면 훈련할 때 학습되지 않은 데이터에 대해서도 VLM을 통해 어포던스를 구할 수 있고, 실제로 이를 이용하여 SOTA의 결과를 내었다고 한다.

Approach

Related Works는 그리 중요한 내용이 없어 가볍게 제끼고, 일단 Approach(Methodology)에 대해서 알아보도록 하자.

본 모델의 input은 rgb image와 text가 함께 주어지게 된다. 각각의 이미지들은 depth estimation을 거쳐 pseudo depth가 생성되고, 이후 이것을 모두 VLM(본 논문에서는 LLava 7B를 backbone model로 사용한다. 현재는 다른 모델도 사용 가능할 것.) 에 ㅈ비어넣어 mask_token을 얻어내게 된다. 이후 이를 쿼리 임베딩으로 변경하여 affordance decoder(경량화된 버전, LVLM을 사용해야 하기 때문에 이로 인한 부하를 어느 정도 줄이기 위함으로 보임.)을 통해 이를 affordance map으로 변경하게 된다. 그렇게 나오는 결과물이 우측의 안장 사진이라고 볼 수 있다.

생각보다 그렇게 복잡한 구조는 아니었다. 그리고 여기서 가장 의문이 가는 점이 하나 있었는데, 바로 '그러면 이건 그냥 VLM이 다 해주는거 아닌가?'라는 생각이었다. 결국 depth estimation을 거친 이미지를 그냥 VLM에 넣어주면 결과가 나오는 것이 아닌가 생각이 들었고 이 논문을 대충 읽으면 이 생각이 들만도 할 것 같은데, 실제로는 그렇지 않다는 것을 아는 것이 중요하다.
기본적으로 VLM의 경우에는 단순히 텍스트만을 반환하게 되어 있다. 그 말인 즉슨, 아까의 예시에서는 단순히 '안장에 앉으셔야 합니다'라고만 말해준다는 것이다. 하지만 본 모델에서의 경우는, 그 안장이 어떤 픽셀에 존재하는지에 대해서 마스크 토큰까지 같이 반환을 해주는 것을 알 수 있다. 이거 하나만으로 이미 큰 차이점이라고 할 수 있을 것이다.

또한, AffordanceLLM의 경우에는 멀티모달 error를 사용한다. binary focal loss로 마스크의 오류를 잡고, 크로스 엔트로피 로스를 이용해 텍스트 데이터를 최적화한다. 이러한 것들 또한 단순히 VLM을 사용하는 것과의 차이점이라고 할 수 있을 것이다.

Experiments

앞에서 말했듯 본 모델은 어포던스 그라운딩의 generalization을 위한 모델이다. 그렇기 때문에 실험 또한 unseen data가 적은 split(easy split), 50:50 비율로 나눈 split(hard split) 2가지로 나누어서 진행한 것을 알 수 있다.

왼쪽이 easy split, 오른쪽이 hard split이다.

easy split의 경우에는 fully-supervised learning으로 학습된 LOCATE가 더 좋은 성능을 보이는 분야(특히 쿨백Divergence의 경우)가 존재하는 반면, unseen data가 많은 hard split의 경우에는 AffordanceLLM이 압도적인 성능을 보이는 것을 알 수 있었다. 이로 인해 일반화 성능이 AffordanceLLM이 압도적으로 좋다는 것을 알 수 있다.  

Limitations(Failure Examples)

논문에서 말하는 가장 큰 본 모델의 한계점은, 여러 물체가 한 이미지 내에 존재할 때 이를 한 번에 처리할 수 없다는 것이었다. 위의 이미지를 보면, 사과와 칼이 동시에 존재하는 경우에 하나하나 제대로 어포던스를 잡는 것이 아니라 전체에 걸쳐서 두루뭉술하게 잡는 것을 알 수 있다. 뭐 사실 이는 어쩔 수 없는 부분 아닌가 싶다만은.. 그래도 아쉬운 것은 어쩔 수 없다.

Conclusion

AffordanceLLM 모델은 3D Geometric 정보와, VLM을 통한 world-knowledge를 결합하여 어포던스를 찾아내는 새로운 방식을 제안하였다. 지금까지 대부분의 모델들이 사용하던 방식들은 모델의 구조를 단순히 바꾸거나, 새로운 항목을 추가하는 등의 방식을 주로 사용하였는데, 이 논문에서는 아예 다른 모델을 가져다가 사용해 쿼리를 결합한다는 아이디어를 가지고 온 것이 다소 신선한 점이었던 것 같다. 하지만 VLM의 성능에 어쩔 수 없이 의존적일 수밖에 없다는 점, 그리고 여러 개의 물체를 한 번에 잡아낼 수 없단 것은 아직 단점으로 남아있다는 생각이 든다. AffordanceLLM의 경우에는 사람이 이를 어떻게 활용할 수 있는지 찾아내는 것이기 때문에, 이를 통해서 다른 것이 얼마나 가능해질 수 있을지 정말 무궁무진한 주제인 것 같다고 생각한다.

반응형