sa2va (1) 썸네일형 리스트형 [논문] Sa2VA: Marrying SAM2 with LLaVAfor Dense Grounded Understanding of Images and Video 최근 많은 연구에서 Vison model과 LLM을 활용하여 다양한 모델을 제작하고 있습니다. 그 중 본 논문(Sa2VA)은 이미지와 비디오 입력 시 segmentation또는 입력에 대한 대화가 가능한 첫번째 모델이라고 합니다. 해당 동작을 위해 저자는 최소한의 one-shot instruction tuning을 사용하였으며, 많은 실험을 통해 다양한 task에 대한 state-of-the-art 성능을 입증하였습니다. Sa2VA는 SAM2 모델과 LLaVA-like 모델을 결합한 모델로 text, image, video를 LLM 토큰 공간으로 통합하였습니다.LLM을 통해 Sa2VA는 instruction token을 생성하며, 이는 SAM2의 정확한 마스크 생성, 이미지나 비디오 맥락 이해, 정적.. 이전 1 다음