sam2 (2) 썸네일형 리스트형 [논문] Sa2VA: Marrying SAM2 with LLaVAfor Dense Grounded Understanding of Images and Video 최근 많은 연구에서 Vison model과 LLM을 활용하여 다양한 모델을 제작하고 있습니다. 그 중 본 논문(Sa2VA)은 이미지와 비디오 입력 시 segmentation또는 입력에 대한 대화가 가능한 첫번째 모델이라고 합니다. 해당 동작을 위해 저자는 최소한의 one-shot instruction tuning을 사용하였으며, 많은 실험을 통해 다양한 task에 대한 state-of-the-art 성능을 입증하였습니다. Sa2VA는 SAM2 모델과 LLaVA-like 모델을 결합한 모델로 text, image, video를 LLM 토큰 공간으로 통합하였습니다.LLM을 통해 Sa2VA는 instruction token을 생성하며, 이는 SAM2의 정확한 마스크 생성, 이미지나 비디오 맥락 이해, 정적.. [논문] MoSAM: Motion-Guided Segment Anything Model with Spatial-TemporalMemory Selection SAM2의 등장으로 Segmentation을 활용하는 많은 분야에서 변화가 일어나고 있습니다. 이전의 SAM 또한 좋은 성능으로 호평을 받았지만 SAM2는 Memory bank를 추가하여 동영상 내의 객체 tracking에도 뛰어난 성능을 보여줍니다. 하지만 SAM2의 경우 과거 n개의 프레임의 마스크를 직접적으로 사용하기 때문에 객체가 잠시 사라지거나 가려질 경우 성능 하락이 급격하게 일어난다는 단점이 존재합니다.이를 본 논문인 MoSAM에서는 객체에 대한 움직임 정보의 부재고정된 과거 프레임 사용의 문제로 정의하고 이 문제를 해결하고자Motion-Guided Prompting(MGP): 객체의 움직임을 Sparse & Dense로 구분하고 이를 prompt로 사용Spatial-Temporal Mem.. 이전 1 다음