LLaVa (2) 썸네일형 리스트형 [논문] Sa2VA: Marrying SAM2 with LLaVAfor Dense Grounded Understanding of Images and Video 최근 많은 연구에서 Vison model과 LLM을 활용하여 다양한 모델을 제작하고 있습니다. 그 중 본 논문(Sa2VA)은 이미지와 비디오 입력 시 segmentation또는 입력에 대한 대화가 가능한 첫번째 모델이라고 합니다. 해당 동작을 위해 저자는 최소한의 one-shot instruction tuning을 사용하였으며, 많은 실험을 통해 다양한 task에 대한 state-of-the-art 성능을 입증하였습니다. Sa2VA는 SAM2 모델과 LLaVA-like 모델을 결합한 모델로 text, image, video를 LLM 토큰 공간으로 통합하였습니다.LLM을 통해 Sa2VA는 instruction token을 생성하며, 이는 SAM2의 정확한 마스크 생성, 이미지나 비디오 맥락 이해, 정적.. [논문 리뷰] MoE-LLaVA MoE-LLaVA는 Meta의 LLM 모델인 Llama를 LVLM 모델로 변환한 LLaVA모델의 parameter를 효율적으로 처리하도록 제작한 모델입니다. Introduction LLaVA 또는 MiniGOT-4와 같은 LVLM 모델들이 image encoder 와 여러 visual projection layer들을 통해 LLM 모델을 LVLM모델로 변환하였고 성능 또한 좋은 것을 증명했습니다. LLM 모델들은 더 많은 데이터와 더 큰 모델 사이즈를 통해 성능을 더욱 더 높여왔습니다. 하지만 각 토큰마다 모든 파라미터를 활성화 하는 기존의 방식으로 인해 엄청난 양의 컴퓨팅 파워가 필요해졌습니다.이러한 문제를 해결하고자 LLM 분야에서 Mixtures of Experts(MoE) 기법을 활용한 연구가 .. 이전 1 다음