본문 바로가기

728x90

분류 전체보기

(68)
[논문] Sa2VA: Marrying SAM2 with LLaVAfor Dense Grounded Understanding of Images and Video 최근 많은 연구에서 Vison model과 LLM을 활용하여 다양한 모델을 제작하고 있습니다. 그 중 본 논문(Sa2VA)은 이미지와 비디오 입력 시 segmentation또는 입력에 대한 대화가 가능한 첫번째 모델이라고 합니다. 해당 동작을 위해 저자는 최소한의 one-shot instruction tuning을 사용하였으며, 많은 실험을 통해 다양한 task에 대한 state-of-the-art 성능을 입증하였습니다. Sa2VA는 SAM2 모델과 LLaVA-like 모델을 결합한 모델로 text, image, video를 LLM 토큰 공간으로 통합하였습니다.LLM을 통해 Sa2VA는 instruction token을 생성하며, 이는 SAM2의 정확한 마스크 생성, 이미지나 비디오 맥락 이해, 정적..
[Docker] 현재 컨테이너를 이미지로 저장 docker commit ex) docker commit my_ros_container my_ros_image
[논문] MoSAM: Motion-Guided Segment Anything Model with Spatial-TemporalMemory Selection SAM2의 등장으로 Segmentation을 활용하는 많은 분야에서 변화가 일어나고 있습니다. 이전의 SAM 또한 좋은 성능으로 호평을 받았지만 SAM2는 Memory bank를 추가하여 동영상 내의 객체 tracking에도 뛰어난 성능을 보여줍니다. 하지만 SAM2의 경우 과거 n개의 프레임의 마스크를 직접적으로 사용하기 때문에 객체가 잠시 사라지거나 가려질 경우 성능 하락이 급격하게 일어난다는 단점이 존재합니다.이를 본 논문인 MoSAM에서는 객체에 대한 움직임 정보의 부재고정된 과거 프레임 사용의 문제로 정의하고 이 문제를 해결하고자Motion-Guided Prompting(MGP): 객체의 움직임을 Sparse & Dense로 구분하고 이를 prompt로 사용Spatial-Temporal Mem..
[ROS2] 사용 명령어 정리 노드 실행ros2 run Service call 명령어ros2 service call "{서비스 호출에 전달할 요청 메시지}" Action 명령어 (Goal 부여)ros2 action send_goal "{목표}" Python 노드생성import rclpy as rptest_node = rp.create_node("sub_test") Python 노드 생성 후 해당 노드 topic 구독하게 만들기 (예제: 베터리 퍼센트 구독)import rclpy as rpfrom sensor_msg.msg import BatteryState # topic typerp.init()test_node = rp.create_node("sub_test")# 콜백함수 생성def callback(data): print(..
[논문 리뷰] Boosting Object Detection with Zero-Shot Day-Night Domain Adaptation 1. Intorduction딥러닝을 활용한 Object detection 모델은 Large-scale datasets(COCO, Open Images)을 통해 많은 성능 향상을 이뤘습니다. 하지만 이러한 학습 결과는 아래와 같이 어두운 이미지에서는 성능이 떨어지는 문제가 있습니다. 이러한 문제를 해결하기 위한 방법으로Light-enhanced 이미지를 활용한 학습밝은 이미지에 대한 학습 후 어두운 이미지를 활용한 fine-tuning 방법이 있습니다. 하지만 이러한 방법은 모두 필수적으로 어두운 이미지가 필요한데 어두운 이미지에 대한 데이터셋은 수집하기 어렵다는 문제가 있습니다. 이런 문제를 피하기 위해 본 논문은 아래 사진과 같이 zero-shot day-night domain adaptation se..
[Docker] TensorRT 환경 구축 이전 글 을 통해 Docker를 설치하였으니 이제 환경을 구축해보겠습니다. 저는 nvidia docker을 사용하기 위해 toolkit을 다운 받아야합니다. 링크: https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html Installing the NVIDIA Container Toolkit — NVIDIA Container ToolkitNote These instructions should work for any Debian-derived distribution.docs.nvidia.com 1. repository 설정  (NVIDIA의 공식 저장소에서 패키지를 안전하게 다운로드 하기 위함)cur..
[Docker] Ubuntu 환경에 설치 출처: https://docs.docker.com/engine/install/ubuntu/ UbuntuJumpstart your client-side server applications with Docker Engine on Ubuntu. This guide details prerequisites and multiple methods to install Docker Engine on Ubuntu.docs.docker.com Ubuntu 버전 확인lsb_release -a 1. Ubuntu 시스템 패키지 업데이트sudo apt-get update 2. Docker apt(Advanced Package Tool) repository Set up 하기# Add Docker's official GPG key:s..
[논문 리뷰] MoE-LLaVA MoE-LLaVA는 Meta의 LLM 모델인 Llama를 LVLM 모델로 변환한 LLaVA모델의 parameter를 효율적으로 처리하도록 제작한 모델입니다. Introduction LLaVA 또는 MiniGOT-4와 같은 LVLM 모델들이 image encoder 와 여러 visual projection layer들을 통해 LLM 모델을 LVLM모델로 변환하였고 성능 또한 좋은 것을 증명했습니다.  LLM 모델들은 더 많은 데이터와 더 큰 모델 사이즈를 통해 성능을 더욱 더 높여왔습니다. 하지만 각 토큰마다 모든 파라미터를 활성화 하는 기존의 방식으로 인해 엄청난 양의 컴퓨팅 파워가 필요해졌습니다.이러한 문제를 해결하고자 LLM 분야에서 Mixtures of Experts(MoE) 기법을 활용한 연구가 ..

728x90