본문 바로가기

728x90

ML

(9)
[논문 리뷰] MoE-LLaVA MoE-LLaVA는 Meta의 LLM 모델인 Llama를 LVLM 모델로 변환한 LLaVA모델의 parameter를 효율적으로 처리하도록 제작한 모델입니다. Introduction LLaVA 또는 MiniGOT-4와 같은 LVLM 모델들이 image encoder 와 여러 visual projection layer들을 통해 LLM 모델을 LVLM모델로 변환하였고 성능 또한 좋은 것을 증명했습니다.  LLM 모델들은 더 많은 데이터와 더 큰 모델 사이즈를 통해 성능을 더욱 더 높여왔습니다. 하지만 각 토큰마다 모든 파라미터를 활성화 하는 기존의 방식으로 인해 엄청난 양의 컴퓨팅 파워가 필요해졌습니다.이러한 문제를 해결하고자 LLM 분야에서 Mixtures of Experts(MoE) 기법을 활용한 연구가 ..
[Contrastive Learning]SimCLR 사용하여 학습하기 본 글은 해당 링크의 튜토리얼을 실행하며 정리한 내용을 작성하였습니다.현재 주어진 데이터셋의 불균형이 심하여 여러 클래스 중 유독 2개의 클래스가 서로 비슷하여 정확성이 낮은 문제가있습니다.이를 해결하기 위한 방법으로 Contrastive Learning을 적용하고자 합니다.  일단 적용 모델의 이름은 SimCLR이며 자세한 내용은 위쪽에 언급한 링크에서 확인하실 수 있습니다.  SimCLR의 핵심은 이미지를 Augumentation하여 같은 이미지의 쌍인 Positive pair의 loss는 줄이고 서로 다른 이미지쌍인 Negative Pair의 loss는 늘리는 것 으로 기존 Contrastive Learning 방식과 크게 다르지 않다고 생각합니다.이러한 방식으로 같은 클래스는 더 가깝게 다른 클래..
[논문]Swin Transformer 기존 ViT는 이미지를 패치 단위로 나누어 해당 패치를 Transformer Encoder에 적용하는 방식으로 동작하게 됩니다.  그런데 기존의 ViT의 경우 Self-Attention 시 계산 복잡도가 다음과 같이 이미지 해상도의 제곱에 비례하여 증가합니다. 그러나 이미지의 경우 픽셀 수가 상당히 많기 때문에 이런 계산 복잡도는 데이터셋의 해상도에 따라 엄청난 차이를 만들 수 있습니다. 이런 문제를 해결하고자 Swin Transformer는 Hierarchical architecture를 통해 다양한 스케일에 유동적이고 선형적 계산 복잡도를 가지도록 제작되었습니다.    Hierarchical architecture 앞서 언급한 Hierarchical architecture 입니다. 그림과 같이 이미지..
[논문 리뷰] Learning from Rich Semantics and Coarse Locationsfor Long-tailed Object Detection 이번에는 데이터셋이 Long-tailed distribution일 경우에 tail에 분포된 class의 정확성을 높이는 방법에 대한 연구인 Learning from Rich Semantics and Coarse Locationsfor Long-tailed Object Detection 논문에 대한 정리를 하고자 합니다. 우선 데이터가  Long-tailed distribution인 경우에 대한 설명입니다.  위 사진과 같이 데이터 샘플이 특정 class는 많고 다른 class는 적은 분포를 가지고 있는 경우를 Long-tailed distribution이라 부릅니다. 실제 세상의 데이터는 이와 같이 분포가 균등하지 않은 경우가 대부분입니다.  하지만 현재 많은 Object detection model은 ..
[논문]Deep Learning Based Speed Estimation for Constraining Strapdown Inertial Navigation on Smartphones Conv1D는 이미지가 아닌 시계열 분석 또는 텍스트 분석에 많이 사용된다. 때문에 본 논문에서 언급한 위 CNN 모델은 Conv1D에 대한 모델을 의미한다.기본적인 방법은 휴대폰의 IMU값을 칼만필터를 통해 보정하여 실내 내비게이션에 적용할 수 있는 모델을 제작하는 기존의 방법과 유사하지만, CNN으로 momentary speed(순간 속도)를 추정하는 방식을 사용한다는 점이 단순히 칼만필터를 사용하는 모델과 다른 점이라 보인다.  strapdown고정식의feasibility실행 가능성, 실현 가능성constrained강요된, 제한된, 억제된unobstructed방해받지 않은, 장애물이 없는occlusion폐색, 차단, (광학적으로) 가림Instantaneous순간적인, 즉각적인aforementione..
Precision, Recall에 대해 •True Positive : 실제 정답을 정답이라 예측함•True Negative: 실제 오답을 오답이라 예측함•False Positive: 실제 오답을 정답이라 예측함•False Negative: 실제 정답을 오답이라 예측함Recall실제 True인 것 중에 True라고 예측한 비율실제 True인 것을 False라고 예측하면 안되는 상황  ex) 암검진  (암인 경우를 아니라고 판단하면 큰일남)  PrecisionTrue라고 예측한 것들 중에 실제 True인 비율실제 False인 것을 True라고 예측하면 안되는 상황 ex) 잡초 제거기  (잡초가 아닌데 잡초라고 뽑으면 안됌)
SAM(Segment Anything Model)으로 자동 Labeling 하기 Yolo Dataset을 이용해서 Segmentation Dataset으로 만들기 위한 과정에 대한 설명입니다.  우선 Facebook의 공식 git 코드를 참조하였습니다 링크는 아래와 같습니다. https://github.com/facebookresearch/segment-anything/blob/main/notebooks/predictor_example.ipynb segment-anything/notebooks/predictor_example.ipynb at main · facebookresearch/segment-anythingThe repository provides code for running inference with the SegmentAnything Model (SAM), links fo..
[논문 리뷰] Visual Prompt Tuning 최근 성능이 좋은 거대 모델이 쏟아지며 많은 분야에서 기술적 혁신이 일어나고 있습니다.그러나 이러한 거대모델을 일반인 또는 연구실 그리고 대부분의 기업에서 만들기는 정말 쉽지 않습니다. 따라서 현재 나온 거대 모델을 사용하며, 낮은 컴퓨팅 자원을 통해 원하는 방향으로 성능을 향상시키는 방법을 찾다 Visual Prompt Tuning(VPT)에 대해 알게되었습니다.   논문의 사진에서 볼 수 있듯  VPT는 Linear Probing과 같이 기존의 다양한 transfer learning 방법에 비해 성능이 높으며 심지어 Full fine-tunning 방법보다도 성능이 좋습니다. Full: Pretrain된 모델의 파라미터를 학습 시키는 것Linear: Classification Layer에 Fully ..

728x90