본문 바로가기

728x90

분류 전체보기

(61)
[논문 리뷰] MoE-LLaVA MoE-LLaVA는 Meta의 LLM 모델인 Llama를 LVLM 모델로 변환한 LLaVA모델의 parameter를 효율적으로 처리하도록 제작한 모델입니다. Introduction LLaVA 또는 MiniGOT-4와 같은 LVLM 모델들이 image encoder 와 여러 visual projection layer들을 통해 LLM 모델을 LVLM모델로 변환하였고 성능 또한 좋은 것을 증명했습니다.  LLM 모델들은 더 많은 데이터와 더 큰 모델 사이즈를 통해 성능을 더욱 더 높여왔습니다. 하지만 각 토큰마다 모든 파라미터를 활성화 하는 기존의 방식으로 인해 엄청난 양의 컴퓨팅 파워가 필요해졌습니다.이러한 문제를 해결하고자 LLM 분야에서 Mixtures of Experts(MoE) 기법을 활용한 연구가 ..
[Contrastive Learning]SimCLR 사용하여 학습하기 본 글은 해당 링크의 튜토리얼을 실행하며 정리한 내용을 작성하였습니다.현재 주어진 데이터셋의 불균형이 심하여 여러 클래스 중 유독 2개의 클래스가 서로 비슷하여 정확성이 낮은 문제가있습니다.이를 해결하기 위한 방법으로 Contrastive Learning을 적용하고자 합니다.  일단 적용 모델의 이름은 SimCLR이며 자세한 내용은 위쪽에 언급한 링크에서 확인하실 수 있습니다.  SimCLR의 핵심은 이미지를 Augumentation하여 같은 이미지의 쌍인 Positive pair의 loss는 줄이고 서로 다른 이미지쌍인 Negative Pair의 loss는 늘리는 것 으로 기존 Contrastive Learning 방식과 크게 다르지 않다고 생각합니다.이러한 방식으로 같은 클래스는 더 가깝게 다른 클래..
[유튜브 리뷰] How Do Vision Transformers Work? 보호되어 있는 글입니다.
[Unity] SceneLoad를 통한 Scene 실행 시 물리작용 동작 안함 혹시 SceneLoad를 통해 Scene 실행 시 물리작용(ex.Colider감지, Rigid body감지)이 동작하지 않으신적 있나요??저는 있습니다... 이것 때문에 무려 4시간을 삽질한 끝에 해결책을 알아냈습니다... 저의 경우 void Start(){ Time.timeScale = 1f;}과 같이 실행 시 Time.timeScale에 1을 넣는 코드를 추가함으로 이를 해결했습니다. 왜인지 모르겠으나 Load될 경우 해당값이 0이 되어 물리 연산과 애니메이션이 중지된 경우인 것 같습니다. 누군가에게는 저의 삽질이 도움이 되었기를 ㅠㅠ
[논문]Swin Transformer 기존 ViT는 이미지를 패치 단위로 나누어 해당 패치를 Transformer Encoder에 적용하는 방식으로 동작하게 됩니다.  그런데 기존의 ViT의 경우 Self-Attention 시 계산 복잡도가 다음과 같이 이미지 해상도의 제곱에 비례하여 증가합니다. 그러나 이미지의 경우 픽셀 수가 상당히 많기 때문에 이런 계산 복잡도는 데이터셋의 해상도에 따라 엄청난 차이를 만들 수 있습니다. 이런 문제를 해결하고자 Swin Transformer는 Hierarchical architecture를 통해 다양한 스케일에 유동적이고 선형적 계산 복잡도를 가지도록 제작되었습니다.    Hierarchical architecture 앞서 언급한 Hierarchical architecture 입니다. 그림과 같이 이미지..
ModuleNotFoundError: No module named 'paddle' Github에서 중국분들의 코드에 많이 등장하는 paddle은 PaddlePaddle이라는 중국 딥러닝 플랫폼 입니다.  만약 제목에서 나타난 오류가 등장한다면 pip install paddlepaddle 을 통해 paddle 라이브러리를 설치함으로 해결할 수 있습니다.
[논문 리뷰] Learning from Rich Semantics and Coarse Locationsfor Long-tailed Object Detection 이번에는 데이터셋이 Long-tailed distribution일 경우에 tail에 분포된 class의 정확성을 높이는 방법에 대한 연구인 Learning from Rich Semantics and Coarse Locationsfor Long-tailed Object Detection 논문에 대한 정리를 하고자 합니다. 우선 데이터가  Long-tailed distribution인 경우에 대한 설명입니다.  위 사진과 같이 데이터 샘플이 특정 class는 많고 다른 class는 적은 분포를 가지고 있는 경우를 Long-tailed distribution이라 부릅니다. 실제 세상의 데이터는 이와 같이 분포가 균등하지 않은 경우가 대부분입니다.  하지만 현재 많은 Object detection model은 ..
[논문]Deep Learning Based Speed Estimation for Constraining Strapdown Inertial Navigation on Smartphones Conv1D는 이미지가 아닌 시계열 분석 또는 텍스트 분석에 많이 사용된다. 때문에 본 논문에서 언급한 위 CNN 모델은 Conv1D에 대한 모델을 의미한다.기본적인 방법은 휴대폰의 IMU값을 칼만필터를 통해 보정하여 실내 내비게이션에 적용할 수 있는 모델을 제작하는 기존의 방법과 유사하지만, CNN으로 momentary speed(순간 속도)를 추정하는 방식을 사용한다는 점이 단순히 칼만필터를 사용하는 모델과 다른 점이라 보인다.  strapdown고정식의feasibility실행 가능성, 실현 가능성constrained강요된, 제한된, 억제된unobstructed방해받지 않은, 장애물이 없는occlusion폐색, 차단, (광학적으로) 가림Instantaneous순간적인, 즉각적인aforementione..

728x90