Podcast
Questions and Answers
트리플 손실을 사용해서 무엇을 목표로 하나?
트리플 손실을 사용해서 무엇을 목표로 하나?
- 음성 샘플의 거리를 늘린다.
- 무작위로 샘플을 선택한다.
- 앵커와 양성 샘플이 앵커와 음성 샘플보다 가깝도록 한다. (correct)
- 양성 샘플의 거리를 줄인다.
마진의 주요 목적은 무엇인가?
마진의 주요 목적은 무엇인가?
- 음성 샘플이 앵커와 가까이 있도록 한다.
- 양성 샘플과 음성 샘플을 혼동하게 한다.
- 앵커 샘플의 양을 증가시킨다.
- 음성 샘플이 멀리 떨어지도록 보장한다. (correct)
어떤 방식으로 도전적인 음성 샘플을 구성해야 하는가?
어떤 방식으로 도전적인 음성 샘플을 구성해야 하는가?
- 무작위로 선택하여 구성한다.
- 양성 샘플과 동일한 범위에서 선택한다.
- 가장 인기 있는 아이템을 선택한다.
- 다양한 사용자 행동을 반영하여 선택한다. (correct)
비교 학습의 목적은 무엇인가?
비교 학습의 목적은 무엇인가?
모델이 효과적으로 학습하지 못하게 되는 주 원인은 무엇인가?
모델이 효과적으로 학습하지 못하게 되는 주 원인은 무엇인가?
CLIP 모델의 주요 특징은 무엇인가?
CLIP 모델의 주요 특징은 무엇인가?
BLIP의 특징 중 어떤 것이 Image-Text Retrieval에 좋지 않은가?
BLIP의 특징 중 어떤 것이 Image-Text Retrieval에 좋지 않은가?
메트릭 학습의 주된 목표는 무엇인가?
메트릭 학습의 주된 목표는 무엇인가?
CLIP 모델의 학습에 사용된 배치 크기는 얼마인가?
CLIP 모델의 학습에 사용된 배치 크기는 얼마인가?
다음 중 약한 감독 학습의 정의는 무엇인가?
다음 중 약한 감독 학습의 정의는 무엇인가?
CLIP의 이미지를 처리하는 인코더는 어떤 구조를 사용하는가?
CLIP의 이미지를 처리하는 인코더는 어떤 구조를 사용하는가?
CLIP 모델에서 이해와 생성의 역할은 어떻게 나누어져 있는가?
CLIP 모델에서 이해와 생성의 역할은 어떻게 나누어져 있는가?
다음 중 감독 학습의 예시는 무엇인가?
다음 중 감독 학습의 예시는 무엇인가?
비교 학습의 주된 목표는 무엇인가?
비교 학습의 주된 목표는 무엇인가?
다음 중 감독, 비감독 및 약한 감독 학습의 차이점은 무엇인가?
다음 중 감독, 비감독 및 약한 감독 학습의 차이점은 무엇인가?
사전 훈련된 언어-비전 모델의 예시로 옳은 것은?
사전 훈련된 언어-비전 모델의 예시로 옳은 것은?
다음 중 약한 감독 학습의 활용 예는 무엇인가?
다음 중 약한 감독 학습의 활용 예는 무엇인가?
메트릭 학습이 어려운 이유는 무엇인가?
메트릭 학습이 어려운 이유는 무엇인가?
BLIP에서 Multimodal Mixture of Encoder-Decoder (MED)의 주요 특징은 무엇인가?
BLIP에서 Multimodal Mixture of Encoder-Decoder (MED)의 주요 특징은 무엇인가?
CapFilt 접근법은 어떤 문제를 해결하기 위해 도입되었는가?
CapFilt 접근법은 어떤 문제를 해결하기 위해 도입되었는가?
BLIP 모델의 unimodal encoder로 사용되는 두 가지 구성 요소는 무엇인가?
BLIP 모델의 unimodal encoder로 사용되는 두 가지 구성 요소는 무엇인가?
BLIP의 Image-Grounded Text Encoder는 어떤 기능을 수행하는가?
BLIP의 Image-Grounded Text Encoder는 어떤 기능을 수행하는가?
BLIP 모델의 텍스트 생성 방식에 대한 설명으로 옳은 것은 무엇인가?
BLIP 모델의 텍스트 생성 방식에 대한 설명으로 옳은 것은 무엇인가?
BLIP의 주요 목적 중 하나는 무엇인가?
BLIP의 주요 목적 중 하나는 무엇인가?
BLIP에 있어 미세 조정(mid-training)의 필요성은 무엇인가?
BLIP에 있어 미세 조정(mid-training)의 필요성은 무엇인가?
BLIP 모델에서 이미지-텍스트 생성의 주요 과제는 무엇인가?
BLIP 모델에서 이미지-텍스트 생성의 주요 과제는 무엇인가?
데이터셋 수집에 있어 유사성을 이용하는 이유는 무엇인가?
데이터셋 수집에 있어 유사성을 이용하는 이유는 무엇인가?
메트릭 학습의 주된 목적은 무엇인가?
메트릭 학습의 주된 목적은 무엇인가?
Point-wise 훈련 방식에서 무엇을 예측하는가?
Point-wise 훈련 방식에서 무엇을 예측하는가?
Pair-wise 훈련 방식의 주요 특징은 무엇인가?
Pair-wise 훈련 방식의 주요 특징은 무엇인가?
List-wise 훈련 방식의 단점은 무엇인가?
List-wise 훈련 방식의 단점은 무엇인가?
Triplet Loss를 사용하는 훈련 데이터의 구성 요소는 무엇인가?
Triplet Loss를 사용하는 훈련 데이터의 구성 요소는 무엇인가?
학습 모델의 최종 목적은 무엇인가?
학습 모델의 최종 목적은 무엇인가?
Ranking 모델에서 Pair-wise 처리의 주요 이점은 무엇인가?
Ranking 모델에서 Pair-wise 처리의 주요 이점은 무엇인가?
트리플렛 손실과 대비 학습 손실의 주요 차이는 무엇인가?
트리플렛 손실과 대비 학습 손실의 주요 차이는 무엇인가?
SimCLR에서 긍정 쌍 (i, j)의 손실 계산 방식은 무엇인가?
SimCLR에서 긍정 쌍 (i, j)의 손실 계산 방식은 무엇인가?
Noise Contrastive Estimator(NCE)의 핵심 아이디어는 무엇인가?
Noise Contrastive Estimator(NCE)의 핵심 아이디어는 무엇인가?
OpenAI는 어떤 양식의 데이터를 수집하여 CLIP을 사전 학습했는가?
OpenAI는 어떤 양식의 데이터를 수집하여 CLIP을 사전 학습했는가?
다음 중 CLIP과 관련하여 올바른 것은 무엇인가?
다음 중 CLIP과 관련하여 올바른 것은 무엇인가?
Contrastive Learning에서 대조 학습이 적용되는 주요 방식은 무엇인가?
Contrastive Learning에서 대조 학습이 적용되는 주요 방식은 무엇인가?
VirTex에서 제안된 목표 함수의 사용 예는 무엇인가?
VirTex에서 제안된 목표 함수의 사용 예는 무엇인가?
Flashcards
Metric Learning (메트릭 학습)
Metric Learning (메트릭 학습)
주어진 데이터셋에 대한 유사성을 학습하는 기법. 즉, 상대적인 유사성을 학습하는 방법입니다.
Distance Function (거리 함수)
Distance Function (거리 함수)
두 샘플의 의미적 거리를 측정하는 함수입니다.
Relative Similarity (상대적 유사성)
Relative Similarity (상대적 유사성)
Metric Learning의 목표는 두 샘플 간의 상대적인 유사성을 학습하는 것입니다. 즉, 특정 데이터셋에서 두 샘플이 얼마나 비슷한지 학습하는 것이 목표입니다.
Unsupervised Learning (비지도 학습)
Unsupervised Learning (비지도 학습)
Signup and view all the flashcards
Weak Supervision (약지도 학습)
Weak Supervision (약지도 학습)
Signup and view all the flashcards
Supervised Learning (지도 학습)
Supervised Learning (지도 학습)
Signup and view all the flashcards
Learning to Rank (순위 학습)
Learning to Rank (순위 학습)
Signup and view all the flashcards
Contrastive Learning (대조 학습)
Contrastive Learning (대조 학습)
Signup and view all the flashcards
마진(Margin)이란 무엇일까요?
마진(Margin)이란 무엇일까요?
Signup and view all the flashcards
트리플렛 로스(Triplet Loss)란?
트리플렛 로스(Triplet Loss)란?
Signup and view all the flashcards
트리플렛 로스에서 포지티브와 네거티브 샘플은 어떻게 구별될까요?
트리플렛 로스에서 포지티브와 네거티브 샘플은 어떻게 구별될까요?
Signup and view all the flashcards
왜 랜덤하게 네거티브 샘플을 선택하는 것이 좋지 않을까요?
왜 랜덤하게 네거티브 샘플을 선택하는 것이 좋지 않을까요?
Signup and view all the flashcards
대조 학습 (Contrastive Learning)
대조 학습 (Contrastive Learning)
Signup and view all the flashcards
CLIP (Contrastive Language-Image Pre-training)
CLIP (Contrastive Language-Image Pre-training)
Signup and view all the flashcards
대조 학습(Contrastive Learning)이란?
대조 학습(Contrastive Learning)이란?
Signup and view all the flashcards
CLIP의 한계 (Image Captioning)
CLIP의 한계 (Image Captioning)
Signup and view all the flashcards
디코더 추가의 단점 (Image-Text Retrieval)
디코더 추가의 단점 (Image-Text Retrieval)
Signup and view all the flashcards
BLIP (Bootstrapping Language-Image Pre-training)
BLIP (Bootstrapping Language-Image Pre-training)
Signup and view all the flashcards
유사성 기반 데이터 수집
유사성 기반 데이터 수집
Signup and view all the flashcards
메트릭 학습
메트릭 학습
Signup and view all the flashcards
메트릭 학습은 지도 학습인가요?
메트릭 학습은 지도 학습인가요?
Signup and view all the flashcards
랭킹 모델
랭킹 모델
Signup and view all the flashcards
랭킹 모델 학습 데이터
랭킹 모델 학습 데이터
Signup and view all the flashcards
포인트-와이즈 랭킹 모델
포인트-와이즈 랭킹 모델
Signup and view all the flashcards
페어-와이즈 랭킹 모델
페어-와이즈 랭킹 모델
Signup and view all the flashcards
리스트-와이즈 랭킹 모델
리스트-와이즈 랭킹 모델
Signup and view all the flashcards
음성 샘플링 (Negative Sampling)
음성 샘플링 (Negative Sampling)
Signup and view all the flashcards
대조 학습의 목표
대조 학습의 목표
Signup and view all the flashcards
대조 학습과 트리플릿 손실의 차이점
대조 학습과 트리플릿 손실의 차이점
Signup and view all the flashcards
SimCLR 손실 함수
SimCLR 손실 함수
Signup and view all the flashcards
CLIP의 훈련 방법
CLIP의 훈련 방법
Signup and view all the flashcards
CLIP의 지표 학습
CLIP의 지표 학습
Signup and view all the flashcards
언어-비전 사전 학습 모델
언어-비전 사전 학습 모델
Signup and view all the flashcards
CapFilt란 무엇일까요?
CapFilt란 무엇일까요?
Signup and view all the flashcards
BLIP 아키텍처의 핵심은 무엇일까요?
BLIP 아키텍처의 핵심은 무엇일까요?
Signup and view all the flashcards
BLIP의 MED는 어떻게 작동할까요?
BLIP의 MED는 어떻게 작동할까요?
Signup and view all the flashcards
BLIP의 MED에서 사용되는 주요 구성 요소는 무엇일까요?
BLIP의 MED에서 사용되는 주요 구성 요소는 무엇일까요?
Signup and view all the flashcards
BLIP의 MED는 어떻게 이미지와 텍스트를 연결할까요?
BLIP의 MED는 어떻게 이미지와 텍스트를 연결할까요?
Signup and view all the flashcards
BLIP의 MED는 어떻게 이미지 정보를 텍스트 생성에 활용할까요?
BLIP의 MED는 어떻게 이미지 정보를 텍스트 생성에 활용할까요?
Signup and view all the flashcards
BLIP은 무엇일까요?
BLIP은 무엇일까요?
Signup and view all the flashcards
BLIP의 사전 훈련 목표는 무엇일까요?
BLIP의 사전 훈련 목표는 무엇일까요?
Signup and view all the flashcards
Study Notes
Deep Learning Week 14-2
- The lecture ends on December 11th.
- Homework 2 is due on December 11th (Wednesday) at 11:59 PM.
- The final exam is on December 18th (Wednesday).
Announcement
- The final exam format is similar to the midterm, including multiple-choice, true/false, and other question types.
Content
-
Metric Learning: Aims to determine the semantic closeness (similarity) between two samples.
- Learns a "distance function" or "semantic distance" which is "similarity."
- Similarity is relative to a given dataset.
- Metric learning learns "Relative Similarity".
-
Learning to Rank: Builds a ranking model to encode the relative similarity of items in a given dataset.
- Training data consists of lists of items.
- Formats (Pointwise, Pairwise, Listwise) used to categorize lists.
- Ranking models used, including Document retrieval (web search query, relevance), collaborative filtering (recommendation systems).
- How to build a ranking model approach (pointwise, pairwise, listwise).
-
Triplet Loss: Training data involves an anchor, positive, and negative sample, aiming to model that the anchor is "closer" to the positive sample than to the negative sample.
- Distance between anchor and negative, and anchor and positive are measured.
- The difference between the distances is minimized.
- Negative samples should be 'far away'.
-
Contrastive Learning: Model training via pairwise loss functions, aiming to push dissimilar samples far apart and similar samples close together.
- Distance between anchor and positive samples is small.
- Distance between anchor and negative samples is large.
-
Contrastive Learning: SimCLR, InfoNCE
- SimCLR calculates loss.
- Inspired by Negative Sampling.
- Important to carefully construct challenging negative samples during training.
CLIP: Contrastive Language Image Pre-training
- Different pre-trained Language-Vision models exist (VL-BERT, ConVIRT, VirTex).
- A new dataset of 400M image-text pairs is collected from the internet.
- Pre-training is performed using a particular objective function (in VirTex).
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- BLIP is an encoder-based model with difficulty in generation (text).
- Encoder handles "Understanding", Decoder handles "Generation".
- Utilizing Web crawling data, which can be noisy.
- A "Multimodal Mixture of Encoder-Decoder (MED)" is used to effectively perform Image-Text generation and retrieval (understanding).
LLaVA: Large Language and Vision Assistant
- Instruction Tuning (Prompt-Completion, Supervised fine-tuning (FLAN-T5) and Vicuna fine-tuning).
- LLaVA is a Large Language and Vision model that includes a Language model and a Vision Encoder.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.