Podcast
Questions and Answers
트리플 손실의 목표는 무엇입니까?
트리플 손실의 목표는 무엇입니까?
- (앵커, 부정)을 긍정 샘플로 바꾸는 것
- (앵커, 긍정)이 (앵커, 부정)보다 더 가까워지도록 하는 것 (correct)
- (앵커, 긍정)이 (앵커, 부정)보다 더 멀어지도록 하는 것
- (앵커, 긍정)과 (앵커, 부정)을 같은 거리로 만드는 것
부정 샘플을 무작위로 선택하는 것이 항상 좋은 아이디어이다.
부정 샘플을 무작위로 선택하는 것이 항상 좋은 아이디어이다.
False (B)
트리플 손실에서 '마진'의 역할은 무엇인가요?
트리플 손실에서 '마진'의 역할은 무엇인가요?
부정 샘플이 멀리 떨어져 있도록 보장하기 위해 거리를 유지하는 것.
대조 학습은 유사한 샘플 쌍을 훈련시키기 위해 ________ 손실 함수를 사용합니다.
대조 학습은 유사한 샘플 쌍을 훈련시키기 위해 ________ 손실 함수를 사용합니다.
다음 항목을 맞추세요: 트리플 손실과 대조 학습
다음 항목을 맞추세요: 트리플 손실과 대조 학습
다음 중 약한 감독 학습에 대한 설명으로 올바른 것은 무엇인가?
다음 중 약한 감독 학습에 대한 설명으로 올바른 것은 무엇인가?
Metric Learning은 샘플 간의 절대적인 유사성을 학습하는 데 목표를 둔다.
Metric Learning은 샘플 간의 절대적인 유사성을 학습하는 데 목표를 둔다.
Weak supervision의 예로 어떤 작업이 있는가?
Weak supervision의 예로 어떤 작업이 있는가?
Metric Learning의 목표는 ___________와 같은 거리 함수를 학습하는 것이다.
Metric Learning의 목표는 ___________와 같은 거리 함수를 학습하는 것이다.
다음 중 감독 학습의 예로 올바르지 않은 것은 무엇인가?
다음 중 감독 학습의 예로 올바르지 않은 것은 무엇인가?
다음 언어-비전 모델을 그들의 기능에 맞추어 매칭하시오:
다음 언어-비전 모델을 그들의 기능에 맞추어 매칭하시오:
최종 시험에는 샘플 질문이 포함되지 않는다.
최종 시험에는 샘플 질문이 포함되지 않는다.
Metric Learning은 샘플 사이의 ___________를 측정하기 위해 거리 함수를 학습합니다.
Metric Learning은 샘플 사이의 ___________를 측정하기 위해 거리 함수를 학습합니다.
CLIP 모델이 사용하는 이미지 인코더는 무엇인가요?
CLIP 모델이 사용하는 이미지 인코더는 무엇인가요?
CLIP은 디코더가 없는 인코더 기반 모델이다.
CLIP은 디코더가 없는 인코더 기반 모델이다.
CLIP 모델의 배치 크기는 얼마인가요?
CLIP 모델의 배치 크기는 얼마인가요?
BLIP는 통합 ___________-언어 이해 및 생성을 위한 부트스트래핑 모델입니다.
BLIP는 통합 ___________-언어 이해 및 생성을 위한 부트스트래핑 모델입니다.
다음 기술을 주요 용도와 연결하세요:
다음 기술을 주요 용도와 연결하세요:
다음 중 메트릭 학습의 주목적은 무엇인가?
다음 중 메트릭 학습의 주목적은 무엇인가?
리스트-와이즈 방식은 두 개 이상의 항목을 정렬된 리스트로 다루는 방식이다.
리스트-와이즈 방식은 두 개 이상의 항목을 정렬된 리스트로 다루는 방식이다.
트리플렛 손실의 훈련 데이터 구성 요소는 무엇인가?
트리플렛 손실의 훈련 데이터 구성 요소는 무엇인가?
메트릭 학습은 __________을 학습하기 위한 방법이다.
메트릭 학습은 __________을 학습하기 위한 방법이다.
다음 용어와 정의를 맞추세요:
다음 용어와 정의를 맞추세요:
다음 중 '리스트-와이즈' 훈련 샘플의 예는 무엇인가?
다음 중 '리스트-와이즈' 훈련 샘플의 예는 무엇인가?
유사한 쌍(positive pair) 간의 거리와 유사하지 않은 쌍(negative pair) 간의 거리 차이를 기반으로 계산되는 손실 함수는 무엇인가?
유사한 쌍(positive pair) 간의 거리와 유사하지 않은 쌍(negative pair) 간의 거리 차이를 기반으로 계산되는 손실 함수는 무엇인가?
리 ranking 모델의 최종 목표는 새로운 데이터 목록을 입력받아 기존 데이터와 유사하게 정렬된 순서를 생성하는 것이다.
리 ranking 모델의 최종 목표는 새로운 데이터 목록을 입력받아 기존 데이터와 유사하게 정렬된 순서를 생성하는 것이다.
페어-와이즈(rank 방식)의 훈련 목적은 무엇인가?
페어-와이즈(rank 방식)의 훈련 목적은 무엇인가?
Contrastive Learning와 Triplet Loss는 본질적으로 동일한 방식으로 손실을 계산한다.
Contrastive Learning와 Triplet Loss는 본질적으로 동일한 방식으로 손실을 계산한다.
SimCLR의 손실 계산 방법은 무엇인가?
SimCLR의 손실 계산 방법은 무엇인가?
NCE는 _____ 샘플링에서 영감을 받았다.
NCE는 _____ 샘플링에서 영감을 받았다.
다음 언어-비전 모델을 주어진 설명과 일치시켜라:
다음 언어-비전 모델을 주어진 설명과 일치시켜라:
주어진 데이터셋은 몇 개의 이미지-텍스트 쌍으로 구성되어 있는가?
주어진 데이터셋은 몇 개의 이미지-텍스트 쌍으로 구성되어 있는가?
SimCLR는 단순히 단어-맥락 쌍을 학습하기 위해 설계됐다.
SimCLR는 단순히 단어-맥락 쌍을 학습하기 위해 설계됐다.
CLIP의 목적은 무엇인가?
CLIP의 목적은 무엇인가?
BLIP의 주된 목적은 무엇인가요?
BLIP의 주된 목적은 무엇인가요?
MED는 이해를 인코더에만 할당하고 생성을 디코더에만 할당합니다.
MED는 이해를 인코더에만 할당하고 생성을 디코더에만 할당합니다.
BLIP에서 CapFilt의 주된 목적은 무엇인가요?
BLIP에서 CapFilt의 주된 목적은 무엇인가요?
BLIP의 인코더는 __________와 BERT로 구성되어 있습니다.
BLIP의 인코더는 __________와 BERT로 구성되어 있습니다.
다음 언어 모델 구성 요소를 주된 기능과 맞춤:
다음 언어 모델 구성 요소를 주된 기능과 맞춤:
BLIP의 '이미지 기반 텍스트 디코더'는 무엇을 사용하여 텍스트를 생성하나요?
BLIP의 '이미지 기반 텍스트 디코더'는 무엇을 사용하여 텍스트를 생성하나요?
BLIP는 다중 모달 인코더-디코더 접근 방식을 사용하지 않다.
BLIP는 다중 모달 인코더-디코더 접근 방식을 사용하지 않다.
BLIP의 사전 학습 목표는 무엇인가요?
BLIP의 사전 학습 목표는 무엇인가요?
Flashcards
메트릭 학습이란 무엇일까요?
메트릭 학습이란 무엇일까요?
두 샘플이 주어졌을 때, 두 샘플이 얼마나 의미적으로 가까운지 (= 유사한지)를 측정하는 방법을 학습하는 것입니다.
메트릭 학습에서 학습하는 것은 무엇인가요?
메트릭 학습에서 학습하는 것은 무엇인가요?
메트릭 학습은 주어진 데이터셋에 대한 '상대적인 유사성'을 학습하는 것을 목표로 합니다. 즉, 데이터셋 내에서 두 샘플이 얼마나 유사한지를 판단하는 기준을 학습하는 것입니다.
메트릭 학습에서 학습하는 '거리 함수'는 어떤 역할을 하나요?
메트릭 학습에서 학습하는 '거리 함수'는 어떤 역할을 하나요?
메트릭 학습은 샘플 간의 유사성을 측정하는 '거리 함수'를 학습하는 것을 목표로 합니다.
메트릭 학습이 사용되는 이유는 무엇인가요?
메트릭 학습이 사용되는 이유는 무엇인가요?
Signup and view all the flashcards
비지도 학습이란 무엇인가요?
비지도 학습이란 무엇인가요?
Signup and view all the flashcards
지도 학습이란 무엇인가요?
지도 학습이란 무엇인가요?
Signup and view all the flashcards
약지도 학습이란 무엇인가요?
약지도 학습이란 무엇인가요?
Signup and view all the flashcards
언어-비전 모델이란 무엇인가요?
언어-비전 모델이란 무엇인가요?
Signup and view all the flashcards
대조 학습 (Contrastive Learning)
대조 학습 (Contrastive Learning)
Signup and view all the flashcards
마진(Margin)
마진(Margin)
Signup and view all the flashcards
CLIP (Contrastive Language-Image Pre-training)
CLIP (Contrastive Language-Image Pre-training)
Signup and view all the flashcards
트리플렛 로스(Triplet Loss) 학습 데이터
트리플렛 로스(Triplet Loss) 학습 데이터
Signup and view all the flashcards
포지티브 샘플(Positive Sample)
포지티브 샘플(Positive Sample)
Signup and view all the flashcards
BLIP (Bootstrapping Language-Image Pre-training)
BLIP (Bootstrapping Language-Image Pre-training)
Signup and view all the flashcards
네거티브 샘플(Negative Sample)
네거티브 샘플(Negative Sample)
Signup and view all the flashcards
인코더 기반 모델 (Encoder-based model)
인코더 기반 모델 (Encoder-based model)
Signup and view all the flashcards
이미지-텍스트 검색 능력 (Image-Text Retrieval)
이미지-텍스트 검색 능력 (Image-Text Retrieval)
Signup and view all the flashcards
어려운 네거티브 샘플(Challenging Negative Sample)
어려운 네거티브 샘플(Challenging Negative Sample)
Signup and view all the flashcards
유사성 기반 데이터 수집
유사성 기반 데이터 수집
Signup and view all the flashcards
메트릭 학습
메트릭 학습
Signup and view all the flashcards
랭킹 모델
랭킹 모델
Signup and view all the flashcards
포인트 방식
포인트 방식
Signup and view all the flashcards
페어 방식
페어 방식
Signup and view all the flashcards
리스트 방식
리스트 방식
Signup and view all the flashcards
트리플렛 손실
트리플렛 손실
Signup and view all the flashcards
순위 손실
순위 손실
Signup and view all the flashcards
트리플릿 손실 (Triplet Loss)
트리플릿 손실 (Triplet Loss)
Signup and view all the flashcards
대조 학습 손실 (Contrastive Learning Loss)
대조 학습 손실 (Contrastive Learning Loss)
Signup and view all the flashcards
대조 학습과 트리플릿 손실의 차이점
대조 학습과 트리플릿 손실의 차이점
Signup and view all the flashcards
SimCLR
SimCLR
Signup and view all the flashcards
NCE (Noise Contrastive Estimator)
NCE (Noise Contrastive Estimator)
Signup and view all the flashcards
Metric Learning
Metric Learning
Signup and view all the flashcards
웹 크롤링 데이터의 잡음
웹 크롤링 데이터의 잡음
Signup and view all the flashcards
BLIP의 MED (다중 모드 인코더-디코더)
BLIP의 MED (다중 모드 인코더-디코더)
Signup and view all the flashcards
BLIP의 MED에서 인코더와 디코더의 역할
BLIP의 MED에서 인코더와 디코더의 역할
Signup and view all the flashcards
BLIP의 CapFilt (캡션 및 필터링)
BLIP의 CapFilt (캡션 및 필터링)
Signup and view all the flashcards
BLIP의 이미지 기반 텍스트 인코더
BLIP의 이미지 기반 텍스트 인코더
Signup and view all the flashcards
BLIP의 이미지 기반 텍스트 디코더
BLIP의 이미지 기반 텍스트 디코더
Signup and view all the flashcards
BLIP의 개요
BLIP의 개요
Signup and view all the flashcards
BLIP의 사전 훈련 목표
BLIP의 사전 훈련 목표
Signup and view all the flashcards
Study Notes
Deep Learning Week 14-2
- Deep Learning course, week 14-2 content
- Homework 2 due December 11th, 11:59pm (Wednesday)
- Lecture ends December 11th
- Final exam December 18th (Wednesday)
- Final exam format similar to midterm (multiple choice, true/false, etc.)
- No sample questions provided for final exam
Content
- Metric Learning
- Learning to Rank
- Triplet Loss
- Contrastive Learning
- Pre-trained Language-Vision Model
- CLIP
- BLIP
- LLaVA
- Pre-trained Language-Vision Model
Supervised, Unsupervised, Weak Supervised Learning
- Supervised learning: explicit labels (e.g., sentiment classification, machine translation)
- Unsupervised learning: no labels (masked language modeling, autoregressive language modeling)
- Weak supervision: labels in relative relationships
Weak Supervision for Language-Vision Domain
- Example image descriptions:
- A man preparing desserts in a kitchen covered in frosting.
- A restaurant has modern wooden tables and chairs.
Metric Learning
- Metric Learning aims to quantify semantic closeness (similarity) between samples
- It learns a "distance function" for semantic distance/similarity.
- Similarity is defined with respect to the given dataset
- "Relative Similarity" is a key concept
Metric Learning (continued)
- Applying supervised machine learning algorithms is difficult
- Easier to collect datasets showing similarity
- Examples include YouTube (watched vs. not watched videos) and search engine results (initial vs. later results)
Learning to Rank: Build a Ranking Model
- Ranking model encodes relative similarity of data
- Training data are lists of items
- Format variations include: point-wise, pair-wise, list-wise
- Ranking model examples: document retrieval (web search, collaborative filtering, recommendation systems)
How can we build a ranking model?
- Point-wise: predict scores for items
- Pair-wise: train models to rank items A over items B in a query
- List-wise: preserve order minimizing the inversions of items within a query list
Triplet Loss
-
Training data includes (anchor, positive, negative) examples
-
Aim: build a model where the anchor is closer to the positive example than to the negative.
-
Measure distances anchor-positive and anchor-negative.
-
Minimize the difference between these distances
-
"Margin" is used to maintain distance between negative samples
-
Constructing negative samples randomly is not ideal
-
Challenging negative samples are crucial for effectively learning.
Contrastive Learning
- Contrastive learning uses a pairwise loss function to learn better representations of image and text.
- Similar pairs given label 1, dissimilar pairs label 0
- Pull similar pairs closer and push dissimilar pairs further apart.
- Distance between (anchor, positive) should be small.
- Distance between (anchor, negative) should be large.
- Triplet Loss and Contrastive Learning are similar but differ in how the loss is calculated.
Contrastive Learning: SimCLR, InfoNCE
- SimCLR: loss calculations are given for positive image-text pairs.
- InfoNCE: Inspired by Negative Sampling for word2vec.
- Efficient pairs are generated with random words.
CLIP: Contrastive Language Image Pre-training
- Multiple pre-trained language-vision models exist (e.g., VL-BERT, CoVIRT, ViT-L/14, and VirTex)
- A large dataset of 400M (image, text) pairs from the internet was collected and used for pre-training
- Trial #1 method explained for pre-training.
CLIP: Contrastive Language Image Pre-training (inference)
- Zero-shot prediction method described.
- Training Details (e.g., image encoder, text encoder, batch size, training time)
BLIP: Bootstrapping Language-Image Pre-training...
- BLIP uses a pre-trained encoder-decoder model designed for unified understanding and generation tasks
- Method called MED (Multimodal Mixture of Encoded-Decoder)
- Images and texts are pre-processed to allow the encoder-decoder structure to perform both tasks in a unified model
- The process uses noisy data and a filtering method called "CapFilt"
BLIP (continued)
- Multimodal mixture of encoder-decoder system
- Images and text encoded to produce synthetic captions
- The objective function described in detail
- Model pre-training method, detailed
- Performance achieved on tasks
LLaVA: Large Language and Vision Assistant
-
LLaVA (Large Language and Vision Assistant) employs instruction tuning (e.g., prompt completion, fine-tuning based on FLAN-T5)
-
Uses Vicuna (language model) and Visual Encoder
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.