Metric Learning과 트리플 손실 퀴즈
42 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

트리플 손실의 목표는 무엇입니까?

  • (앵커, 부정)을 긍정 샘플로 바꾸는 것
  • (앵커, 긍정)이 (앵커, 부정)보다 더 가까워지도록 하는 것 (correct)
  • (앵커, 긍정)이 (앵커, 부정)보다 더 멀어지도록 하는 것
  • (앵커, 긍정)과 (앵커, 부정)을 같은 거리로 만드는 것
  • 부정 샘플을 무작위로 선택하는 것이 항상 좋은 아이디어이다.

    False

    트리플 손실에서 '마진'의 역할은 무엇인가요?

    부정 샘플이 멀리 떨어져 있도록 보장하기 위해 거리를 유지하는 것.

    대조 학습은 유사한 샘플 쌍을 훈련시키기 위해 ________ 손실 함수를 사용합니다.

    <p>쌍별</p> Signup and view all the answers

    다음 항목을 맞추세요: 트리플 손실과 대조 학습

    <p>트리플 손실 = 앵커, 긍정, 부정의 조합으로 손실을 계산 대조 학습 = 유사한 샘플 쌍을 긍정으로 간주하고 비유사한 샘플을 부정으로 간주</p> Signup and view all the answers

    다음 중 약한 감독 학습에 대한 설명으로 올바른 것은 무엇인가?

    <p>레이블이 상대적인 관계 형태로 존재한다.</p> Signup and view all the answers

    Metric Learning은 샘플 간의 절대적인 유사성을 학습하는 데 목표를 둔다.

    <p>False</p> Signup and view all the answers

    Weak supervision의 예로 어떤 작업이 있는가?

    <p>레이블을 모르는 상태에서 학습하는 작업</p> Signup and view all the answers

    Metric Learning의 목표는 ___________와 같은 거리 함수를 학습하는 것이다.

    <p>유사성</p> Signup and view all the answers

    다음 중 감독 학습의 예로 올바르지 않은 것은 무엇인가?

    <p>마스킹된 언어 모델링</p> Signup and view all the answers

    다음 언어-비전 모델을 그들의 기능에 맞추어 매칭하시오:

    <p>CLIP = 텍스트-이미지 이해 BLIP = 이미지 설명 생성 LLaVA = 비주얼 질문 응답 BERT = Bidirectional Encoding</p> Signup and view all the answers

    최종 시험에는 샘플 질문이 포함되지 않는다.

    <p>True</p> Signup and view all the answers

    Metric Learning은 샘플 사이의 ___________를 측정하기 위해 거리 함수를 학습합니다.

    <p>상대적 유사성</p> Signup and view all the answers

    CLIP 모델이 사용하는 이미지 인코더는 무엇인가요?

    <p>5개의 ResNet, 3개의 ViT</p> Signup and view all the answers

    CLIP은 디코더가 없는 인코더 기반 모델이다.

    <p>True</p> Signup and view all the answers

    CLIP 모델의 배치 크기는 얼마인가요?

    <p>32,768</p> Signup and view all the answers

    BLIP는 통합 ___________-언어 이해 및 생성을 위한 부트스트래핑 모델입니다.

    <p>비전</p> Signup and view all the answers

    다음 기술을 주요 용도와 연결하세요:

    <p>CLIP = 이미지와 텍스트의 대조 학습 BLIP = 비전-언어 데이터 처리 VL-T5 = 텍스트 생성 모델 SimVLM = 언어-비전 통합</p> Signup and view all the answers

    다음 중 메트릭 학습의 주목적은 무엇인가?

    <p>샘플 간의 상대적인 유사성 학습</p> Signup and view all the answers

    리스트-와이즈 방식은 두 개 이상의 항목을 정렬된 리스트로 다루는 방식이다.

    <p>True</p> Signup and view all the answers

    트리플렛 손실의 훈련 데이터 구성 요소는 무엇인가?

    <p>앵커, 긍정, 부정</p> Signup and view all the answers

    메트릭 학습은 __________을 학습하기 위한 방법이다.

    <p>상대적 유사성</p> Signup and view all the answers

    다음 용어와 정의를 맞추세요:

    <p>Point-wise = 단일 항목의 점수 예측 Pair-wise = 두 항목 간의 상대적 선호 List-wise = 여러 항목의 정렬된 리스트 Triplet Loss = 앵커-긍정-부정 샘플의 비교</p> Signup and view all the answers

    다음 중 '리스트-와이즈' 훈련 샘플의 예는 무엇인가?

    <p>(B, C, D, E)</p> Signup and view all the answers

    유사한 쌍(positive pair) 간의 거리와 유사하지 않은 쌍(negative pair) 간의 거리 차이를 기반으로 계산되는 손실 함수는 무엇인가?

    <p>Triplet Loss</p> Signup and view all the answers

    리 ranking 모델의 최종 목표는 새로운 데이터 목록을 입력받아 기존 데이터와 유사하게 정렬된 순서를 생성하는 것이다.

    <p>True</p> Signup and view all the answers

    페어-와이즈(rank 방식)의 훈련 목적은 무엇인가?

    <p>항목의 순서를 유지하면서 예측 점수를 생성하는 것</p> Signup and view all the answers

    Contrastive Learning와 Triplet Loss는 본질적으로 동일한 방식으로 손실을 계산한다.

    <p>False</p> Signup and view all the answers

    SimCLR의 손실 계산 방법은 무엇인가?

    <p>유사한 쌍(i,j) 사이의 손실을 계산한다.</p> Signup and view all the answers

    NCE는 _____ 샘플링에서 영감을 받았다.

    <p>Negative</p> Signup and view all the answers

    다음 언어-비전 모델을 주어진 설명과 일치시켜라:

    <p>VL BERT = 언어와 이미지를 결합한 모델 ViLBERT = 비전과 언어를 동시에 처리하는 모델 ConVIRT = 대화 맥락을 학습하는 모델 VirTex = 이미지와 텍스트 쌍을 학습하는 모델</p> Signup and view all the answers

    주어진 데이터셋은 몇 개의 이미지-텍스트 쌍으로 구성되어 있는가?

    <p>400M</p> Signup and view all the answers

    SimCLR는 단순히 단어-맥락 쌍을 학습하기 위해 설계됐다.

    <p>False</p> Signup and view all the answers

    CLIP의 목적은 무엇인가?

    <p>언어-비전 모델을 통해 이미지와 텍스트의 유사성을 학습하는 것.</p> Signup and view all the answers

    BLIP의 주된 목적은 무엇인가요?

    <p>언어-비전 통합 이해 및 생성</p> Signup and view all the answers

    MED는 이해를 인코더에만 할당하고 생성을 디코더에만 할당합니다.

    <p>False</p> Signup and view all the answers

    BLIP에서 CapFilt의 주된 목적은 무엇인가요?

    <p>노이즈 데이터 문제 해결</p> Signup and view all the answers

    BLIP의 인코더는 __________와 BERT로 구성되어 있습니다.

    <p>ViT</p> Signup and view all the answers

    다음 언어 모델 구성 요소를 주된 기능과 맞춤:

    <p>ViT = 이미지 기반 텍스트 인코더 BERT = 텍스트 인코더 Cross-Attention = 이미지와 텍스트 간의 상호 작용 Text Generation = 이미지 표현을 사용한 텍스트 생성</p> Signup and view all the answers

    BLIP의 '이미지 기반 텍스트 디코더'는 무엇을 사용하여 텍스트를 생성하나요?

    <p>이미지 표현</p> Signup and view all the answers

    BLIP는 다중 모달 인코더-디코더 접근 방식을 사용하지 않다.

    <p>False</p> Signup and view all the answers

    BLIP의 사전 학습 목표는 무엇인가요?

    <p>언어와 비전의 통합 이해 및 생성</p> Signup and view all the answers

    Study Notes

    Deep Learning Week 14-2

    • Deep Learning course, week 14-2 content
    • Homework 2 due December 11th, 11:59pm (Wednesday)
    • Lecture ends December 11th
    • Final exam December 18th (Wednesday)
    • Final exam format similar to midterm (multiple choice, true/false, etc.)
    • No sample questions provided for final exam

    Content

    • Metric Learning
      • Learning to Rank
      • Triplet Loss
    • Contrastive Learning
      • Pre-trained Language-Vision Model
        • CLIP
        • BLIP
        • LLaVA

    Supervised, Unsupervised, Weak Supervised Learning

    • Supervised learning: explicit labels (e.g., sentiment classification, machine translation)
    • Unsupervised learning: no labels (masked language modeling, autoregressive language modeling)
    • Weak supervision: labels in relative relationships

    Weak Supervision for Language-Vision Domain

    • Example image descriptions:
      • A man preparing desserts in a kitchen covered in frosting.
      • A restaurant has modern wooden tables and chairs.

    Metric Learning

    • Metric Learning aims to quantify semantic closeness (similarity) between samples
    • It learns a "distance function" for semantic distance/similarity.
    • Similarity is defined with respect to the given dataset
    • "Relative Similarity" is a key concept

    Metric Learning (continued)

    • Applying supervised machine learning algorithms is difficult
    • Easier to collect datasets showing similarity
    • Examples include YouTube (watched vs. not watched videos) and search engine results (initial vs. later results)

    Learning to Rank: Build a Ranking Model

    • Ranking model encodes relative similarity of data
    • Training data are lists of items
    • Format variations include: point-wise, pair-wise, list-wise
    • Ranking model examples: document retrieval (web search, collaborative filtering, recommendation systems)

    How can we build a ranking model?

    • Point-wise: predict scores for items
    • Pair-wise: train models to rank items A over items B in a query
    • List-wise: preserve order minimizing the inversions of items within a query list

    Triplet Loss

    • Training data includes (anchor, positive, negative) examples

    • Aim: build a model where the anchor is closer to the positive example than to the negative.

    • Measure distances anchor-positive and anchor-negative.

    • Minimize the difference between these distances

    • "Margin" is used to maintain distance between negative samples

    • Constructing negative samples randomly is not ideal

    • Challenging negative samples are crucial for effectively learning.

    Contrastive Learning

    • Contrastive learning uses a pairwise loss function to learn better representations of image and text.
    • Similar pairs given label 1, dissimilar pairs label 0
    • Pull similar pairs closer and push dissimilar pairs further apart.
    • Distance between (anchor, positive) should be small.
    • Distance between (anchor, negative) should be large.
    • Triplet Loss and Contrastive Learning are similar but differ in how the loss is calculated.

    Contrastive Learning: SimCLR, InfoNCE

    • SimCLR: loss calculations are given for positive image-text pairs.
    • InfoNCE: Inspired by Negative Sampling for word2vec.
    • Efficient pairs are generated with random words.

    CLIP: Contrastive Language Image Pre-training

    • Multiple pre-trained language-vision models exist (e.g., VL-BERT, CoVIRT, ViT-L/14, and VirTex)
    • A large dataset of 400M (image, text) pairs from the internet was collected and used for pre-training
    • Trial #1 method explained for pre-training.

    CLIP: Contrastive Language Image Pre-training (inference)

    • Zero-shot prediction method described.
    • Training Details (e.g., image encoder, text encoder, batch size, training time)

    BLIP: Bootstrapping Language-Image Pre-training...

    • BLIP uses a pre-trained encoder-decoder model designed for unified understanding and generation tasks
    • Method called MED (Multimodal Mixture of Encoded-Decoder)
    • Images and texts are pre-processed to allow the encoder-decoder structure to perform both tasks in a unified model
    • The process uses noisy data and a filtering method called "CapFilt"

    BLIP (continued)

    • Multimodal mixture of encoder-decoder system
    • Images and text encoded to produce synthetic captions
    • The objective function described in detail
    • Model pre-training method, detailed
    • Performance achieved on tasks

    LLaVA: Large Language and Vision Assistant

    • LLaVA (Large Language and Vision Assistant) employs instruction tuning (e.g., prompt completion, fine-tuning based on FLAN-T5)

    • Uses Vicuna (language model) and Visual Encoder

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Deep Learning Week 14-2 PDF

    Description

    이 퀴즈는 메트릭 학습과 트리플 손실에 관한 질문을 포함하고 있습니다. 이론적 개념, 감독 학습 및 대조 학습의 역할에 대해 테스트할 수 있는 기회를 제공합니다. 관련 용어와 모델에 대한 이해도를 높여보세요.

    More Like This

    Use Quizgecko on...
    Browser
    Browser