Segmentacja i Architektura U-Net
45 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Jakie są kluczowe etapy funkcjonowania modelu językowego wykorzystującego zewnętrzne źródła informacji?

  • Wyszukiwanie, wzbogacenie, generowanie (correct)
  • Wykrywanie, dostosowanie, wygenerowanie
  • Zbieranie, nadawanie, prezentowanie
  • Wyszukiwanie, przetwarzanie, generowanie
  • Czym charakteryzuje się metoda LoRA w kontekście modeli językowych?

  • Zastosowanie małych macierzy adaptacyjnych (correct)
  • Wymaga dużej mocy obliczeniowej
  • Zwiększa liczbę parametrów do trenowania
  • Nie pozwala na fine-tuning dużych modeli
  • Jaką funkcję pełni evaluacja w kontekście modeli językowych?

  • Zmniejsza liczbę parametrów w modelach
  • Ocenia jakość generowanych odpowiedzi innych modeli (correct)
  • Testuje wydajność sprzętu używanego do treningu
  • Wspiera w samodzielnym nauczaniu modeli językowych
  • Jakie znaczenie ma prompt engineering dla odpowiedzi modelu językowego?

    <p>Zawiera kontekst i precyzyjne instrukcje</p> Signup and view all the answers

    Co to jest kwantyzacja modelu w kontekście dużych modeli językowych?

    <p>Zmniejszenie precyzji liczb</p> Signup and view all the answers

    Co oznacza 'dziura' w kontekście autoenkoderów wariacyjnych?

    <p>Obszar bez żadnych danych</p> Signup and view all the answers

    Jakie jest główne zadanie modeli dyskryminacyjnych?

    <p>Rozróżnianie na podstawie cech</p> Signup and view all the answers

    Jakie pytania zadaje model generatywny w odniesieniu do zdjęcia?

    <p>Jak bardzo zdjęcie przypomina typowego psa lub kota?</p> Signup and view all the answers

    Jakie są elementy GAN?

    <p>Generatory i klasyfikatory</p> Signup and view all the answers

    Co jest jednym z głównych wyzwań w trenowaniu GAN-ów?

    <p>Trenowanie generatora i klasyfikatora</p> Signup and view all the answers

    Jakie właściwości ma autoenkoder wariacyjny?

    <p>Wprowadza regularyzację do przestrzeni ukrytej</p> Signup and view all the answers

    Jakie cechy różnią modele generatywne od dyskryminacyjnych?

    <p>Modele generatywne uczą się, jak wyglądają typowe klasy</p> Signup and view all the answers

    Co oznacza, że przestrzeń ukryta staje się bardziej 'ciągła' w autoenkoderze wariacyjnym?

    <p>Reprezentacje danych są uporządkowane</p> Signup and view all the answers

    Jakie znaczenie mają stop wordy w analizie morfologicznej?

    <p>Zwykle są usuwane, ponieważ nie niosą istotnego znaczenia.</p> Signup and view all the answers

    Co należy zrobić przed podziałem tekstu na tokeny?

    <p>Usunąć nadmiarowe spacje i interpunkcję.</p> Signup and view all the answers

    Jak działa podejście one-hot encoding?

    <p>Każdemu słowu przypisany jest unikalny wektor one-hot.</p> Signup and view all the answers

    Co reprezentuje model Bag of Words?

    <p>Reprezentuje tekst jako suma wektorów typu one-hot dla tokenów.</p> Signup and view all the answers

    Jakie operacje są zazwyczaj stosowane w preprocessingu tekstu?

    <p>Usuwanie tagów HTML i interpunkcji.</p> Signup and view all the answers

    Na czym bazuje model TF-IDF?

    <p>Na metodzie Bag of Words.</p> Signup and view all the answers

    Jakie jest jednogłośne podejście do segmentacji tekstu?

    <p>Podział na kropkach, znakach zapytania i wykrzyknikach.</p> Signup and view all the answers

    Jakie są wady podejścia one-hot encoding?

    <p>Nie bierze pod uwagę kontekstu słów.</p> Signup and view all the answers

    Jaką funkcję pełnią tokeny w procesie przetwarzania języka naturalnego?

    <p>Są elementami, które ułatwiają algorytmom zrozumienie tekstu</p> Signup and view all the answers

    Jakie jest główne założenie tokenizacji z użyciem algorytmu BPE?

    <p>Zamienia najczęściej występujące pary znaków na tokeny</p> Signup and view all the answers

    Który z poniższych algorytmów jest zamkniętym algorytmem używanym do tokenizacji subword?

    <p>WordPiece</p> Signup and view all the answers

    Jak wygląda przykład wektora reprezentującego słowo 'kot' w procesie zanurzania tokenów?

    <p>[0.2, -0.5, 0.8]</p> Signup and view all the answers

    Jaka jest różnica między stemmingiem a lematyzacją?

    <p>Stemming polega na ucinaniu końcówek słów, lematyzacja na zamianie na formy podstawowe</p> Signup and view all the answers

    Czym różni się tokenizacja subword od tradycyjnej tokenizacji?

    <p>Tokeny w tokenizacji subword są fragmentami słów</p> Signup and view all the answers

    Jakie znaczenie ma kontekst w przetwarzaniu języka naturalnego?

    <p>Kontekst pomaga w lepszym rozpoznawaniu polisemicznych słów</p> Signup and view all the answers

    Do jakiego celu służy proces zwany 'word embedding'?

    <p>Przekształca tokeny w wektory liczbowe reprezentujące znaczenie</p> Signup and view all the answers

    Jaki jest główny cel modelu języka?

    <p>Przewidywanie prawdopodobieństwa kolejnego słowa w sekwencji</p> Signup and view all the answers

    Czym jest OOV w kontekście przetwarzania języka naturalnego?

    <p>Tokenem używanym do reprezentacji rzadkich słów</p> Signup and view all the answers

    Jakie n-gramy są zwykle preferowane w praktyce?

    <p>Trigramy i 4-gramy</p> Signup and view all the answers

    Czym jest perplexity w ewaluacji modeli języka?

    <p>Znormalizowaną odwrotnością prawdopodobieństwa testowej sekwencji</p> Signup and view all the answers

    Jakie podejście stosuje naiwny klasyfikator bayesowski przy analizie wydźwięku?

    <p>Sprawdza, czy dane słowo występuje</p> Signup and view all the answers

    Jakie zastosowanie ma ukryty model Markowa (HMM)?

    <p>Oznaczanie części mowy</p> Signup and view all the answers

    Który z wymienionych modeli nie jest klasycznym modelem NLP?

    <p>Sztuczna sieć neuronowa</p> Signup and view all the answers

    Dlaczego używa się logarytmów w n-gramowych modelach języka?

    <p>Aby uniknąć problemów numerycznych</p> Signup and view all the answers

    Jakie jest główne zastosowanie warstw kodujących w autoenkoderze?

    <p>Rekonstrukcja danych z mniejszej reprezentacji</p> Signup and view all the answers

    Jakie jest zadanie warstw dekodujących w autoenkoderze?

    <p>Rekonstrukcja danych z mniejszej reprezentacji</p> Signup and view all the answers

    Dlaczego skip connections nie są stosowane w enkoderze?

    <p>Ułatwiają modelowi naukę kompresji</p> Signup and view all the answers

    W jakim przypadku U-Net wykorzystuje skip connections?

    <p>Podczas odbudowy oryginalnego obrazu</p> Signup and view all the answers

    Jakie jest zasadnicze różnice między autoenkoderem a U-Net?

    <p>Autoenkoder ma tę samą liczbę kanałów wejściowych i wyjściowych</p> Signup and view all the answers

    Jakie jest główne zastosowanie Autoenkodera Wariacyjnego (VAE)?

    <p>Tworzenie bardziej ciągłej przestrzeni ukrytej</p> Signup and view all the answers

    Jakie ograniczenie związane jest z przestrzenią latentną w standardowym autoenkoderze?

    <p>Brak kontroli nad rozmieszczeniem punktów w niej</p> Signup and view all the answers

    Jakie podejście stosuje VAE w porównaniu do podstawowego autoenkodera?

    <p>Generuje dane poprzez próbkowanie</p> Signup and view all the answers

    Study Notes

    Segmentacja

    • Segmentacja to podział obrazu na regiony lub segmenty.
    • Segmentacja semantyczna klasyfikuje każdy piksel w obrazie.
    • Segmentacja obiektów/instancji klasyfikuje piksele i oddziela osobne obiekty tej samej klasy.
    • Klasy są z góry określone, np. "tło".
    • Wejście do modelu to 3 kanały (RGB) o wymiarach H x W.
    • Wyjście to liczba klas (K) o wymiarach H x W, gdzie każda wartość reprezentuje prawdopodobieństwo przynależności piksela do danej klasy.
    • Używane są funkcje straty takie jak entropia krzyżowa lub dice loss.
    • U-Net to architektura sieci neuronowej specjalizująca się w segmentacji obrazów, szczególnie w medycynie.

    Architektura U-Net

    • Ma kształt litery U.
    • Część kontrakcyjna (downsampling) wykorzystuje konwolucje i max pooling do ekstrakcji cech.
    • Część ekspansywna (upsampling) rekonstruuje obraz z użyciem transponowanych splotów oraz łączy się z cechami z części kontrakcyjnej.
    • Skip connections unikają utraty detali.
    • Liczba warstw w części kontrakcyjnej i ekspansywnej jest identyczna.
    • Jest dokładna nawet przy małych zbiorach danych.
    • Dobrze radzi sobie z obrazami o różnych skala.

    Segmentacja semantyczna

    • Funkcja straty to entropia krzyżowa binarna, uśredniana po pikselach.
    • Jakość modelu oceniana jest procentowo poprawnych pikseli (np. IoU).
    • Wyjście U-neta, podając przykładowe wymiary wejścia 600x200x3 i 12 klas, będzie miało wymiary 12x600x200.

    Segmentacja obiektów

    • Segmentacja obiektów to segmentacja semantyczna plus oddzielenie obiektów tej samej klasy.
    • Można to zrobić używając U-Net i postprocessing.
    • Segment anything oraz segment anything 2 są narzedziami do segmentacji obiektów, używanymi z metodami typu U-Net.

    Modele nie nadające się do segmentacji

    • Sieci w pełni połączone (Feedforward Neural Networks) nie analizują lokalnych cech obrazu.
    • Rekurencyjne sieci neuronowe (RNN) są przystosowane do danych sekwencyjnych, nie przestrzennych.
    • Modele klasyfikacji obrazów (np. VGG, AlexNet) klasyfikują cały obraz, a nie piksele.

    Detekcja

    • Model detekcyjny zwraca współrzędne ramek (bounding box'ów) oraz informacje o wykrytym obiekcie wraz z prawdopodobieństwem.
    • Algorytmy detekcji to R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN (dwuetapowe) oraz YOLO (jednoetapowe).
    • IoU (Intersection over Union) mierzy nakładanie się dwóch obszarów.
    • Wartości IoU są w zakresie od 0 (brak nakładania) do 1 (całkowite nakładanie).
    • NMS (Non-maximum suppression) usuwa przewidywania z małym prawdopodobieństwem i dużym pokryciem z lepszymi przewidywaniami.

    Fast R-CNN

    • Używa splotów do generowania propozycji ramek.
    • Sklasyfikuje wykryte ramki.
    • Poprawia współrzędne ramek z użyciem regresji.
    • Ma minusy, ponieważ klasyfikator nie widzi kontekstu reszty obrazka.

    Mask R-CNN

    • Kombinacja Faster R-CNN z dodatkowa głową do segmentacji obiektów.
    • Sprawniejsza detekcja niż Faster R-CNN.

    YOLO

    • Dzieli obrazek na kwadraty (S x S).
    • Dla każdego kwadratu rozważa B ramek.
    • Zakłada, że w danym kwadracie wszystkie ramki będą tej samej kategorii.
    • Ramki reprezentowane przez 5 liczb (4 współrzędne ramki i p-stwo występowania).

    Funkcja straty w detekcji

    • Składa się z dwóch zadań: regresji położenia ramek (bounding box'ów) i klasyfikacji ich zawartości.
    • Funkcja straty to suma strat dla obu zadań.

    Ocena modelu detekcyjnego

    • Wybór poziomu IoU (nakładu).
    • Wybór klasy obiektów do oceny.
    • Liczenie precyzji i czułości dla każdego progu.
    • Uśrednianie Average Precision (AP) dla wszystkich klas dają mAP (mean Average Precision).

    Autoenkoder

    • Używany do redukcji wymiarów, odszumiania danych, oraz generowania danych.
    • Wyjście ma ten sam rozmiar, co wejście
    • Część kodująca skompresuje dane do zwięzłego opisu (reprentacja) w ukrytej przestrzeni.
    • Część dekodująca odtworzy wejście.
    • Uczenie autoenkodera polega na ucząc modelu identyfikacji swojego wejścia.
    • Do tego celu najczęściej używa się błędu średniokwadratowego (MSE).
    • Dodanie skip connections do autoenkodera byłoby niepotrzebne, ponieważ zakłóca kompresję danych.

    Autoenkoder wariacyjny (VAE)

    • Koduje dane jako rozkłady prawdopodobieństwa, tworząc ciągłą, uporządkowaną przestrzeń ukrytą.
    • Pozwala na generowanie sensownych, nowych prób poprzez próbkowanie z przestrzenie ukrytej.

    Modele dyskryminacyjne

    • Uczą się funkcji P(y0|x) i P(y1|x) - czyli, jak rozpoznać obiekty.
    • Oparte na cechach z danych wkorpusie uczącym.
    • Łatwa interpretacja, ale ciężko pokazać przykładowe obiekty.

    Modele generatywne

    • Uczą się wyglądu typowych obiektów i mogą generować nowe obiekty.
    • Uczą się funkcji P(x|y0) i P(x|y1), gdzie x jest obiektem, a y klasą obiektu - np. pies lub kot.
    • Szczegółowy opis wyglądu obiektu (typowy pies).
    • Możliwość generowania nowych obiektów, np. zdjęć psów lub kotów.

    GAN (Generative Adversarial Networks)

    • Składa się z generatora (G) i dyskryminatora (D).
    • Generator próbuje generować coraz bardziej realistycznie wyglądające sztuczne obrazki z losowych danych wejściowych.
    • Dyskryminator uczy się coraz lepiej rozróżniać prawdziwe obrazki od fałszywych.
    • Trenowanie GAN-ów jest procesem ciągłej "walki" między generatorem i dyskryminatorem.

    Zastosowania GAN-ów

    • Generowanie obrazów na podstawie tekstu (np. Stable Diffusion).
    • Poprawa rozdzielczości obrazów (super resolution).
    • Wypełnianie brakujących fragmentów obrazu (inpainting).
    • Transfer stylów obrazu.

    NLP (Natural Language Processing)

    • Zastosowania: modelowanie języka, tłumaczenie maszynowe, analiza sentymentu, automatyczne podsumowywanie, odpowiadanie na pytania, czatboty, systemy dialogowe, rozpoznawanie mowy.

    Etapy przetwarzania języka naturalnego

    • Czystość i podział tekstu na tokeny.
    • Reprezentacja tekstu w formie, którą może zrozumieć algorytm.
    • Wykonywanie zadania na podstawie reprezentowania tekstu.
    • Tokenizacja: podział tekstu na pojedyncze jednostki (słowa, znaki, itp.).

    BPE (Byte Pair Encoding)

    • Algorytm tokenizacji, który tworzy w słowniku coraz dłuższe tokeny (fragmenty słów).
    • Podział słów na części, mające sens w korpusie uczącym.

    Tokenizacja - Algorytm BPE

    • Proces zamiany tokenów (słów lub części słów) w wektory liczbowe.
    • Wektory reprezentują znaczenie i kontekst słów w przestrzeni wielowymiarowej.
    • Podobne słowa mają podobne wektory.
    • Np. słowo "kot" może być reprezentowane jako wektor [0.2, -0.5, 0.8, ...], a słowo "pies" jako [0.3, -0.4, 0.7, ...].

    Wstępna obróbka tekstu (preprocessing)

    • Stemming - uproszczenie słów do podstawowej formy np. uczeni→ucz.
    • Lematyzacja - zamiana słów na podstawową formę gramatyczną np. poszedł→iść.
    • Stop wordy - usunięcie częstych słów bez znaczenia np. i, lub, jest.

    Segmentacja tekstu

    • Podział tekstu na zdania.
    • Często stosuje się algorytm Punkt.

    Reprezentacja tekstu (Word Embeddings)

    • Reprezentacje tekstu: Bow, TF-IDF, word2vec.
    • Word2vec (CBOW, Skip-gram): Metody tworzenia wektorów słów, uwzględniające kontekst.
    • CBOW przewidywanie słowa na podstawie kontekstu.
    • Skip-gram przewidywanie słów otaczających bieżące słowo.

    Reprezentacje tekstu - Bag of Words (BoW)

    • Reprezentacja tekstu jako wektora, gdzie indeks reprezentuje słowo, a wartość to liczba wystąpień tego słowa w tekście.
    • Kolejność słów jest ignorowana.

    Reprezentacje tekstu - TF-IDF (Term Frequency-Inverse Document Frequency)

    • Reprezentacja tekstu podobna do BoW, ale z uwzględnieniem częstości słowa w dokumencie i w całym korpusie dokumentów.
    • Ważone wystąpienia słów.

    Modele Językowe

    • Klasyczne algorytmy (n-gramy), oraz sieci rekurencyjne (RNN) - przechowują stan z poprzedniego przetwarzania, oraz LSTM/GRU.
    • Ewaluacja modeli języka: perpleksja - (mniejsza wartość to lepszy model)

    Sieci Neuronowe w NLP (RNN)

    • RNN przetwarzają dane sekwencyjne po kolei, stan ukryty (hidden state) w danym kroku zależy nie tylko od wejścia ale także np. stany z poprzednich kroków.
    • Problemy: zanikający gradient, trudności z długimi sekwencjami.
    • Rozwiązania: LSTM/GRU

    Seq2Seq

    • Model architektura enkoder/dekoder do tłumaczenia maszynowego.
    • Pierwszy stan ukryty enkodera przekazywany do dekodera jako kontekst.

    Mechanizm uwagi (Attention) w RNN

    • Dekoder uczy się wykorzystywać wszystkie stany enkodera jako kontekst w każdym kroku dekodowania.

    Samouwaga (Self-Attention)

    • Każdy token jest reprezentowany jako ważona suma innych tokenów.
    • Wagi zależą od podobieństw między tokenami.
    • Złożoność obliczeniowa: O(n²).
    • Parametry (Q, K, V): Query, Key, Value.
    • Multihead attention pozwala na równoległe uwzględnienie różnych aspektów tokenów.

    Transformery

    • Bardziej zaawansowana architektura sieciowa, bazująca na mechanizmie samouwagis.
    • Nie zależą od kolejności tokenów.
    • Transformer oparty jest na mechanizmie samouwagis w modelach z sekwencjami (tekst, audio itp.).
    • Nie wymagają sekwencyjnego przetwarzania danych.

    BERT (Bidirectional Encoder Representations from Transformers)

    • Model języka, oparty na Transformerze.
    • Dostarcza dwukierunkowe reprezentacje kontekstowe słów w tekście.

    Modele Dyfuzyjne

    • Generują obrazy i mają stabilny proces uczenia.
    • Odbywa się to poprzez stopniowe odszumianie obrazu.

    CLIP (OpenAI)

    • Tworzy wspólną przestrzeń embeddingów dla tekstu i obrazów.

    BEIT (BERT dla obrazów)

    • Adaptacja BERT do przetwarzania obrazów.

    Różnice między obrazami a językiem

    • Obrazy to piksele, języki to symbole.
    • Obrazy mają stały rozmiar, teksty mogą mieć różną długość.
    • Różna dostępność danych.
    • Małe zmiany w obrazie mają mniejszy wpływ, niż w tekście.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    ZTSI KOLOS PDF

    Description

    Quiz ten dotyczy segmentacji obrazów oraz architektury U-Net. Skupia się na klasyfikacji pikseli w obrazach oraz technikach, takich jak skoki połączeń w U-Net. Sprawdź swoją wiedzę na temat tych kluczowych zagadnień w przetwarzaniu obrazów.

    More Like This

    Use Quizgecko on...
    Browser
    Browser