Segmentacja i Architektura U-Net
45 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Jakie są kluczowe etapy funkcjonowania modelu językowego wykorzystującego zewnętrzne źródła informacji?

  • Wyszukiwanie, wzbogacenie, generowanie (correct)
  • Wykrywanie, dostosowanie, wygenerowanie
  • Zbieranie, nadawanie, prezentowanie
  • Wyszukiwanie, przetwarzanie, generowanie

Czym charakteryzuje się metoda LoRA w kontekście modeli językowych?

  • Zastosowanie małych macierzy adaptacyjnych (correct)
  • Wymaga dużej mocy obliczeniowej
  • Zwiększa liczbę parametrów do trenowania
  • Nie pozwala na fine-tuning dużych modeli

Jaką funkcję pełni evaluacja w kontekście modeli językowych?

  • Zmniejsza liczbę parametrów w modelach
  • Ocenia jakość generowanych odpowiedzi innych modeli (correct)
  • Testuje wydajność sprzętu używanego do treningu
  • Wspiera w samodzielnym nauczaniu modeli językowych

Jakie znaczenie ma prompt engineering dla odpowiedzi modelu językowego?

<p>Zawiera kontekst i precyzyjne instrukcje (C)</p> Signup and view all the answers

Co to jest kwantyzacja modelu w kontekście dużych modeli językowych?

<p>Zmniejszenie precyzji liczb (A)</p> Signup and view all the answers

Co oznacza 'dziura' w kontekście autoenkoderów wariacyjnych?

<p>Obszar bez żadnych danych (C)</p> Signup and view all the answers

Jakie jest główne zadanie modeli dyskryminacyjnych?

<p>Rozróżnianie na podstawie cech (A)</p> Signup and view all the answers

Jakie pytania zadaje model generatywny w odniesieniu do zdjęcia?

<p>Jak bardzo zdjęcie przypomina typowego psa lub kota? (A)</p> Signup and view all the answers

Jakie są elementy GAN?

<p>Generatory i klasyfikatory (C)</p> Signup and view all the answers

Co jest jednym z głównych wyzwań w trenowaniu GAN-ów?

<p>Trenowanie generatora i klasyfikatora (B)</p> Signup and view all the answers

Jakie właściwości ma autoenkoder wariacyjny?

<p>Wprowadza regularyzację do przestrzeni ukrytej (A)</p> Signup and view all the answers

Jakie cechy różnią modele generatywne od dyskryminacyjnych?

<p>Modele generatywne uczą się, jak wyglądają typowe klasy (C)</p> Signup and view all the answers

Co oznacza, że przestrzeń ukryta staje się bardziej 'ciągła' w autoenkoderze wariacyjnym?

<p>Reprezentacje danych są uporządkowane (C)</p> Signup and view all the answers

Jakie znaczenie mają stop wordy w analizie morfologicznej?

<p>Zwykle są usuwane, ponieważ nie niosą istotnego znaczenia. (C)</p> Signup and view all the answers

Co należy zrobić przed podziałem tekstu na tokeny?

<p>Usunąć nadmiarowe spacje i interpunkcję. (D)</p> Signup and view all the answers

Jak działa podejście one-hot encoding?

<p>Każdemu słowu przypisany jest unikalny wektor one-hot. (B)</p> Signup and view all the answers

Co reprezentuje model Bag of Words?

<p>Reprezentuje tekst jako suma wektorów typu one-hot dla tokenów. (D)</p> Signup and view all the answers

Jakie operacje są zazwyczaj stosowane w preprocessingu tekstu?

<p>Usuwanie tagów HTML i interpunkcji. (A)</p> Signup and view all the answers

Na czym bazuje model TF-IDF?

<p>Na metodzie Bag of Words. (D)</p> Signup and view all the answers

Jakie jest jednogłośne podejście do segmentacji tekstu?

<p>Podział na kropkach, znakach zapytania i wykrzyknikach. (A)</p> Signup and view all the answers

Jakie są wady podejścia one-hot encoding?

<p>Nie bierze pod uwagę kontekstu słów. (C), Generuje zbyt dużą ilość danych. (D)</p> Signup and view all the answers

Jaką funkcję pełnią tokeny w procesie przetwarzania języka naturalnego?

<p>Są elementami, które ułatwiają algorytmom zrozumienie tekstu (D)</p> Signup and view all the answers

Jakie jest główne założenie tokenizacji z użyciem algorytmu BPE?

<p>Zamienia najczęściej występujące pary znaków na tokeny (D)</p> Signup and view all the answers

Który z poniższych algorytmów jest zamkniętym algorytmem używanym do tokenizacji subword?

<p>WordPiece (C)</p> Signup and view all the answers

Jak wygląda przykład wektora reprezentującego słowo 'kot' w procesie zanurzania tokenów?

<p>[0.2, -0.5, 0.8] (B)</p> Signup and view all the answers

Jaka jest różnica między stemmingiem a lematyzacją?

<p>Stemming polega na ucinaniu końcówek słów, lematyzacja na zamianie na formy podstawowe (D)</p> Signup and view all the answers

Czym różni się tokenizacja subword od tradycyjnej tokenizacji?

<p>Tokeny w tokenizacji subword są fragmentami słów (C)</p> Signup and view all the answers

Jakie znaczenie ma kontekst w przetwarzaniu języka naturalnego?

<p>Kontekst pomaga w lepszym rozpoznawaniu polisemicznych słów (D)</p> Signup and view all the answers

Do jakiego celu służy proces zwany 'word embedding'?

<p>Przekształca tokeny w wektory liczbowe reprezentujące znaczenie (C)</p> Signup and view all the answers

Jaki jest główny cel modelu języka?

<p>Przewidywanie prawdopodobieństwa kolejnego słowa w sekwencji (B)</p> Signup and view all the answers

Czym jest OOV w kontekście przetwarzania języka naturalnego?

<p>Tokenem używanym do reprezentacji rzadkich słów (C)</p> Signup and view all the answers

Jakie n-gramy są zwykle preferowane w praktyce?

<p>Trigramy i 4-gramy (A)</p> Signup and view all the answers

Czym jest perplexity w ewaluacji modeli języka?

<p>Znormalizowaną odwrotnością prawdopodobieństwa testowej sekwencji (C)</p> Signup and view all the answers

Jakie podejście stosuje naiwny klasyfikator bayesowski przy analizie wydźwięku?

<p>Sprawdza, czy dane słowo występuje (B)</p> Signup and view all the answers

Jakie zastosowanie ma ukryty model Markowa (HMM)?

<p>Oznaczanie części mowy (D)</p> Signup and view all the answers

Który z wymienionych modeli nie jest klasycznym modelem NLP?

<p>Sztuczna sieć neuronowa (B)</p> Signup and view all the answers

Dlaczego używa się logarytmów w n-gramowych modelach języka?

<p>Aby uniknąć problemów numerycznych (A)</p> Signup and view all the answers

Jakie jest główne zastosowanie warstw kodujących w autoenkoderze?

<p>Rekonstrukcja danych z mniejszej reprezentacji (C)</p> Signup and view all the answers

Jakie jest zadanie warstw dekodujących w autoenkoderze?

<p>Rekonstrukcja danych z mniejszej reprezentacji (D)</p> Signup and view all the answers

Dlaczego skip connections nie są stosowane w enkoderze?

<p>Ułatwiają modelowi naukę kompresji (D)</p> Signup and view all the answers

W jakim przypadku U-Net wykorzystuje skip connections?

<p>Podczas odbudowy oryginalnego obrazu (B)</p> Signup and view all the answers

Jakie jest zasadnicze różnice między autoenkoderem a U-Net?

<p>Autoenkoder ma tę samą liczbę kanałów wejściowych i wyjściowych (D)</p> Signup and view all the answers

Jakie jest główne zastosowanie Autoenkodera Wariacyjnego (VAE)?

<p>Tworzenie bardziej ciągłej przestrzeni ukrytej (B)</p> Signup and view all the answers

Jakie ograniczenie związane jest z przestrzenią latentną w standardowym autoenkoderze?

<p>Brak kontroli nad rozmieszczeniem punktów w niej (B)</p> Signup and view all the answers

Jakie podejście stosuje VAE w porównaniu do podstawowego autoenkodera?

<p>Generuje dane poprzez próbkowanie (A)</p> Signup and view all the answers

Flashcards

Tokenizacja

Proces rozdzielania tekstu na mniejsze jednostki znaczeniowe (tokeny), które mogą być pojedynczymi słowami, częściami słów lub znakami. W zależności od przyjętej metody tokenizacji, tokeny mogą być różne.

Tokenizacja subword

Algorytm tokenizacji, który tworzy tokeny z fragmentów słów (subword), zamiast całych słów. Przykładowo, słowo "kota" może zostać podzielone na tokeny "kot", "a".

Byte Pair Encoding (BPE)

Algorytm tokenizacji subword, który analizuje dane i tworzy nowy token dla najczęściej występującej pary znaków w tekście. Następnie zastępuje tę parę nowym tokenem, powtarzając proces. W efekcie powstają tokeny o różnej długości, zależnie od częstości występowania.

Zanurzanie Tokenów (word embedding)

Proces przekształcania tokenów (słów lub części słów) w wektory liczbowe o ustalonej długości. Te wektory reprezentują znaczenie i kontekst słów w przestrzeni wielowymiarowej. Podobne słowa mają podobne wektory.

Signup and view all the flashcards

Wstępna obróbka tekstu (preprocessing)

Proces przygotowania tekstu do przetwarzania przez algorytm NLP. Obejmuje tokenizację, usuwanie znaków specjalnych i inne operacje dostosowujące tekst do potrzeb analizy.

Signup and view all the flashcards

Dziury w danych

Zakodowane reprezentacje danych mogą zawierać "dziury" - obszary nieodpowiadające żadnym sensownym danym.

Signup and view all the flashcards

Autoenkoder Wariacyjny (VAE)

Algorytm uczenia się, który koduje dane jako rozkłady prawdopodobieństwa i wprowadza regularyzację, aby przestrzeń ukryta była bardziej ciągła i uporządkowana.

Signup and view all the flashcards

Generowanie danych w VAE

Generowanie nowych danych poprzez wykorzystanie dekodera w VAE, aby 'wymieszać' dwie istniejące obserwacje.

Signup and view all the flashcards

Regularyzacja w VAE

Technika używana w VAE, aby zapewnić, że przestrzeń ukryta jest bardziej uporządkowana i ciągła.

Signup and view all the flashcards

Model dyskryminacyjny

Model uczący się rozpoznawać klasy na podstawie cech, np. rozróżniać psy od kotów.

Signup and view all the flashcards

Model generatywny

Model uczący się generować nowe dane przypominające rozkład danych wejściowych.

Signup and view all the flashcards

Generative Adversarial Network (GAN)

Sieć neuronowa składająca się z generatora i dyskryminatora, która uczy się generować dane przypominające prawdziwe.

Signup and view all the flashcards

Trenowanie GAN-a

Proces uczenia GAN-a poprzez naprzemienne trenowanie generatora i dyskryminatora.

Signup and view all the flashcards

Autoenkoder

Rodzaj sieci neuronowej, która uczy się kompresować dane wejściowe do reprezentacji o mniejszym wymiarze (zwanej "wąskim gardłem"), a następnie rekonstruować je z powrotem. Celem jest nauczenie modelu identyczności, czyli wyjście ma być jak najbardziej zbliżone do wejścia.

Signup and view all the flashcards

Połączenia "na skróty" w autoenkoderze

W przypadku autoenkoderów, połączenia "na skróty" między warstwami są nieskuteczne, ponieważ komplikują proces kompresji informacji do "wąskiego gardła".

Signup and view all the flashcards

U-Net

U-Net to rodzaj sieci neuronowej, która jest używana głównie do zadań segmentacji obrazu, gdzie wyjście ma inną liczbę kanałów niż wejście. Skutecznie wykorzystuje połączenia "na skróty", które pomagają w zachowaniu szczegółów podczas dekodowania obrazu.

Signup and view all the flashcards

Ograniczenia przestrzeni ukrytej (latent space) w autoenkoderze

W standardowym autoenkoderze, ograniczenie związane jest z przestrzenią ukrytą (latent space). Nie mamy kontroli nad tym, jak enkoder organizuje tę przestrzeń, co może prowadzić do nieciągłości i nieuporządkowania.

Signup and view all the flashcards

Uczenie w autoenkoderze vs U-Net

Autoenkoder, który uczy się z samonadzorem, podczas gdy U-Net uczy się z nadzorem, gdzie dane wejściowe i wyjściowe są sparowane.

Signup and view all the flashcards

Funkcja straty w autoenkoderze vs U-Net

Autoenkoder zwykle używa funkcji straty opartej o błąd średniokwadratowy (MSE), podczas gdy U-Net może używać różnych funkcji straty w zależności od zadania, np. cross-entropy dla segmentacji obrazu.

Signup and view all the flashcards

Różnice między autoenkoderem a U-Netem

Główna różnica między autoenkoderem a U-Netem polega na przeznaczeniu. Autoenkoder ma na celu nauczenie się kompresji danych i ich rekonstrukcji, podczas gdy U-Net służy do zadań segmentacji obrazu, gdzie wyjście ma inną liczbę kanałów niż wejście.

Signup and view all the flashcards

Stop wordy

Słowa, które występują bardzo często w języku, np. "i", "lub", "jest", i zwykle nie niosą istotnego znaczenia dla treści.

Signup and view all the flashcards

Oczyszczanie tekstu

Proces usuwania niepotrzebnych elementów z tekstu, takich jak nadmiarowe spacje, znaki interpunkcyjne, czy znaczniki HTML.

Signup and view all the flashcards

Segmentacja tekstu

Podział tekstu na mniejsze jednostki, zwane tokenami, które mogą być pojedynczymi słowami, zdaniami, lub frazami.

Signup and view all the flashcards

Algorytm Punkt

Algorytm, który identyfikuje granice zdań w tekście, zazwyczaj na podstawie interpunkcji i struktury gramatycznej.

Signup and view all the flashcards

Słownik

Reprezentacja tekstu w postaci listy słów, posortowanych alfabetycznie.

Signup and view all the flashcards

One-hot encoding

Metoda reprezentowania tekstu jako wektora, gdzie każdemu słowu w słowniku przypisany jest wektor o wartości 1 na pozycji odpowiadającej temu słowu, a 0 na innych pozycjach.

Signup and view all the flashcards

Bag of Words (BoW)

Metoda reprezentowania tekstu jako wektora, gdzie każda pozycja w wektorze odpowiada słowu w słowniku, a wartość na tej pozycji to liczba wystąpień danego słowa w tekście.

Signup and view all the flashcards

TF-IDF

Metoda rozszerzenia Bag of Words, która uwzględnia nie tylko liczbę wystąpień słowa w tekście, ale też rzadkość danego słowa we wszystkich tekstach.

Signup and view all the flashcards

LoRA (Low-Rank Adaptation)

Technika ulepszania modeli językowych poprzez dodanie niewielkich adaptacyjnych macierzy, które są trenowane oddzielnie od głównego modelu. Pozwala to na zwiększenie wydajności i efektywności uczenia, a także na dostosowanie modelu do konkretnych zadań.

Signup and view all the flashcards

Prompt Engineering

Technika tworzenia precyzyjnych instrukcji dla modeli językowych w celu uzyskania wysokiej jakości i trafnych odpowiedzi. Względne formatowanie, dodanie kontekstu i jasne instrukcje są kluczowe w tworzeniu skutecznych podpowiedzi.

Signup and view all the flashcards

Retrieval Augmented Generation (RAG)

Zdolność modeli językowych do wyszukiwania dodatkowych informacji z zewnętrznych baz danych i łączenia ich z własną wiedzą w celu udzielenia odpowiedzi na pytania. Pozwala to na rozszerzenie możliwości modelu i uzyskanie bardziej aktualnych i precyzyjnych odpowiedzi.

Signup and view all the flashcards

Ewaluacja (LLM ocenia LLM)

Proces oceny jakości odpowiedzi modeli językowych przez inne modele językowe. Ta metoda automatycznej oceny generowanego tekstu może być alternatywą dla czasochłonnej oceny ludzkiej.

Signup and view all the flashcards

Kwantyzacja modelu

Metoda zmniejszania rozmiaru modeli językowych poprzez zmniejszenie precyzji liczb używanych do reprezentowania parametrów modelu. Może to prowadzić do niewielkiego spadku jakości, ale znacząco zmniejsza wymagania pamięci i obliczeń.

Signup and view all the flashcards

OOV (Out Of Vocabulary)

Słowa, które nie znajdują się w słowniku używanym do tworzenia modelu języka. Mogą to być literówki, specjalistyczne terminy lub nowe słowa.

Signup and view all the flashcards

Przetwarzanie Tekstu

Proces przetwarzania tekstu w celu pozyskania znaczenia i struktury. Obejmuje kroki takie jak tokenizacja, analiza części mowy i parsowanie.

Signup and view all the flashcards

Model Języka

Model matematyczny, który oblicza prawdopodobieństwo wystąpienia określonego ciągu słów.

Signup and view all the flashcards

N-gramowy Model Języka

Sposób obliczania prawdopodobieństwa sekwencji słów na podstawie obserwacji n poprzednich słów.

Signup and view all the flashcards

Token OOV

Specjalny token dodawany do tekstu w miejsce słów OOV, aby uniknąć problemów z modelowaniem.

Signup and view all the flashcards

LM Smoothing

Technika modyfikująca prawdopodobieństwa występowania słów, aby uniknąć sytuacji, w których słowa spoza zbioru uczącego mają prawdopodobieństwo równe zeru.

Signup and view all the flashcards

Perplexity

Metoda oceny modeli języka, polegająca na pomiarze odwrotności prawdopodobieństwa sekwencji testowej. Im niższa wartość, tym lepszy model.

Signup and view all the flashcards

Naiwny Klasyfikator Bayesowski

Prosty model klasyfikacji, który zakłada niezależność cech opisujących obiekt. Jest stosowany do analizy wydźwięku, detekcji spamu i identyfikacji języka.

Signup and view all the flashcards

Study Notes

Segmentacja

  • Segmentacja to podział obrazu na regiony lub segmenty.
  • Segmentacja semantyczna klasyfikuje każdy piksel w obrazie.
  • Segmentacja obiektów/instancji klasyfikuje piksele i oddziela osobne obiekty tej samej klasy.
  • Klasy są z góry określone, np. "tło".
  • Wejście do modelu to 3 kanały (RGB) o wymiarach H x W.
  • Wyjście to liczba klas (K) o wymiarach H x W, gdzie każda wartość reprezentuje prawdopodobieństwo przynależności piksela do danej klasy.
  • Używane są funkcje straty takie jak entropia krzyżowa lub dice loss.
  • U-Net to architektura sieci neuronowej specjalizująca się w segmentacji obrazów, szczególnie w medycynie.

Architektura U-Net

  • Ma kształt litery U.
  • Część kontrakcyjna (downsampling) wykorzystuje konwolucje i max pooling do ekstrakcji cech.
  • Część ekspansywna (upsampling) rekonstruuje obraz z użyciem transponowanych splotów oraz łączy się z cechami z części kontrakcyjnej.
  • Skip connections unikają utraty detali.
  • Liczba warstw w części kontrakcyjnej i ekspansywnej jest identyczna.
  • Jest dokładna nawet przy małych zbiorach danych.
  • Dobrze radzi sobie z obrazami o różnych skala.

Segmentacja semantyczna

  • Funkcja straty to entropia krzyżowa binarna, uśredniana po pikselach.
  • Jakość modelu oceniana jest procentowo poprawnych pikseli (np. IoU).
  • Wyjście U-neta, podając przykładowe wymiary wejścia 600x200x3 i 12 klas, będzie miało wymiary 12x600x200.

Segmentacja obiektów

  • Segmentacja obiektów to segmentacja semantyczna plus oddzielenie obiektów tej samej klasy.
  • Można to zrobić używając U-Net i postprocessing.
  • Segment anything oraz segment anything 2 są narzedziami do segmentacji obiektów, używanymi z metodami typu U-Net.

Modele nie nadające się do segmentacji

  • Sieci w pełni połączone (Feedforward Neural Networks) nie analizują lokalnych cech obrazu.
  • Rekurencyjne sieci neuronowe (RNN) są przystosowane do danych sekwencyjnych, nie przestrzennych.
  • Modele klasyfikacji obrazów (np. VGG, AlexNet) klasyfikują cały obraz, a nie piksele.

Detekcja

  • Model detekcyjny zwraca współrzędne ramek (bounding box'ów) oraz informacje o wykrytym obiekcie wraz z prawdopodobieństwem.
  • Algorytmy detekcji to R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN (dwuetapowe) oraz YOLO (jednoetapowe).
  • IoU (Intersection over Union) mierzy nakładanie się dwóch obszarów.
  • Wartości IoU są w zakresie od 0 (brak nakładania) do 1 (całkowite nakładanie).
  • NMS (Non-maximum suppression) usuwa przewidywania z małym prawdopodobieństwem i dużym pokryciem z lepszymi przewidywaniami.

Fast R-CNN

  • Używa splotów do generowania propozycji ramek.
  • Sklasyfikuje wykryte ramki.
  • Poprawia współrzędne ramek z użyciem regresji.
  • Ma minusy, ponieważ klasyfikator nie widzi kontekstu reszty obrazka.

Mask R-CNN

  • Kombinacja Faster R-CNN z dodatkowa głową do segmentacji obiektów.
  • Sprawniejsza detekcja niż Faster R-CNN.

YOLO

  • Dzieli obrazek na kwadraty (S x S).
  • Dla każdego kwadratu rozważa B ramek.
  • Zakłada, że w danym kwadracie wszystkie ramki będą tej samej kategorii.
  • Ramki reprezentowane przez 5 liczb (4 współrzędne ramki i p-stwo występowania).

Funkcja straty w detekcji

  • Składa się z dwóch zadań: regresji położenia ramek (bounding box'ów) i klasyfikacji ich zawartości.
  • Funkcja straty to suma strat dla obu zadań.

Ocena modelu detekcyjnego

  • Wybór poziomu IoU (nakładu).
  • Wybór klasy obiektów do oceny.
  • Liczenie precyzji i czułości dla każdego progu.
  • Uśrednianie Average Precision (AP) dla wszystkich klas dają mAP (mean Average Precision).

Autoenkoder

  • Używany do redukcji wymiarów, odszumiania danych, oraz generowania danych.
  • Wyjście ma ten sam rozmiar, co wejście
  • Część kodująca skompresuje dane do zwięzłego opisu (reprentacja) w ukrytej przestrzeni.
  • Część dekodująca odtworzy wejście.
  • Uczenie autoenkodera polega na ucząc modelu identyfikacji swojego wejścia.
  • Do tego celu najczęściej używa się błędu średniokwadratowego (MSE).
  • Dodanie skip connections do autoenkodera byłoby niepotrzebne, ponieważ zakłóca kompresję danych.

Autoenkoder wariacyjny (VAE)

  • Koduje dane jako rozkłady prawdopodobieństwa, tworząc ciągłą, uporządkowaną przestrzeń ukrytą.
  • Pozwala na generowanie sensownych, nowych prób poprzez próbkowanie z przestrzenie ukrytej.

Modele dyskryminacyjne

  • Uczą się funkcji P(y0|x) i P(y1|x) - czyli, jak rozpoznać obiekty.
  • Oparte na cechach z danych wkorpusie uczącym.
  • Łatwa interpretacja, ale ciężko pokazać przykładowe obiekty.

Modele generatywne

  • Uczą się wyglądu typowych obiektów i mogą generować nowe obiekty.
  • Uczą się funkcji P(x|y0) i P(x|y1), gdzie x jest obiektem, a y klasą obiektu - np. pies lub kot.
  • Szczegółowy opis wyglądu obiektu (typowy pies).
  • Możliwość generowania nowych obiektów, np. zdjęć psów lub kotów.

GAN (Generative Adversarial Networks)

  • Składa się z generatora (G) i dyskryminatora (D).
  • Generator próbuje generować coraz bardziej realistycznie wyglądające sztuczne obrazki z losowych danych wejściowych.
  • Dyskryminator uczy się coraz lepiej rozróżniać prawdziwe obrazki od fałszywych.
  • Trenowanie GAN-ów jest procesem ciągłej "walki" między generatorem i dyskryminatorem.

Zastosowania GAN-ów

  • Generowanie obrazów na podstawie tekstu (np. Stable Diffusion).
  • Poprawa rozdzielczości obrazów (super resolution).
  • Wypełnianie brakujących fragmentów obrazu (inpainting).
  • Transfer stylów obrazu.

NLP (Natural Language Processing)

  • Zastosowania: modelowanie języka, tłumaczenie maszynowe, analiza sentymentu, automatyczne podsumowywanie, odpowiadanie na pytania, czatboty, systemy dialogowe, rozpoznawanie mowy.

Etapy przetwarzania języka naturalnego

  • Czystość i podział tekstu na tokeny.
  • Reprezentacja tekstu w formie, którą może zrozumieć algorytm.
  • Wykonywanie zadania na podstawie reprezentowania tekstu.
  • Tokenizacja: podział tekstu na pojedyncze jednostki (słowa, znaki, itp.).

BPE (Byte Pair Encoding)

  • Algorytm tokenizacji, który tworzy w słowniku coraz dłuższe tokeny (fragmenty słów).
  • Podział słów na części, mające sens w korpusie uczącym.

Tokenizacja - Algorytm BPE

  • Proces zamiany tokenów (słów lub części słów) w wektory liczbowe.
  • Wektory reprezentują znaczenie i kontekst słów w przestrzeni wielowymiarowej.
  • Podobne słowa mają podobne wektory.
  • Np. słowo "kot" może być reprezentowane jako wektor [0.2, -0.5, 0.8, ...], a słowo "pies" jako [0.3, -0.4, 0.7, ...].

Wstępna obróbka tekstu (preprocessing)

  • Stemming - uproszczenie słów do podstawowej formy np. uczeni→ucz.
  • Lematyzacja - zamiana słów na podstawową formę gramatyczną np. poszedł→iść.
  • Stop wordy - usunięcie częstych słów bez znaczenia np. i, lub, jest.

Segmentacja tekstu

  • Podział tekstu na zdania.
  • Często stosuje się algorytm Punkt.

Reprezentacja tekstu (Word Embeddings)

  • Reprezentacje tekstu: Bow, TF-IDF, word2vec.
  • Word2vec (CBOW, Skip-gram): Metody tworzenia wektorów słów, uwzględniające kontekst.
  • CBOW przewidywanie słowa na podstawie kontekstu.
  • Skip-gram przewidywanie słów otaczających bieżące słowo.

Reprezentacje tekstu - Bag of Words (BoW)

  • Reprezentacja tekstu jako wektora, gdzie indeks reprezentuje słowo, a wartość to liczba wystąpień tego słowa w tekście.
  • Kolejność słów jest ignorowana.

Reprezentacje tekstu - TF-IDF (Term Frequency-Inverse Document Frequency)

  • Reprezentacja tekstu podobna do BoW, ale z uwzględnieniem częstości słowa w dokumencie i w całym korpusie dokumentów.
  • Ważone wystąpienia słów.

Modele Językowe

  • Klasyczne algorytmy (n-gramy), oraz sieci rekurencyjne (RNN) - przechowują stan z poprzedniego przetwarzania, oraz LSTM/GRU.
  • Ewaluacja modeli języka: perpleksja - (mniejsza wartość to lepszy model)

Sieci Neuronowe w NLP (RNN)

  • RNN przetwarzają dane sekwencyjne po kolei, stan ukryty (hidden state) w danym kroku zależy nie tylko od wejścia ale także np. stany z poprzednich kroków.
  • Problemy: zanikający gradient, trudności z długimi sekwencjami.
  • Rozwiązania: LSTM/GRU

Seq2Seq

  • Model architektura enkoder/dekoder do tłumaczenia maszynowego.
  • Pierwszy stan ukryty enkodera przekazywany do dekodera jako kontekst.

Mechanizm uwagi (Attention) w RNN

  • Dekoder uczy się wykorzystywać wszystkie stany enkodera jako kontekst w każdym kroku dekodowania.

Samouwaga (Self-Attention)

  • Każdy token jest reprezentowany jako ważona suma innych tokenów.
  • Wagi zależą od podobieństw między tokenami.
  • Złożoność obliczeniowa: O(n²).
  • Parametry (Q, K, V): Query, Key, Value.
  • Multihead attention pozwala na równoległe uwzględnienie różnych aspektów tokenów.

Transformery

  • Bardziej zaawansowana architektura sieciowa, bazująca na mechanizmie samouwagis.
  • Nie zależą od kolejności tokenów.
  • Transformer oparty jest na mechanizmie samouwagis w modelach z sekwencjami (tekst, audio itp.).
  • Nie wymagają sekwencyjnego przetwarzania danych.

BERT (Bidirectional Encoder Representations from Transformers)

  • Model języka, oparty na Transformerze.
  • Dostarcza dwukierunkowe reprezentacje kontekstowe słów w tekście.

Modele Dyfuzyjne

  • Generują obrazy i mają stabilny proces uczenia.
  • Odbywa się to poprzez stopniowe odszumianie obrazu.

CLIP (OpenAI)

  • Tworzy wspólną przestrzeń embeddingów dla tekstu i obrazów.

BEIT (BERT dla obrazów)

  • Adaptacja BERT do przetwarzania obrazów.

Różnice między obrazami a językiem

  • Obrazy to piksele, języki to symbole.
  • Obrazy mają stały rozmiar, teksty mogą mieć różną długość.
  • Różna dostępność danych.
  • Małe zmiany w obrazie mają mniejszy wpływ, niż w tekście.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

ZTSI KOLOS PDF

Description

Quiz ten dotyczy segmentacji obrazów oraz architektury U-Net. Skupia się na klasyfikacji pikseli w obrazach oraz technikach, takich jak skoki połączeń w U-Net. Sprawdź swoją wiedzę na temat tych kluczowych zagadnień w przetwarzaniu obrazów.

More Like This

Mastering Market Segmentation
8 questions
Market Segmentation Benefits Quiz
12 questions
Fully Convolutional Networks and U-Net Quiz
22 questions
Use Quizgecko on...
Browser
Browser