Podcast
Questions and Answers
Jakie są kluczowe etapy funkcjonowania modelu językowego wykorzystującego zewnętrzne źródła informacji?
Jakie są kluczowe etapy funkcjonowania modelu językowego wykorzystującego zewnętrzne źródła informacji?
Czym charakteryzuje się metoda LoRA w kontekście modeli językowych?
Czym charakteryzuje się metoda LoRA w kontekście modeli językowych?
Jaką funkcję pełni evaluacja w kontekście modeli językowych?
Jaką funkcję pełni evaluacja w kontekście modeli językowych?
Jakie znaczenie ma prompt engineering dla odpowiedzi modelu językowego?
Jakie znaczenie ma prompt engineering dla odpowiedzi modelu językowego?
Signup and view all the answers
Co to jest kwantyzacja modelu w kontekście dużych modeli językowych?
Co to jest kwantyzacja modelu w kontekście dużych modeli językowych?
Signup and view all the answers
Co oznacza 'dziura' w kontekście autoenkoderów wariacyjnych?
Co oznacza 'dziura' w kontekście autoenkoderów wariacyjnych?
Signup and view all the answers
Jakie jest główne zadanie modeli dyskryminacyjnych?
Jakie jest główne zadanie modeli dyskryminacyjnych?
Signup and view all the answers
Jakie pytania zadaje model generatywny w odniesieniu do zdjęcia?
Jakie pytania zadaje model generatywny w odniesieniu do zdjęcia?
Signup and view all the answers
Jakie są elementy GAN?
Jakie są elementy GAN?
Signup and view all the answers
Co jest jednym z głównych wyzwań w trenowaniu GAN-ów?
Co jest jednym z głównych wyzwań w trenowaniu GAN-ów?
Signup and view all the answers
Jakie właściwości ma autoenkoder wariacyjny?
Jakie właściwości ma autoenkoder wariacyjny?
Signup and view all the answers
Jakie cechy różnią modele generatywne od dyskryminacyjnych?
Jakie cechy różnią modele generatywne od dyskryminacyjnych?
Signup and view all the answers
Co oznacza, że przestrzeń ukryta staje się bardziej 'ciągła' w autoenkoderze wariacyjnym?
Co oznacza, że przestrzeń ukryta staje się bardziej 'ciągła' w autoenkoderze wariacyjnym?
Signup and view all the answers
Jakie znaczenie mają stop wordy w analizie morfologicznej?
Jakie znaczenie mają stop wordy w analizie morfologicznej?
Signup and view all the answers
Co należy zrobić przed podziałem tekstu na tokeny?
Co należy zrobić przed podziałem tekstu na tokeny?
Signup and view all the answers
Jak działa podejście one-hot encoding?
Jak działa podejście one-hot encoding?
Signup and view all the answers
Co reprezentuje model Bag of Words?
Co reprezentuje model Bag of Words?
Signup and view all the answers
Jakie operacje są zazwyczaj stosowane w preprocessingu tekstu?
Jakie operacje są zazwyczaj stosowane w preprocessingu tekstu?
Signup and view all the answers
Na czym bazuje model TF-IDF?
Na czym bazuje model TF-IDF?
Signup and view all the answers
Jakie jest jednogłośne podejście do segmentacji tekstu?
Jakie jest jednogłośne podejście do segmentacji tekstu?
Signup and view all the answers
Jakie są wady podejścia one-hot encoding?
Jakie są wady podejścia one-hot encoding?
Signup and view all the answers
Jaką funkcję pełnią tokeny w procesie przetwarzania języka naturalnego?
Jaką funkcję pełnią tokeny w procesie przetwarzania języka naturalnego?
Signup and view all the answers
Jakie jest główne założenie tokenizacji z użyciem algorytmu BPE?
Jakie jest główne założenie tokenizacji z użyciem algorytmu BPE?
Signup and view all the answers
Który z poniższych algorytmów jest zamkniętym algorytmem używanym do tokenizacji subword?
Który z poniższych algorytmów jest zamkniętym algorytmem używanym do tokenizacji subword?
Signup and view all the answers
Jak wygląda przykład wektora reprezentującego słowo 'kot' w procesie zanurzania tokenów?
Jak wygląda przykład wektora reprezentującego słowo 'kot' w procesie zanurzania tokenów?
Signup and view all the answers
Jaka jest różnica między stemmingiem a lematyzacją?
Jaka jest różnica między stemmingiem a lematyzacją?
Signup and view all the answers
Czym różni się tokenizacja subword od tradycyjnej tokenizacji?
Czym różni się tokenizacja subword od tradycyjnej tokenizacji?
Signup and view all the answers
Jakie znaczenie ma kontekst w przetwarzaniu języka naturalnego?
Jakie znaczenie ma kontekst w przetwarzaniu języka naturalnego?
Signup and view all the answers
Do jakiego celu służy proces zwany 'word embedding'?
Do jakiego celu służy proces zwany 'word embedding'?
Signup and view all the answers
Jaki jest główny cel modelu języka?
Jaki jest główny cel modelu języka?
Signup and view all the answers
Czym jest OOV w kontekście przetwarzania języka naturalnego?
Czym jest OOV w kontekście przetwarzania języka naturalnego?
Signup and view all the answers
Jakie n-gramy są zwykle preferowane w praktyce?
Jakie n-gramy są zwykle preferowane w praktyce?
Signup and view all the answers
Czym jest perplexity w ewaluacji modeli języka?
Czym jest perplexity w ewaluacji modeli języka?
Signup and view all the answers
Jakie podejście stosuje naiwny klasyfikator bayesowski przy analizie wydźwięku?
Jakie podejście stosuje naiwny klasyfikator bayesowski przy analizie wydźwięku?
Signup and view all the answers
Jakie zastosowanie ma ukryty model Markowa (HMM)?
Jakie zastosowanie ma ukryty model Markowa (HMM)?
Signup and view all the answers
Który z wymienionych modeli nie jest klasycznym modelem NLP?
Który z wymienionych modeli nie jest klasycznym modelem NLP?
Signup and view all the answers
Dlaczego używa się logarytmów w n-gramowych modelach języka?
Dlaczego używa się logarytmów w n-gramowych modelach języka?
Signup and view all the answers
Jakie jest główne zastosowanie warstw kodujących w autoenkoderze?
Jakie jest główne zastosowanie warstw kodujących w autoenkoderze?
Signup and view all the answers
Jakie jest zadanie warstw dekodujących w autoenkoderze?
Jakie jest zadanie warstw dekodujących w autoenkoderze?
Signup and view all the answers
Dlaczego skip connections nie są stosowane w enkoderze?
Dlaczego skip connections nie są stosowane w enkoderze?
Signup and view all the answers
W jakim przypadku U-Net wykorzystuje skip connections?
W jakim przypadku U-Net wykorzystuje skip connections?
Signup and view all the answers
Jakie jest zasadnicze różnice między autoenkoderem a U-Net?
Jakie jest zasadnicze różnice między autoenkoderem a U-Net?
Signup and view all the answers
Jakie jest główne zastosowanie Autoenkodera Wariacyjnego (VAE)?
Jakie jest główne zastosowanie Autoenkodera Wariacyjnego (VAE)?
Signup and view all the answers
Jakie ograniczenie związane jest z przestrzenią latentną w standardowym autoenkoderze?
Jakie ograniczenie związane jest z przestrzenią latentną w standardowym autoenkoderze?
Signup and view all the answers
Jakie podejście stosuje VAE w porównaniu do podstawowego autoenkodera?
Jakie podejście stosuje VAE w porównaniu do podstawowego autoenkodera?
Signup and view all the answers
Study Notes
Segmentacja
- Segmentacja to podział obrazu na regiony lub segmenty.
- Segmentacja semantyczna klasyfikuje każdy piksel w obrazie.
- Segmentacja obiektów/instancji klasyfikuje piksele i oddziela osobne obiekty tej samej klasy.
- Klasy są z góry określone, np. "tło".
- Wejście do modelu to 3 kanały (RGB) o wymiarach H x W.
- Wyjście to liczba klas (K) o wymiarach H x W, gdzie każda wartość reprezentuje prawdopodobieństwo przynależności piksela do danej klasy.
- Używane są funkcje straty takie jak entropia krzyżowa lub dice loss.
- U-Net to architektura sieci neuronowej specjalizująca się w segmentacji obrazów, szczególnie w medycynie.
Architektura U-Net
- Ma kształt litery U.
- Część kontrakcyjna (downsampling) wykorzystuje konwolucje i max pooling do ekstrakcji cech.
- Część ekspansywna (upsampling) rekonstruuje obraz z użyciem transponowanych splotów oraz łączy się z cechami z części kontrakcyjnej.
- Skip connections unikają utraty detali.
- Liczba warstw w części kontrakcyjnej i ekspansywnej jest identyczna.
- Jest dokładna nawet przy małych zbiorach danych.
- Dobrze radzi sobie z obrazami o różnych skala.
Segmentacja semantyczna
- Funkcja straty to entropia krzyżowa binarna, uśredniana po pikselach.
- Jakość modelu oceniana jest procentowo poprawnych pikseli (np. IoU).
- Wyjście U-neta, podając przykładowe wymiary wejścia 600x200x3 i 12 klas, będzie miało wymiary 12x600x200.
Segmentacja obiektów
- Segmentacja obiektów to segmentacja semantyczna plus oddzielenie obiektów tej samej klasy.
- Można to zrobić używając U-Net i postprocessing.
- Segment anything oraz segment anything 2 są narzedziami do segmentacji obiektów, używanymi z metodami typu U-Net.
Modele nie nadające się do segmentacji
- Sieci w pełni połączone (Feedforward Neural Networks) nie analizują lokalnych cech obrazu.
- Rekurencyjne sieci neuronowe (RNN) są przystosowane do danych sekwencyjnych, nie przestrzennych.
- Modele klasyfikacji obrazów (np. VGG, AlexNet) klasyfikują cały obraz, a nie piksele.
Detekcja
- Model detekcyjny zwraca współrzędne ramek (bounding box'ów) oraz informacje o wykrytym obiekcie wraz z prawdopodobieństwem.
- Algorytmy detekcji to R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN (dwuetapowe) oraz YOLO (jednoetapowe).
- IoU (Intersection over Union) mierzy nakładanie się dwóch obszarów.
- Wartości IoU są w zakresie od 0 (brak nakładania) do 1 (całkowite nakładanie).
- NMS (Non-maximum suppression) usuwa przewidywania z małym prawdopodobieństwem i dużym pokryciem z lepszymi przewidywaniami.
Fast R-CNN
- Używa splotów do generowania propozycji ramek.
- Sklasyfikuje wykryte ramki.
- Poprawia współrzędne ramek z użyciem regresji.
- Ma minusy, ponieważ klasyfikator nie widzi kontekstu reszty obrazka.
Mask R-CNN
- Kombinacja Faster R-CNN z dodatkowa głową do segmentacji obiektów.
- Sprawniejsza detekcja niż Faster R-CNN.
YOLO
- Dzieli obrazek na kwadraty (S x S).
- Dla każdego kwadratu rozważa B ramek.
- Zakłada, że w danym kwadracie wszystkie ramki będą tej samej kategorii.
- Ramki reprezentowane przez 5 liczb (4 współrzędne ramki i p-stwo występowania).
Funkcja straty w detekcji
- Składa się z dwóch zadań: regresji położenia ramek (bounding box'ów) i klasyfikacji ich zawartości.
- Funkcja straty to suma strat dla obu zadań.
Ocena modelu detekcyjnego
- Wybór poziomu IoU (nakładu).
- Wybór klasy obiektów do oceny.
- Liczenie precyzji i czułości dla każdego progu.
- Uśrednianie Average Precision (AP) dla wszystkich klas dają mAP (mean Average Precision).
Autoenkoder
- Używany do redukcji wymiarów, odszumiania danych, oraz generowania danych.
- Wyjście ma ten sam rozmiar, co wejście
- Część kodująca skompresuje dane do zwięzłego opisu (reprentacja) w ukrytej przestrzeni.
- Część dekodująca odtworzy wejście.
- Uczenie autoenkodera polega na ucząc modelu identyfikacji swojego wejścia.
- Do tego celu najczęściej używa się błędu średniokwadratowego (MSE).
- Dodanie skip connections do autoenkodera byłoby niepotrzebne, ponieważ zakłóca kompresję danych.
Autoenkoder wariacyjny (VAE)
- Koduje dane jako rozkłady prawdopodobieństwa, tworząc ciągłą, uporządkowaną przestrzeń ukrytą.
- Pozwala na generowanie sensownych, nowych prób poprzez próbkowanie z przestrzenie ukrytej.
Modele dyskryminacyjne
- Uczą się funkcji P(y0|x) i P(y1|x) - czyli, jak rozpoznać obiekty.
- Oparte na cechach z danych wkorpusie uczącym.
- Łatwa interpretacja, ale ciężko pokazać przykładowe obiekty.
Modele generatywne
- Uczą się wyglądu typowych obiektów i mogą generować nowe obiekty.
- Uczą się funkcji P(x|y0) i P(x|y1), gdzie x jest obiektem, a y klasą obiektu - np. pies lub kot.
- Szczegółowy opis wyglądu obiektu (typowy pies).
- Możliwość generowania nowych obiektów, np. zdjęć psów lub kotów.
GAN (Generative Adversarial Networks)
- Składa się z generatora (G) i dyskryminatora (D).
- Generator próbuje generować coraz bardziej realistycznie wyglądające sztuczne obrazki z losowych danych wejściowych.
- Dyskryminator uczy się coraz lepiej rozróżniać prawdziwe obrazki od fałszywych.
- Trenowanie GAN-ów jest procesem ciągłej "walki" między generatorem i dyskryminatorem.
Zastosowania GAN-ów
- Generowanie obrazów na podstawie tekstu (np. Stable Diffusion).
- Poprawa rozdzielczości obrazów (super resolution).
- Wypełnianie brakujących fragmentów obrazu (inpainting).
- Transfer stylów obrazu.
NLP (Natural Language Processing)
- Zastosowania: modelowanie języka, tłumaczenie maszynowe, analiza sentymentu, automatyczne podsumowywanie, odpowiadanie na pytania, czatboty, systemy dialogowe, rozpoznawanie mowy.
Etapy przetwarzania języka naturalnego
- Czystość i podział tekstu na tokeny.
- Reprezentacja tekstu w formie, którą może zrozumieć algorytm.
- Wykonywanie zadania na podstawie reprezentowania tekstu.
- Tokenizacja: podział tekstu na pojedyncze jednostki (słowa, znaki, itp.).
BPE (Byte Pair Encoding)
- Algorytm tokenizacji, który tworzy w słowniku coraz dłuższe tokeny (fragmenty słów).
- Podział słów na części, mające sens w korpusie uczącym.
Tokenizacja - Algorytm BPE
- Proces zamiany tokenów (słów lub części słów) w wektory liczbowe.
- Wektory reprezentują znaczenie i kontekst słów w przestrzeni wielowymiarowej.
- Podobne słowa mają podobne wektory.
- Np. słowo "kot" może być reprezentowane jako wektor [0.2, -0.5, 0.8, ...], a słowo "pies" jako [0.3, -0.4, 0.7, ...].
Wstępna obróbka tekstu (preprocessing)
- Stemming - uproszczenie słów do podstawowej formy np. uczeni→ucz.
- Lematyzacja - zamiana słów na podstawową formę gramatyczną np. poszedł→iść.
- Stop wordy - usunięcie częstych słów bez znaczenia np. i, lub, jest.
Segmentacja tekstu
- Podział tekstu na zdania.
- Często stosuje się algorytm Punkt.
Reprezentacja tekstu (Word Embeddings)
- Reprezentacje tekstu: Bow, TF-IDF, word2vec.
- Word2vec (CBOW, Skip-gram): Metody tworzenia wektorów słów, uwzględniające kontekst.
- CBOW przewidywanie słowa na podstawie kontekstu.
- Skip-gram przewidywanie słów otaczających bieżące słowo.
Reprezentacje tekstu - Bag of Words (BoW)
- Reprezentacja tekstu jako wektora, gdzie indeks reprezentuje słowo, a wartość to liczba wystąpień tego słowa w tekście.
- Kolejność słów jest ignorowana.
Reprezentacje tekstu - TF-IDF (Term Frequency-Inverse Document Frequency)
- Reprezentacja tekstu podobna do BoW, ale z uwzględnieniem częstości słowa w dokumencie i w całym korpusie dokumentów.
- Ważone wystąpienia słów.
Modele Językowe
- Klasyczne algorytmy (n-gramy), oraz sieci rekurencyjne (RNN) - przechowują stan z poprzedniego przetwarzania, oraz LSTM/GRU.
- Ewaluacja modeli języka: perpleksja - (mniejsza wartość to lepszy model)
Sieci Neuronowe w NLP (RNN)
- RNN przetwarzają dane sekwencyjne po kolei, stan ukryty (hidden state) w danym kroku zależy nie tylko od wejścia ale także np. stany z poprzednich kroków.
- Problemy: zanikający gradient, trudności z długimi sekwencjami.
- Rozwiązania: LSTM/GRU
Seq2Seq
- Model architektura enkoder/dekoder do tłumaczenia maszynowego.
- Pierwszy stan ukryty enkodera przekazywany do dekodera jako kontekst.
Mechanizm uwagi (Attention) w RNN
- Dekoder uczy się wykorzystywać wszystkie stany enkodera jako kontekst w każdym kroku dekodowania.
Samouwaga (Self-Attention)
- Każdy token jest reprezentowany jako ważona suma innych tokenów.
- Wagi zależą od podobieństw między tokenami.
- Złożoność obliczeniowa: O(n²).
- Parametry (Q, K, V): Query, Key, Value.
- Multihead attention pozwala na równoległe uwzględnienie różnych aspektów tokenów.
Transformery
- Bardziej zaawansowana architektura sieciowa, bazująca na mechanizmie samouwagis.
- Nie zależą od kolejności tokenów.
- Transformer oparty jest na mechanizmie samouwagis w modelach z sekwencjami (tekst, audio itp.).
- Nie wymagają sekwencyjnego przetwarzania danych.
BERT (Bidirectional Encoder Representations from Transformers)
- Model języka, oparty na Transformerze.
- Dostarcza dwukierunkowe reprezentacje kontekstowe słów w tekście.
Modele Dyfuzyjne
- Generują obrazy i mają stabilny proces uczenia.
- Odbywa się to poprzez stopniowe odszumianie obrazu.
CLIP (OpenAI)
- Tworzy wspólną przestrzeń embeddingów dla tekstu i obrazów.
BEIT (BERT dla obrazów)
- Adaptacja BERT do przetwarzania obrazów.
Różnice między obrazami a językiem
- Obrazy to piksele, języki to symbole.
- Obrazy mają stały rozmiar, teksty mogą mieć różną długość.
- Różna dostępność danych.
- Małe zmiany w obrazie mają mniejszy wpływ, niż w tekście.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Quiz ten dotyczy segmentacji obrazów oraz architektury U-Net. Skupia się na klasyfikacji pikseli w obrazach oraz technikach, takich jak skoki połączeń w U-Net. Sprawdź swoją wiedzę na temat tych kluczowych zagadnień w przetwarzaniu obrazów.