Podcast
Questions and Answers
Jakie są kluczowe etapy funkcjonowania modelu językowego wykorzystującego zewnętrzne źródła informacji?
Jakie są kluczowe etapy funkcjonowania modelu językowego wykorzystującego zewnętrzne źródła informacji?
- Wyszukiwanie, wzbogacenie, generowanie (correct)
- Wykrywanie, dostosowanie, wygenerowanie
- Zbieranie, nadawanie, prezentowanie
- Wyszukiwanie, przetwarzanie, generowanie
Czym charakteryzuje się metoda LoRA w kontekście modeli językowych?
Czym charakteryzuje się metoda LoRA w kontekście modeli językowych?
- Zastosowanie małych macierzy adaptacyjnych (correct)
- Wymaga dużej mocy obliczeniowej
- Zwiększa liczbę parametrów do trenowania
- Nie pozwala na fine-tuning dużych modeli
Jaką funkcję pełni evaluacja w kontekście modeli językowych?
Jaką funkcję pełni evaluacja w kontekście modeli językowych?
- Zmniejsza liczbę parametrów w modelach
- Ocenia jakość generowanych odpowiedzi innych modeli (correct)
- Testuje wydajność sprzętu używanego do treningu
- Wspiera w samodzielnym nauczaniu modeli językowych
Jakie znaczenie ma prompt engineering dla odpowiedzi modelu językowego?
Jakie znaczenie ma prompt engineering dla odpowiedzi modelu językowego?
Co to jest kwantyzacja modelu w kontekście dużych modeli językowych?
Co to jest kwantyzacja modelu w kontekście dużych modeli językowych?
Co oznacza 'dziura' w kontekście autoenkoderów wariacyjnych?
Co oznacza 'dziura' w kontekście autoenkoderów wariacyjnych?
Jakie jest główne zadanie modeli dyskryminacyjnych?
Jakie jest główne zadanie modeli dyskryminacyjnych?
Jakie pytania zadaje model generatywny w odniesieniu do zdjęcia?
Jakie pytania zadaje model generatywny w odniesieniu do zdjęcia?
Jakie są elementy GAN?
Jakie są elementy GAN?
Co jest jednym z głównych wyzwań w trenowaniu GAN-ów?
Co jest jednym z głównych wyzwań w trenowaniu GAN-ów?
Jakie właściwości ma autoenkoder wariacyjny?
Jakie właściwości ma autoenkoder wariacyjny?
Jakie cechy różnią modele generatywne od dyskryminacyjnych?
Jakie cechy różnią modele generatywne od dyskryminacyjnych?
Co oznacza, że przestrzeń ukryta staje się bardziej 'ciągła' w autoenkoderze wariacyjnym?
Co oznacza, że przestrzeń ukryta staje się bardziej 'ciągła' w autoenkoderze wariacyjnym?
Jakie znaczenie mają stop wordy w analizie morfologicznej?
Jakie znaczenie mają stop wordy w analizie morfologicznej?
Co należy zrobić przed podziałem tekstu na tokeny?
Co należy zrobić przed podziałem tekstu na tokeny?
Jak działa podejście one-hot encoding?
Jak działa podejście one-hot encoding?
Co reprezentuje model Bag of Words?
Co reprezentuje model Bag of Words?
Jakie operacje są zazwyczaj stosowane w preprocessingu tekstu?
Jakie operacje są zazwyczaj stosowane w preprocessingu tekstu?
Na czym bazuje model TF-IDF?
Na czym bazuje model TF-IDF?
Jakie jest jednogłośne podejście do segmentacji tekstu?
Jakie jest jednogłośne podejście do segmentacji tekstu?
Jakie są wady podejścia one-hot encoding?
Jakie są wady podejścia one-hot encoding?
Jaką funkcję pełnią tokeny w procesie przetwarzania języka naturalnego?
Jaką funkcję pełnią tokeny w procesie przetwarzania języka naturalnego?
Jakie jest główne założenie tokenizacji z użyciem algorytmu BPE?
Jakie jest główne założenie tokenizacji z użyciem algorytmu BPE?
Który z poniższych algorytmów jest zamkniętym algorytmem używanym do tokenizacji subword?
Który z poniższych algorytmów jest zamkniętym algorytmem używanym do tokenizacji subword?
Jak wygląda przykład wektora reprezentującego słowo 'kot' w procesie zanurzania tokenów?
Jak wygląda przykład wektora reprezentującego słowo 'kot' w procesie zanurzania tokenów?
Jaka jest różnica między stemmingiem a lematyzacją?
Jaka jest różnica między stemmingiem a lematyzacją?
Czym różni się tokenizacja subword od tradycyjnej tokenizacji?
Czym różni się tokenizacja subword od tradycyjnej tokenizacji?
Jakie znaczenie ma kontekst w przetwarzaniu języka naturalnego?
Jakie znaczenie ma kontekst w przetwarzaniu języka naturalnego?
Do jakiego celu służy proces zwany 'word embedding'?
Do jakiego celu służy proces zwany 'word embedding'?
Jaki jest główny cel modelu języka?
Jaki jest główny cel modelu języka?
Czym jest OOV w kontekście przetwarzania języka naturalnego?
Czym jest OOV w kontekście przetwarzania języka naturalnego?
Jakie n-gramy są zwykle preferowane w praktyce?
Jakie n-gramy są zwykle preferowane w praktyce?
Czym jest perplexity w ewaluacji modeli języka?
Czym jest perplexity w ewaluacji modeli języka?
Jakie podejście stosuje naiwny klasyfikator bayesowski przy analizie wydźwięku?
Jakie podejście stosuje naiwny klasyfikator bayesowski przy analizie wydźwięku?
Jakie zastosowanie ma ukryty model Markowa (HMM)?
Jakie zastosowanie ma ukryty model Markowa (HMM)?
Który z wymienionych modeli nie jest klasycznym modelem NLP?
Który z wymienionych modeli nie jest klasycznym modelem NLP?
Dlaczego używa się logarytmów w n-gramowych modelach języka?
Dlaczego używa się logarytmów w n-gramowych modelach języka?
Jakie jest główne zastosowanie warstw kodujących w autoenkoderze?
Jakie jest główne zastosowanie warstw kodujących w autoenkoderze?
Jakie jest zadanie warstw dekodujących w autoenkoderze?
Jakie jest zadanie warstw dekodujących w autoenkoderze?
Dlaczego skip connections nie są stosowane w enkoderze?
Dlaczego skip connections nie są stosowane w enkoderze?
W jakim przypadku U-Net wykorzystuje skip connections?
W jakim przypadku U-Net wykorzystuje skip connections?
Jakie jest zasadnicze różnice między autoenkoderem a U-Net?
Jakie jest zasadnicze różnice między autoenkoderem a U-Net?
Jakie jest główne zastosowanie Autoenkodera Wariacyjnego (VAE)?
Jakie jest główne zastosowanie Autoenkodera Wariacyjnego (VAE)?
Jakie ograniczenie związane jest z przestrzenią latentną w standardowym autoenkoderze?
Jakie ograniczenie związane jest z przestrzenią latentną w standardowym autoenkoderze?
Jakie podejście stosuje VAE w porównaniu do podstawowego autoenkodera?
Jakie podejście stosuje VAE w porównaniu do podstawowego autoenkodera?
Flashcards
Tokenizacja
Tokenizacja
Proces rozdzielania tekstu na mniejsze jednostki znaczeniowe (tokeny), które mogą być pojedynczymi słowami, częściami słów lub znakami. W zależności od przyjętej metody tokenizacji, tokeny mogą być różne.
Tokenizacja subword
Tokenizacja subword
Algorytm tokenizacji, który tworzy tokeny z fragmentów słów (subword), zamiast całych słów. Przykładowo, słowo "kota" może zostać podzielone na tokeny "kot", "a".
Byte Pair Encoding (BPE)
Byte Pair Encoding (BPE)
Algorytm tokenizacji subword, który analizuje dane i tworzy nowy token dla najczęściej występującej pary znaków w tekście. Następnie zastępuje tę parę nowym tokenem, powtarzając proces. W efekcie powstają tokeny o różnej długości, zależnie od częstości występowania.
Zanurzanie Tokenów (word embedding)
Zanurzanie Tokenów (word embedding)
Signup and view all the flashcards
Wstępna obróbka tekstu (preprocessing)
Wstępna obróbka tekstu (preprocessing)
Signup and view all the flashcards
Dziury w danych
Dziury w danych
Signup and view all the flashcards
Autoenkoder Wariacyjny (VAE)
Autoenkoder Wariacyjny (VAE)
Signup and view all the flashcards
Generowanie danych w VAE
Generowanie danych w VAE
Signup and view all the flashcards
Regularyzacja w VAE
Regularyzacja w VAE
Signup and view all the flashcards
Model dyskryminacyjny
Model dyskryminacyjny
Signup and view all the flashcards
Model generatywny
Model generatywny
Signup and view all the flashcards
Generative Adversarial Network (GAN)
Generative Adversarial Network (GAN)
Signup and view all the flashcards
Trenowanie GAN-a
Trenowanie GAN-a
Signup and view all the flashcards
Autoenkoder
Autoenkoder
Signup and view all the flashcards
Połączenia "na skróty" w autoenkoderze
Połączenia "na skróty" w autoenkoderze
Signup and view all the flashcards
U-Net
U-Net
Signup and view all the flashcards
Ograniczenia przestrzeni ukrytej (latent space) w autoenkoderze
Ograniczenia przestrzeni ukrytej (latent space) w autoenkoderze
Signup and view all the flashcards
Uczenie w autoenkoderze vs U-Net
Uczenie w autoenkoderze vs U-Net
Signup and view all the flashcards
Funkcja straty w autoenkoderze vs U-Net
Funkcja straty w autoenkoderze vs U-Net
Signup and view all the flashcards
Różnice między autoenkoderem a U-Netem
Różnice między autoenkoderem a U-Netem
Signup and view all the flashcards
Stop wordy
Stop wordy
Signup and view all the flashcards
Oczyszczanie tekstu
Oczyszczanie tekstu
Signup and view all the flashcards
Segmentacja tekstu
Segmentacja tekstu
Signup and view all the flashcards
Algorytm Punkt
Algorytm Punkt
Signup and view all the flashcards
Słownik
Słownik
Signup and view all the flashcards
One-hot encoding
One-hot encoding
Signup and view all the flashcards
Bag of Words (BoW)
Bag of Words (BoW)
Signup and view all the flashcards
TF-IDF
TF-IDF
Signup and view all the flashcards
LoRA (Low-Rank Adaptation)
LoRA (Low-Rank Adaptation)
Signup and view all the flashcards
Prompt Engineering
Prompt Engineering
Signup and view all the flashcards
Retrieval Augmented Generation (RAG)
Retrieval Augmented Generation (RAG)
Signup and view all the flashcards
Ewaluacja (LLM ocenia LLM)
Ewaluacja (LLM ocenia LLM)
Signup and view all the flashcards
Kwantyzacja modelu
Kwantyzacja modelu
Signup and view all the flashcards
OOV (Out Of Vocabulary)
OOV (Out Of Vocabulary)
Signup and view all the flashcards
Przetwarzanie Tekstu
Przetwarzanie Tekstu
Signup and view all the flashcards
Model Języka
Model Języka
Signup and view all the flashcards
N-gramowy Model Języka
N-gramowy Model Języka
Signup and view all the flashcards
Token OOV
Token OOV
Signup and view all the flashcards
LM Smoothing
LM Smoothing
Signup and view all the flashcards
Perplexity
Perplexity
Signup and view all the flashcards
Naiwny Klasyfikator Bayesowski
Naiwny Klasyfikator Bayesowski
Signup and view all the flashcards
Study Notes
Segmentacja
- Segmentacja to podział obrazu na regiony lub segmenty.
- Segmentacja semantyczna klasyfikuje każdy piksel w obrazie.
- Segmentacja obiektów/instancji klasyfikuje piksele i oddziela osobne obiekty tej samej klasy.
- Klasy są z góry określone, np. "tło".
- Wejście do modelu to 3 kanały (RGB) o wymiarach H x W.
- Wyjście to liczba klas (K) o wymiarach H x W, gdzie każda wartość reprezentuje prawdopodobieństwo przynależności piksela do danej klasy.
- Używane są funkcje straty takie jak entropia krzyżowa lub dice loss.
- U-Net to architektura sieci neuronowej specjalizująca się w segmentacji obrazów, szczególnie w medycynie.
Architektura U-Net
- Ma kształt litery U.
- Część kontrakcyjna (downsampling) wykorzystuje konwolucje i max pooling do ekstrakcji cech.
- Część ekspansywna (upsampling) rekonstruuje obraz z użyciem transponowanych splotów oraz łączy się z cechami z części kontrakcyjnej.
- Skip connections unikają utraty detali.
- Liczba warstw w części kontrakcyjnej i ekspansywnej jest identyczna.
- Jest dokładna nawet przy małych zbiorach danych.
- Dobrze radzi sobie z obrazami o różnych skala.
Segmentacja semantyczna
- Funkcja straty to entropia krzyżowa binarna, uśredniana po pikselach.
- Jakość modelu oceniana jest procentowo poprawnych pikseli (np. IoU).
- Wyjście U-neta, podając przykładowe wymiary wejścia 600x200x3 i 12 klas, będzie miało wymiary 12x600x200.
Segmentacja obiektów
- Segmentacja obiektów to segmentacja semantyczna plus oddzielenie obiektów tej samej klasy.
- Można to zrobić używając U-Net i postprocessing.
- Segment anything oraz segment anything 2 są narzedziami do segmentacji obiektów, używanymi z metodami typu U-Net.
Modele nie nadające się do segmentacji
- Sieci w pełni połączone (Feedforward Neural Networks) nie analizują lokalnych cech obrazu.
- Rekurencyjne sieci neuronowe (RNN) są przystosowane do danych sekwencyjnych, nie przestrzennych.
- Modele klasyfikacji obrazów (np. VGG, AlexNet) klasyfikują cały obraz, a nie piksele.
Detekcja
- Model detekcyjny zwraca współrzędne ramek (bounding box'ów) oraz informacje o wykrytym obiekcie wraz z prawdopodobieństwem.
- Algorytmy detekcji to R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN (dwuetapowe) oraz YOLO (jednoetapowe).
- IoU (Intersection over Union) mierzy nakładanie się dwóch obszarów.
- Wartości IoU są w zakresie od 0 (brak nakładania) do 1 (całkowite nakładanie).
- NMS (Non-maximum suppression) usuwa przewidywania z małym prawdopodobieństwem i dużym pokryciem z lepszymi przewidywaniami.
Fast R-CNN
- Używa splotów do generowania propozycji ramek.
- Sklasyfikuje wykryte ramki.
- Poprawia współrzędne ramek z użyciem regresji.
- Ma minusy, ponieważ klasyfikator nie widzi kontekstu reszty obrazka.
Mask R-CNN
- Kombinacja Faster R-CNN z dodatkowa głową do segmentacji obiektów.
- Sprawniejsza detekcja niż Faster R-CNN.
YOLO
- Dzieli obrazek na kwadraty (S x S).
- Dla każdego kwadratu rozważa B ramek.
- Zakłada, że w danym kwadracie wszystkie ramki będą tej samej kategorii.
- Ramki reprezentowane przez 5 liczb (4 współrzędne ramki i p-stwo występowania).
Funkcja straty w detekcji
- Składa się z dwóch zadań: regresji położenia ramek (bounding box'ów) i klasyfikacji ich zawartości.
- Funkcja straty to suma strat dla obu zadań.
Ocena modelu detekcyjnego
- Wybór poziomu IoU (nakładu).
- Wybór klasy obiektów do oceny.
- Liczenie precyzji i czułości dla każdego progu.
- Uśrednianie Average Precision (AP) dla wszystkich klas dają mAP (mean Average Precision).
Autoenkoder
- Używany do redukcji wymiarów, odszumiania danych, oraz generowania danych.
- Wyjście ma ten sam rozmiar, co wejście
- Część kodująca skompresuje dane do zwięzłego opisu (reprentacja) w ukrytej przestrzeni.
- Część dekodująca odtworzy wejście.
- Uczenie autoenkodera polega na ucząc modelu identyfikacji swojego wejścia.
- Do tego celu najczęściej używa się błędu średniokwadratowego (MSE).
- Dodanie skip connections do autoenkodera byłoby niepotrzebne, ponieważ zakłóca kompresję danych.
Autoenkoder wariacyjny (VAE)
- Koduje dane jako rozkłady prawdopodobieństwa, tworząc ciągłą, uporządkowaną przestrzeń ukrytą.
- Pozwala na generowanie sensownych, nowych prób poprzez próbkowanie z przestrzenie ukrytej.
Modele dyskryminacyjne
- Uczą się funkcji P(y0|x) i P(y1|x) - czyli, jak rozpoznać obiekty.
- Oparte na cechach z danych wkorpusie uczącym.
- Łatwa interpretacja, ale ciężko pokazać przykładowe obiekty.
Modele generatywne
- Uczą się wyglądu typowych obiektów i mogą generować nowe obiekty.
- Uczą się funkcji P(x|y0) i P(x|y1), gdzie x jest obiektem, a y klasą obiektu - np. pies lub kot.
- Szczegółowy opis wyglądu obiektu (typowy pies).
- Możliwość generowania nowych obiektów, np. zdjęć psów lub kotów.
GAN (Generative Adversarial Networks)
- Składa się z generatora (G) i dyskryminatora (D).
- Generator próbuje generować coraz bardziej realistycznie wyglądające sztuczne obrazki z losowych danych wejściowych.
- Dyskryminator uczy się coraz lepiej rozróżniać prawdziwe obrazki od fałszywych.
- Trenowanie GAN-ów jest procesem ciągłej "walki" między generatorem i dyskryminatorem.
Zastosowania GAN-ów
- Generowanie obrazów na podstawie tekstu (np. Stable Diffusion).
- Poprawa rozdzielczości obrazów (super resolution).
- Wypełnianie brakujących fragmentów obrazu (inpainting).
- Transfer stylów obrazu.
NLP (Natural Language Processing)
- Zastosowania: modelowanie języka, tłumaczenie maszynowe, analiza sentymentu, automatyczne podsumowywanie, odpowiadanie na pytania, czatboty, systemy dialogowe, rozpoznawanie mowy.
Etapy przetwarzania języka naturalnego
- Czystość i podział tekstu na tokeny.
- Reprezentacja tekstu w formie, którą może zrozumieć algorytm.
- Wykonywanie zadania na podstawie reprezentowania tekstu.
- Tokenizacja: podział tekstu na pojedyncze jednostki (słowa, znaki, itp.).
BPE (Byte Pair Encoding)
- Algorytm tokenizacji, który tworzy w słowniku coraz dłuższe tokeny (fragmenty słów).
- Podział słów na części, mające sens w korpusie uczącym.
Tokenizacja - Algorytm BPE
- Proces zamiany tokenów (słów lub części słów) w wektory liczbowe.
- Wektory reprezentują znaczenie i kontekst słów w przestrzeni wielowymiarowej.
- Podobne słowa mają podobne wektory.
- Np. słowo "kot" może być reprezentowane jako wektor [0.2, -0.5, 0.8, ...], a słowo "pies" jako [0.3, -0.4, 0.7, ...].
Wstępna obróbka tekstu (preprocessing)
- Stemming - uproszczenie słów do podstawowej formy np. uczeni→ucz.
- Lematyzacja - zamiana słów na podstawową formę gramatyczną np. poszedł→iść.
- Stop wordy - usunięcie częstych słów bez znaczenia np. i, lub, jest.
Segmentacja tekstu
- Podział tekstu na zdania.
- Często stosuje się algorytm Punkt.
Reprezentacja tekstu (Word Embeddings)
- Reprezentacje tekstu: Bow, TF-IDF, word2vec.
- Word2vec (CBOW, Skip-gram): Metody tworzenia wektorów słów, uwzględniające kontekst.
- CBOW przewidywanie słowa na podstawie kontekstu.
- Skip-gram przewidywanie słów otaczających bieżące słowo.
Reprezentacje tekstu - Bag of Words (BoW)
- Reprezentacja tekstu jako wektora, gdzie indeks reprezentuje słowo, a wartość to liczba wystąpień tego słowa w tekście.
- Kolejność słów jest ignorowana.
Reprezentacje tekstu - TF-IDF (Term Frequency-Inverse Document Frequency)
- Reprezentacja tekstu podobna do BoW, ale z uwzględnieniem częstości słowa w dokumencie i w całym korpusie dokumentów.
- Ważone wystąpienia słów.
Modele Językowe
- Klasyczne algorytmy (n-gramy), oraz sieci rekurencyjne (RNN) - przechowują stan z poprzedniego przetwarzania, oraz LSTM/GRU.
- Ewaluacja modeli języka: perpleksja - (mniejsza wartość to lepszy model)
Sieci Neuronowe w NLP (RNN)
- RNN przetwarzają dane sekwencyjne po kolei, stan ukryty (hidden state) w danym kroku zależy nie tylko od wejścia ale także np. stany z poprzednich kroków.
- Problemy: zanikający gradient, trudności z długimi sekwencjami.
- Rozwiązania: LSTM/GRU
Seq2Seq
- Model architektura enkoder/dekoder do tłumaczenia maszynowego.
- Pierwszy stan ukryty enkodera przekazywany do dekodera jako kontekst.
Mechanizm uwagi (Attention) w RNN
- Dekoder uczy się wykorzystywać wszystkie stany enkodera jako kontekst w każdym kroku dekodowania.
Samouwaga (Self-Attention)
- Każdy token jest reprezentowany jako ważona suma innych tokenów.
- Wagi zależą od podobieństw między tokenami.
- Złożoność obliczeniowa: O(n²).
- Parametry (Q, K, V): Query, Key, Value.
- Multihead attention pozwala na równoległe uwzględnienie różnych aspektów tokenów.
Transformery
- Bardziej zaawansowana architektura sieciowa, bazująca na mechanizmie samouwagis.
- Nie zależą od kolejności tokenów.
- Transformer oparty jest na mechanizmie samouwagis w modelach z sekwencjami (tekst, audio itp.).
- Nie wymagają sekwencyjnego przetwarzania danych.
BERT (Bidirectional Encoder Representations from Transformers)
- Model języka, oparty na Transformerze.
- Dostarcza dwukierunkowe reprezentacje kontekstowe słów w tekście.
Modele Dyfuzyjne
- Generują obrazy i mają stabilny proces uczenia.
- Odbywa się to poprzez stopniowe odszumianie obrazu.
CLIP (OpenAI)
- Tworzy wspólną przestrzeń embeddingów dla tekstu i obrazów.
BEIT (BERT dla obrazów)
- Adaptacja BERT do przetwarzania obrazów.
Różnice między obrazami a językiem
- Obrazy to piksele, języki to symbole.
- Obrazy mają stały rozmiar, teksty mogą mieć różną długość.
- Różna dostępność danych.
- Małe zmiany w obrazie mają mniejszy wpływ, niż w tekście.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Quiz ten dotyczy segmentacji obrazów oraz architektury U-Net. Skupia się na klasyfikacji pikseli w obrazach oraz technikach, takich jak skoki połączeń w U-Net. Sprawdź swoją wiedzę na temat tych kluczowych zagadnień w przetwarzaniu obrazów.