Podcast
Questions and Answers
Co oznacza skrót GINI w kontekście analizy ryzyka?
Co oznacza skrót GINI w kontekście analizy ryzyka?
- Maksymalizacja różnicy między dystrybuantą modelu a dystrybuantą danych obserwowanych
- Maksymalizacja zbieżności modelu do danych obserwowanych
- Minimalizacja różnicy między dystrybuantą modelu a dystrybuantą danych obserwowanych (correct)
- Minimalizacja błędu między modelem a danymi obserwowanymi
Co oznacza skrót KS w analizie ryzyka?
Co oznacza skrót KS w analizie ryzyka?
- Kryterium Smirnova
- Test Kolmogorova-Smirnova (correct)
- Kryterium Stabilności
- Korelacja Sekwencji
Co obejmuje analiza wielowymiarowa w kontekście budowy modelu ryzyka?
Co obejmuje analiza wielowymiarowa w kontekście budowy modelu ryzyka?
- Minimalizacja liczby zmiennych w modelu
- Wykluczenie analizy korelacji między zmiennymi
- Budowanie jedynie jednej alternatywy modelu
- Ocena, które zmienne mogą występować obok siebie w modelu (correct)
Czym jest IV w kontekście analizy ryzyka?
Czym jest IV w kontekście analizy ryzyka?
Co jest istotne podczas oceny modelu ryzyka?
Co jest istotne podczas oceny modelu ryzyka?
Jakie czynniki uwzględnia analiza korelacji w budowie modelu ryzyka?
Jakie czynniki uwzględnia analiza korelacji w budowie modelu ryzyka?
Dlaczego stabilność modelu jest istotna podczas oceny modelu ryzyka?
Dlaczego stabilność modelu jest istotna podczas oceny modelu ryzyka?
Co obejmuje etapy analizy wielowymiarowej w kontekście budowy modelu ryzyka?
Co obejmuje etapy analizy wielowymiarowej w kontekście budowy modelu ryzyka?
Study Notes
Algorytmy Regresji i Klasyfikacji
- Regresja liniowa, regresja wielomianowa, SVR – Support Vector Regression, regresyjne drzewa decyzyjne, regresyjne lasy losowe są algorytmami regresji
- Regresja logistyczna, Support Vector Machines, drzewa decyzyjne, lasy losowe, metoda k-najbliższych sąsiadów, gradient boosting są algorytmami klasyfikacji
Budowa Modelu - Niezbalansowana Próba
- Metody estymacyjne mogą być wrażliwe na stosunek klas/kategorii w badanym zbiorze
- Stosunek 90:10 do 10:90 jest optymalny dla wiarygodnego oszacowania parametrów
- Oversampling, undersampling to metody zdezgenerowania niezbalansowanej próby
Budowa Modelu - Wybór Zmiennych
- Analiza jednowymiarowa (univariate analysis) ocenia indywidualny wpływ "risk driverów" na zmienną objaśnianą
- Outliers to wartości odstające, które różnią się od pozostałych
- Zmienne kategoryczne to zmienne opisowe, np. płeć, wykształcenie, zawód
- gotowe pakiety i funkcje do analizy danych to Dataframe.info(), Dataframe.describe(), Ydata profiling
Budowa Modelu - Działanie z Brakującymi Danymi
- Metody obsługi brakujących danych to usunięcie wartości, zastępowanie wartości
- LabelEncoder(), OneHotEncoder() są używane do obsługi zmiennych kategorycznych
- WoE (Weight of Evidence) jest stosowany do prezentacji riskdriverów
Budowa Modelu - Dobór Próby
- Standardowy sposób podziału próby to próba treningowa, próba testowa OOS (Out of sample), próba testowa OOT (Out of time)
- Próba treningowa to próba, na której modelarz tworzy model
- Próba testowa OOS składa się z tych samych okresów obserwacji, co próba treningowa
- Próba testowa OOT składa się z innych okresów, niż próba treningowa
Budowa Modelu - Wybór Modelu
- Modele regresji służą do określania wartości ciągłych
- Modele klasyfikacji służą do prognozowania lub klasyfikowania wartości dyskretnych
- Statystyki pomocne w ramach tej analizy to GINI, KS (Kolmogorov-Smirnoff), IV (Information Value)
Budowa Modelu - Wybór Zmiennych
- Analiza wielowymiarowa (multivariate analysis) ocenia, które zmienne mogą, a które nie powinny występować obok siebie w finalnym modelu
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Test your knowledge on well-known regression and classification algorithms in machine learning. Explore linear regression, support vector machines, decision trees, random forests, logistic regression, and more.