Wykład_2 PDF

Statystyczne Reguły Decyzyjne Modele klasyfikacyjne, wstęp do uczenia nadzorowanego Mateusz Zawisza 1 Agenda 2. wykładu 1. Definicja analizowanych danych 2. Model regresji liniowej 3. Model regresji logistycznej 4. Optymalny próg odcięcia 5. Wybór optymalnego modelu za pomocą podziału danych na trzy zbioru: treningowy, walidacyjny i testowy SOA, MBA, 2008 2 Zgromadzone dane ◼ Dane tabelaryczne: K ◼ Wiersze: kolejne obserwacje (𝑖 = 1 … 𝑁) 𝒚𝒊 - czy ◼ Kolumny: 𝒙𝒌 - spłacił i 𝒙𝟏 - rating 𝒙𝟐 - zawód … zarobki kredyt ◼ zmienne objaśniające (𝒙𝟏 , … , 𝒙𝑲 ) ◼ zmienna prognozowana 1A Nauczyciel … 4 000 1 (𝒚)+ Braki danych 2 C+ Polityk … 10 000 0 N 3B Hydraulik … 8 000 1 … … … …… … 𝑁 A+ Ekonomista … N/A 0 SRD, SGH 3 Zgromadzone dane ◼ Dane tabelaryczne: K ◼ Wiersze: kolejne obserwacje (𝑖 = 1 … 𝑁) 𝒚𝒊 - czy ◼ Kolumny: 𝒙𝒌 - spłacił i 𝒙𝟏 - rating 𝒙𝟐 - zawód … zarobki kredyt ◼ zmienne objaśniające (𝒙𝟏 , … , 𝒙𝑲 ) ◼ zmienna prognozowana 1A Nauczyciel … 4 000 1 (𝒚) 2 C+ Polityk … 10 000 0 ◼ Typy danych: N ◼ Nominalne – skończona 3B Hydraulik … 8 000 1 liczba wartości, w tym: … … … …… … ◼ Binarne (2 wartości) ◼ Porządkowe 𝑁 A+ Ekonomista … N/A 0 ◼ Ciągłe Typ: Nominalna Nominalna Ciągła Nominalna porządkowa binarna + Braki danych SRD, SGH 4 Regresja liniowa ◼ Standardowa liniowa postać funkcyjna: 𝑓 𝒙𝟏 , … , 𝒙𝑲 = 𝛼0 + 𝛼1 𝒙𝟏 + ⋯ + 𝛼𝐾 𝒙𝒌 + 𝝐 SRD, SGH 5 Regresja liniowa ◼ Standardowa liniowa postać funkcyjna: 𝑓 𝒙𝟏 , … , 𝒙𝑲 = 𝛼0 + 𝛼1 𝒙𝟏 + ⋯ + 𝛼𝐾 𝒙𝒌 + 𝝐 ◼ Funkcja 𝑓(𝑋) może być dowolna i niekoniecznie liniowa, np. 𝑓 𝑿 = e 𝛼0 +𝛼1 𝒙𝟏 +⋯+𝛼𝐾 𝒙𝑲 +𝝐 SRD, SGH 6 Regresja liniowa ◼ Standardowa liniowa postać funkcyjna: 𝑓 𝒙𝟏 , … , 𝒙𝑲 = 𝛼0 + 𝛼1 𝒙𝟏 + ⋯ + 𝛼𝐾 𝒙𝒌 + 𝝐 ◼ Funkcja 𝑓(𝑋) może być dowolna i niekoniecznie liniowa, np. 𝑓 𝑿 = e 𝛼0 +𝛼1 𝒙𝟏 +⋯+𝛼𝐾 𝒙𝑲 +𝝐 ◼ Wyznaczania parametrów na podstawie N- elementowego zbioru uczącego/treningowego Metodą Najmniejszych Kwadratów (MNK) polega na wyborze takich parametrów, które minimalizują sumę kwadratów błędów: 𝑁 2 ෝ 𝑴𝑵𝑲 = argmin𝛼 ෍ 𝑦𝑖 − 𝑓 𝜶 𝑥1𝑖 , … , 𝑥𝐾𝑖 𝑖=1 SRD, SGH 7 Regresja liniowa ma zaletę łatwej interpretacji dla odbiorcy biznesowego 𝑆𝑎𝑙𝑒𝑠𝑡 = 𝛼0 + 𝛼1 × 𝑇𝑉𝑡 𝜶𝟏 ≈ 𝟎, 𝟎𝟓 𝜶𝟎 Źródło: Gareth J., et al. (2023), An Introduction to Statistical Learning with Applications in Python (https://www.statlearning.com/) 8 Regresja liniowa ma zaletę łatwej interpretacji dla odbiorcy biznesowego 𝑆𝑎𝑙𝑒𝑠𝑡 = 𝛼0 + 𝛼1 × 𝑇𝑉𝑡 Np. 𝛼1 = 0,05 oznacza, że wzrost wydatków na TV (𝑇𝑉) o 100 j.p powoduje średni wzrost sprzedaży (𝑠𝑎𝑙𝑒𝑠) o 5 (= 100 × 𝛼1 = 100 × 0,05) j.p., ceteris paribus 𝜶𝟏 ≈ 𝟎, 𝟎𝟓 𝜶𝟎 Źródło: Gareth J., et al. (2023), An Introduction to Statistical Learning with Applications in Python (https://www.statlearning.com/) 9 Regresja liniowa ma zaletę łatwej interpretacji dla odbiorcy biznesowego 𝑆𝑎𝑙𝑒𝑠𝑡 = 𝛼0 + 𝛼1 × 𝑇𝑉𝑡 Np. 𝛼1 = 0,05 oznacza, że wzrost wydatków na TV (𝑇𝑉) o 100 j.p powoduje średni wzrost sprzedaży (𝑠𝑎𝑙𝑒𝑠) o 5 (= 100 × 𝛼1 = 100 × 0,05) j.p., ceteris paribus Np. 𝛼0 = 7 interpretuje się jako 𝜶𝟏 ≈ 𝟎, 𝟎𝟓 oczekiwany (średni) poziom sprzedaży (𝑠𝑎𝑙𝑒𝑠) przy zerowych wydatkach marketingowych na 𝜶𝟎 TV (𝑇𝑉 = 0) – Nie zawsze taka interepretacja ma sens, gdy nie ma sensu zerowa wartość zmiennej objąśnianej Źródło: Gareth J., et al. (2023), An Introduction to Statistical Learning with Applications in Python (https://www.statlearning.com/) 10 Regresja liniowa dla 2 zmiennych objaśniając. nie jest już linią a jest płaszczyzną Szacowane równanie: 𝐼𝑛𝑐𝑜𝑚𝑒𝑖 = 𝛼0 + 𝛼1 𝑌𝑟𝑠𝑂𝑓𝐸𝑑𝑢𝑐𝑖 + 𝛼2 𝐴𝑔𝑒𝑖 Źródło: Gareth J., et al. (2023), An Introduction to Statistical Learning with Applications in Python (https://www.statlearning.com/) 11 Regresja liniowa dla 2 zmiennych objaśniając. nie jest już linią a jest płaszczyzną Szacowane równanie: 𝐼𝑛𝑐𝑜𝑚𝑒𝑖 = 𝛼0 + 𝛼1 𝑌𝑟𝑠𝑂𝑓𝐸𝑑𝑢𝑐𝑖 + 𝛼2 𝐴𝑔𝑒𝑖 Prostota interpretacji zostaje zachowana także dla 𝐾 = 2 i większej liczby zmiennych objaśniających (𝑋) Źródło: Gareth J., et al. (2023), An Introduction to Statistical Learning with Applications in Python (https://www.statlearning.com/) 12 Regresja liniowa dla 2 zmiennych objaśniając. nie jest już linią a jest płaszczyzną Szacowane równanie: 𝐼𝑛𝑐𝑜𝑚𝑒𝑖 = 𝛼0 + 𝛼1 𝑌𝑟𝑠𝑂𝑓𝐸𝑑𝑢𝑐𝑖 + 𝛼2 𝐴𝑔𝑒𝑖 Prostota interpretacji zostaje zachowana także dla 𝐾 = 2 i większej liczby zmiennych objaśniających (𝑋) W przypadku większej liczby zmiennych objaśniających niż 𝐾 > 2, tj. 𝐾 = 3 i więcej, model regresji liniowej geometrycznie jest reprezentowany przez hiperpłaszczyznę Źródło: Gareth J., et al. (2023), An Introduction to Statistical Learning with Applications in Python (https://www.statlearning.com/) 13 Regresja liniowa dla 2 zmiennych objaśniając. nie jest już linią a jest płaszczyzną Szacowane równanie: 𝐼𝑛𝑐𝑜𝑚𝑒𝑖 = 𝛼0 + 𝛼1 𝑌𝑟𝑠𝑂𝑓𝐸𝑑𝑢𝑐𝑖 + 𝛼2 𝐴𝑔𝑒𝑖 Prostota interpretacji zostaje zachowana także dla 𝐾 = 2 i większej liczby zmiennych objaśniających (𝑋) W przypadku większej liczby zmiennych objaśniających niż 𝐾 > 2, tj. 𝐾 = 3 i więcej, model regresji liniowej geometrycznie jest reprezentowany przez hiperpłaszczyznę Metodę MNK uczenia się modelu https://mlu-explain.github.io/linear-regression/ przedstawiono tutaj: https://mlu- https://mlu-explain.github.io/linear-regression/ Źródło: Gareth J., et al. (2023), An Introduction to Statistical explain.github.io/linear- https://mlu-explain.github.io/linear-regression/ Learning with Applications in Python regression/ (https://www.statlearning.com/) 14 Regresja logistyczna (1) ◼ Standardowa postać funkcyjna ◼ Funkcja wiążąca: g ( X) = a0 + a1 X 1 +  + an X n exp ( g ( X) ) ◼ Prawdopodobieństwo: f ( X) = 1 + exp ( g ( X) ) SRD, SGH 15 Regresja logistyczna (1) ◼ Standardowa postać funkcyjna ◼ Funkcja wiążąca: g ( X) = a0 + a1 X 1 +  + an X n exp ( g ( X) ) ◼ Prawdopodobieństwo: f ( X) = 1 + exp ( g ( X) ) ◼ Sposób wyznaczania parametrów na podstawie n-elementowego zbioru uczącego Metodą Największej Wiarygodności (MNW): n  a = arg max  yi ln ( f ( X) ) + (1 − yi ) ln (1 − f ( X) ) a  i =1  SRD, SGH 16 Regresja logistyczna (1) ◼ Standardowa postać funkcyjna ◼ Funkcja wiążąca: g ( X) = a0 + a1 X 1 +  + an X n exp ( g ( X) ) ◼ Prawdopodobieństwo: f ( X) = 1 + exp ( g ( X) ) ◼ Sposób wyznaczania parametrów na podstawie n-elementowego zbioru uczącego Metodą Największej Wiarygodności (MNW): n  a = arg max  yi ln ( f ( X) ) + (1 − yi ) ln (1 − f ( X) ) a  i =1  ◼ MNW została ciekawie zwizualizowana tutaj SRD, SGH 17 Regresja logistyczna (2) ◼ Prawdopodobieństwo 𝑓(𝑿) w przedziale 𝟎, 𝟏 , bo: 𝑒𝑥 ◼ ‫ 𝑅∈𝑥ٿ‬1+𝑒 𝑥 ∈ (0,1) SRD, SGH 18 Regresja logistyczna (2) ◼ Prawdopodobieństwo 𝑓(𝑿) w przedziale 𝟎, 𝟏 , bo: 𝑒𝑥 ◼ ‫ 𝑅∈𝑥ٿ‬1+𝑒 𝑥 ∈ (0,1) ◼ Logarytm ilorazu szans (ang. log-odds ratio, logit) jest równy funkcji wiążącej g(X):  f ( X)  ln   = g ( X) ∈ (−∞, ∞)  1 − f ( X)  SRD, SGH 19 Regresja logistyczna (2) ◼ Prawdopodobieństwo 𝑓(𝑿) w przedziale 𝟎, 𝟏 , bo: 𝑒𝑥 ◼ ‫ 𝑅∈𝑥ٿ‬1+𝑒 𝑥 ∈ (0,1) ◼ Logarytm ilorazu szans (ang. log-odds ratio, logit) jest równy funkcji wiążącej g(X):  f ( X)  ln   = g ( X) ∈ (−∞, ∞)  1 − f ( X)  ◼ Zastosowana w regresji logistycznej funkcja wiążąca 𝑔 𝑿 zakłada rozkład logistyczny dla składnika losowego (reszt) ◼ Probit jest podobnym modelem zakładającym standardowy rozkład normalny dla składnika losowego SRD, SGH 20 Regresja logistyczna (2) ◼ Prawdopodobieństwo 𝑓(𝑿) w przedziale 𝟎, 𝟏 , bo: 𝑒𝑥 ◼ ‫ 𝑅∈𝑥ٿ‬1+𝑒 𝑥 ∈ (0,1) ◼ Logarytm ilorazu szans (ang. log-odds ratio, logit) jest równy funkcji wiążącej g(X):  f ( X)  ln   = g ( X) ∈ (−∞, ∞)  1 − f ( X)  ◼ Zastosowana w regresji logistycznej funkcja wiążąca 𝑔 𝑿 zakłada rozkład logistyczny dla składnika losowego (reszt) ◼ Probit jest podobnym modelem zakładającym standardowy rozkład normalny dla składnika losowego ◼ Regresja logistyczna i Probit należą do bogatej rodziny Uogólnionych Modeli Liniowych (ang. GLM – Generalized Linear Models), np. ◼ model Poissona do zmiennej licznikowej, np. liczby wypadków SRD, SGH 21 Prawdopodobieństwo bankructwa można prognozowac modelem liniowym jak i regresją logistyczną Popularnym zastosowaniem klasyfikacji i prognozy zmiennej binarnej jest Credit Scoring i predykcja prawdopodobieństwa niespłacenia kredytu PD – ang. Probability of Default Źródło: Gareth J., et al. (2023), An Introduction to Statistical Learning with Applications in Python ( https://www.statlearning.com/)22 Prawdopodobieństwo bankructwa można prognozowac modelem liniowym jak i regresją logistyczną Popularnym zastosowaniem A) Liniowy Model klasyfikacji i prognozy zmiennej binarnej jest Credit Scoring i Prawdopodobieństwa predykcja prawdopodobieństwa niespłacenia kredytu PD – ang. Probability of Default A) Liniowy Model prawdopodobieństwa: – Prognozy spoza przedziału 0%-100% – Efekty krańcowe (tj. nachylenie krzywej) są stałe Źródło: Gareth J., et al. (2023), An Introduction to Statistical Learning with Applications in Python ( https://www.statlearning.com/)23 Prawdopodobieństwo bankructwa można prognozowac modelem liniowym jak i regresją logistyczną Popularnym zastosowaniem A) Liniowy Model klasyfikacji i prognozy zmiennej binarnej jest Credit Scoring i Prawdopodobieństwa predykcja prawdopodobieństwa niespłacenia kredytu PD – ang. Probability of Default A) Liniowy Model prawdopodobieństwa: – Prognozy spoza przedziału 0%-100% – Efekty krańcowe (tj. nachylenie krzywej) są stałe B) Regresja B) Regresja Logistyczna: Logistyczna – Prognozy prawdopodobieństwa zawsze w przedziale (0%; 100%) – Efekty krańcowe (tj. nachylenie krzywej) największe dla wartości średnich X’ów i najmniejsze „na początku” i „na końcu” Źródło: Gareth J., et al. (2023), An Introduction to Statistical Learning with Applications in Python ( https://www.statlearning.com/)24 Pierwszy raz masz styczność z regresją liniową i logistyczną lub nigdy ich do końca nie zrozumiałeś? 25 Pierwszy raz masz styczność z regresją liniową i logistyczną lub nigdy ich do końca nie rozumiałeś? Zrób prezent swojej karierze data scientisty i poświęć 30 min na każdą metodę poprzez zapoznanie się: 26 Pierwszy raz masz styczność z regresją liniową i logistyczną lub nigdy ich do końca nie rozumiałeś? Zrób prezent swojej karierze data scientisty i poświęć 30 min na każdą metodę poprzez zapoznanie się: Dla regresji liniowej z: – Rozdziałem 3. z naszego podręcznika: https://www.statlearning.com/ – Video materiałem – https://mlu- explain.github.io/linear- regression/ Dla regresji logistycznej: – Rozdziałem 4. z naszego podręcznika: https://www.statlearning.com/ – Video materiałem 27 Zagadnienie klasyfikacji binarnej ◼ Typ zmiennej objaśnianej (Y): binarna, np. spłacanie kredytu SRD, SGH 28 Zagadnienie klasyfikacji binarnej ◼ Typ zmiennej objaśnianej (Y): binarna, np. spłacanie kredytu ◼ Szukamy dowolnej funkcji/modelu f(X) takiej, że: f (X1 )  f (X2 )  Pr(Y1 = 1)  Pr(Y2 = 1) ◼ Tj. model przypisuje wyższą wartość 𝒇(𝑿) (ang. score) dla obserwacji o wyższym prawdopodobieństwie, a więc model dobrze sortuje obserwacje ze względu na prawdopodobieństwo, nawet jeśli nie zwraca prognoz dających się tak intepretować, np. LMP, ale zazwyczaj tak jest SRD, SGH 29 Zagadnienie klasyfikacji binarnej ◼ Typ zmiennej objaśnianej (Y): binarna, np. spłacanie kredytu ◼ Szukamy dowolnej funkcji/modelu f(X) takiej, że: f (X1 )  f (X2 )  Pr(Y1 = 1)  Pr(Y2 = 1) ◼ Tj. model przypisuje wyższą wartość 𝒇(𝑿) (ang. score) dla obserwacji o wyższym prawdopodobieństwie, a więc model dobrze sortuje obserwacje ze względu na prawdopodobieństwo, nawet jeśli nie zwraca prognoz dających się tak intepretować, np. LMP, ale zazwyczaj tak jest ◼ Przykłady takich modeli, które omawiamy na SRD: ◼ Liniowy Model Prawdopodobieństwa / Regresja liniowa ◼ Regresja logistyczna ◼ K-najbliższych sąsiadów (ang. K-nn – k-nearest neighbours) ◼ Drzewo klasyfikacyjne (ang. CART – Classification and regression Tree) ◼ Las losowy Już omówione SRD, SGH 30 Wyznaczanie klasyfikacji / decyzji ◼ Czasem (< 5%) uporządkowanie obserwacji wystarcza … … ale zazwyczaj (> 𝟗𝟓%) potrzebujemy dostać decyzję klasyfikacyjną (0 lub 1) SRD, SGH 31 Wyznaczanie klasyfikacji / decyzji ◼ Czasem (< 5%) uporządkowanie obserwacji wystarcza … … ale zazwyczaj (> 𝟗𝟓%) potrzebujemy dostać decyzję klasyfikacyjną (0 lub 1) ◼ Macierz błędów / tablica pomyłek: 𝑌 = 1 𝑌 = 0 𝑌෠ = 𝟏[𝑓 𝑿 >𝑇] =1 n11 (OK) n10 (błąd) 𝑌෠ = 𝟏[𝑓 𝑿 ≤𝑇] =0 n01 (błąd) n00 (OK) ◼ Nietrafiona nazwa, bo połowa macierzy to nie błędy SRD, SGH 32 Wyznaczanie klasyfikacji / decyzji ◼ Czasem (< 5%) uporządkowanie obserwacji wystarcza … … ale zazwyczaj (> 𝟗𝟓%) potrzebujemy dostać decyzję klasyfikacyjną (0 lub 1) ◼ Macierz błędów / tablica pomyłek: 𝑌 = 1 𝑌 = 0 𝑌෠ = 𝟏[𝑓 𝑿 >𝑇] =1 n11 (OK) n10 (błąd) 𝑌෠ = 𝟏[𝑓 𝑿 ≤𝑇] =0 n01 (błąd) n00 (OK) ◼ Nietrafiona nazwa, bo połowa macierzy to nie błędy ◼ T nazywane jest progiem odcięcia (ang. threshold) SRD, SGH 33 Wybór progu odcięcia (1) 𝑌 = 1 𝑌 = 0 𝑌෠ = 𝟏[𝑓 𝑿 >𝑇] =1 n11 (OK) n10 (błąd) 𝑌෠ = 𝟏[𝑓 𝑿 ≤𝑇] =0 n01 (błąd) n00 (OK) Własności: o 𝑑𝐸(𝑛11)/𝑑𝑇 = −𝑑𝐸(𝑛01)/𝑑𝑇 < 0 o Wzrost T powoduje spadek n11 na rzecz n01, w ten sposób, że suma w kolumnie jest stała, tj. 𝑛11 + 𝑛01 = 𝑐𝑜𝑛𝑠𝑡. SRD, SGH 34 Wybór progu odcięcia (1) 𝑌 = 1 𝑌 = 0 𝑌෠ = 𝟏[𝑓 𝑿 >𝑇] =1 n11 (OK) n10 (błąd) 𝑌෠ = 𝟏[𝑓 𝑿 ≤𝑇] =0 n01 (błąd) n00 (OK) Własności: o 𝑑𝐸(𝑛11)/𝑑𝑇 = −𝑑𝐸(𝑛01)/𝑑𝑇 < 0 o Wzrost T powoduje spadek n11 na rzecz n01, w ten sposób, że suma w kolumnie jest stała, tj. 𝑛11 + 𝑛01 = 𝑐𝑜𝑛𝑠𝑡. o 𝑑𝐸(𝑛10)/𝑑𝑇 = −𝑑𝐸(𝑛00)/𝑑𝑇 < 0 o Wzrost T powoduje spadek n10 na rzecz n00, w ten sposób, że suma w kolumnie jest stała, tj. 𝑛10 + 𝑛00 = 𝑐𝑜𝑛𝑠𝑡. SRD, SGH 35 Wybór progu odcięcia (2) Macierz zysku (ang. profit matrix): 𝑌 = 1 𝑌 = 0 𝑌෠ = 𝟏[𝑓 𝑿 >𝑇] =1 𝑒11 𝑒10 𝑌෠ = 𝟏[𝑓 𝑿 ≤𝑇] =0 𝑒01 𝑒00 SRD, SGH 36 Wybór progu odcięcia (2) Macierz zysku (ang. profit matrix): 𝑌 = 1 𝑌 = 0 𝑌෠ = 𝟏[𝑓 𝑿 >𝑇] =1 𝑒11 𝑒10 𝑌෠ = 𝟏[𝑓 𝑿 ≤𝑇] =0 𝑒01 𝑒00 Kryterium oceny modelu: oczekiwany zysk/koszt!!! SRD, SGH 37 Wybór progu odcięcia (2) Macierz zysku (ang. profit matrix): 𝑌 = 1 𝑌 = 0 𝑌෠ = 𝟏[𝑓 𝑿 >𝑇] =1 𝑒11 𝑒10 𝑌෠ = 𝟏[𝑓 𝑿 ≤𝑇] =0 𝑒01 𝑒00 Kryterium oceny modelu: oczekiwany zysk/koszt!!! Cel: 𝐸 𝑛11 ∗ 𝑒11 + 𝐸 𝑛01 ∗ 𝑒01 + 𝐸 𝑛10 ∗ 𝑒10 + 𝐸 𝑛00 ∗ 𝑒00 → max SRD, SGH 38 Wybór progu odcięcia (2) Macierz zysku (ang. profit matrix): 𝑌 = 1 𝑌 = 0 𝑌෠ = 𝟏[𝑓 𝑿 >𝑇] =1 𝑒11 𝑒10 𝑌෠ = 𝟏[𝑓 𝑿 ≤𝑇] =0 𝑒01 𝑒00 Kryterium oceny modelu: oczekiwany zysk/koszt!!! Cel: 𝐸 𝑛11 ∗ 𝑒11 + 𝐸 𝑛01 ∗ 𝑒01 + 𝐸 𝑛10 ∗ 𝑒10 + 𝐸 𝑛00 ∗ 𝑒00 → max Własność w optimum: (𝑑𝐸(𝑛01)/𝑑𝑇) / (𝑑𝐸(𝑛00)/ 𝑑𝑇) = (𝑒00 − 𝑒10)/ (𝑒11 − 𝑒01) – Wniosek: W wyborze optymalnego 𝑻 istotna jest wartość relatywnego kosztu błędów SRD, SGH 39 Przykład (3) T – próg odcięcia SRD, SGH 40 Przykład (3) Wybór progu odcięcia (T) ma największy wpływ na wartość biznesową modelu a nie np. tuning hiperparametrów. Domyślny próg 50% praktycznie nigdy nie jest optymalny. T – próg odcięcia SRD, SGH 41 Dedykowany Excel ‘MacierzKosztu.xlsx’ Poeksperymentuj z Excelem i sprawdź sam, jak zmiana macierzy kosztu wpływa na optymalny próg odcięcia 42 Ale jak to zrobić w praktyce? Dwa problemy: ◼ Jak stwierdzić, czy model dobrze prognozuje? ◼ Jak wybrać czy lepsza jest specyfikacja MNK czy logistyczna i jakie zmienne powinny być w modelu? SRD, SGH 43 Który model jest najlepszy? Dane uczące SRD, SGH 44 Który model jest najlepszy? t Prosty y x Dane uczące SRD, SGH 45 Który model jest najlepszy? t Prosty y x Dane uczące Pośredni SRD, SGH 46 Który model jest najlepszy? t Prosty y x Dane uczące Pośredni Złożony SRD, SGH 47 Który model jest najlepszy? Minimalizacja błędu uczenia t Prosty Pośredni Złożony y x SRD, SGH 48 Który model jest najlepszy? Minimalizacja błędu uczenia (liczonego na zbiorze treningowym) t Prosty Pośredni Złożony y x Minimalizacja błędu prognozy (liczonego na niezależnym zbiorze) Prosty Pośredni Złożony SRD, SGH 49 Podejście – podział danych na trzy zbiory 2 Generuj modele Model 1 kandydatów Estymacja Model 2 1 Podziel Model 3 Dane Podział Walidacja historyczne 3 Oceń modele - wybierz najmniejszy szacowany błąd prognozy Testowanie SRD, SGH 50 Podejście – podział danych na trzy zbiory 2 Generuj modele Model 1 kandydatów Estymacja Model 2 1 Podziel Model 3 Dane Podział Walidacja historyczne 3 Oceń modele - wybierz najmniejszy szacowany błąd prognozy Testowanie Dodatkowa wizualizacja podejścia podziału na trzy zbioru tutaj SRD, SGH 51 Skutki pominięcia zbioru walidacyjnego ◼ Y: binarna zmienna objaśniana ◼ X1, X2, X3, X4: losowe zmienne objaśniające niezależne między sobą; ze zmienną objaśnianą związana tylko zmienna X1 SRD, SGH 52 Skutki pominięcia zbioru walidacyjnego ◼ Y: binarna zmienna objaśniana ◼ X1, X2, X3, X4: losowe zmienne objaśniające niezależne między sobą; ze zmienną objaśnianą związana tylko zmienna X1 ◼ Na zbiorze uczącym zrobiłem 4 modele MNK, gdzie za każdym razem dodawałem kolejną jedną zmienną objaśniającą Model Uczący Walidacyjny Testowy Stała+X1 64 Stała+X1-X2 65 Stała+X1-X3 65 Stała+X1-X4 66 SRD, SGH 53 Skutki pominięcia zbioru walidacyjnego ◼ Y: binarna zmienna objaśniana ◼ X1, X2, X3, X4: losowe zmienne objaśniające niezależne między sobą; ze zmienną objaśnianą związana tylko zmienna X1 ◼ Na zbiorze uczącym zrobiłem 4 modele MNK, gdzie za każdym razem dodawałem kolejną jedną zmienną objaśniającą ◼ Wybrałem model o największej liczbie poprawnych klasyfikacji na zbiorze uczącym Model Uczący Walidacyjny Testowy Stała+X1 64 Stała+X1-X2 65 Stała+X1-X3 65 Stała+X1-X4 66 SRD, SGH 54 Skutki pominięcia zbioru walidacyjnego ◼ Y: binarna zmienna objaśniana ◼ X1, X2, X3, X4: losowe zmienne objaśniające niezależne między sobą; ze zmienną objaśnianą związana tylko zmienna X1 Nie mamy podstaw do wyboru ◼ Na zbiorze uczącym zrobiłem 4 modele MNK, gdzie za każdym razem dodawałemnajlepszej specyfikacji kolejną jedną zmienną modelu objaśniającą ◼ Wybrałem model o największej liczbie poprawnych klasyfikacji na zbiorze uczącym Model Uczący Walidacyjny Testowy Stała+X1 64 Stała+X1-X2 65 Stała+X1-X3 65 Stała+X1-X4 66 SRD, SGH 55 Skutki pominięcia zbioru walidacyjnego ◼ Y: binarna zmienna objaśniana ◼ X1, X2, X3, X4: losowe zmienne objaśniające niezależne między sobą; ze zmienną objaśnianą związana tylko zmienna X1 Dopiero zbiór walidacyjny daję ◼ Na zbiorze uczącym zrobiłem 4 modele MNK, gdzie za każdym razem dodawałem podstawę do wyboru kolejną jedną zmienną modelu objaśniającą ◼ Wybrałem model o największej liczbie poprawnych klasyfikacji na zbiorze uczącym Model Uczący Walidacyjny Testowy Stała+X1 64 64 Stała+X1-X2 65 62 Stała+X1-X3 65 62 Stała+X1-X4 66 62 SRD, SGH 56 Skutki pominięcia zbioru testowego ◼ Y: binarna zmienna objaśniana ◼ X1, X2, … , X100: losowe zmienne objaśniające niezależne między sobą i ze zmienną objaśnianą SRD, SGH 57 Skutki pominięcia zbioru testowego ◼ Y: binarna zmienna objaśniana ◼ X1, X2, … , X100: losowe zmienne objaśniające niezależne między sobą i ze zmienną objaśnianą ◼ Na zbiorze uczącym zrobiłem 100 modeli MNK, gdzie za każdym razem dobierałem jedną zmienną objaśniającą SRD, SGH 58 Skutki pominięcia zbioru testowego ◼ Y: binarna zmienna objaśniana ◼ X1, X2, … , X100: losowe zmienne objaśniające niezależne między sobą i ze zmienną objaśnianą ◼ Na zbiorze uczącym zrobiłem 100 modeli MNK, gdzie za każdym razem dobierałem jedną zmienną objaśniającą ◼ Wybrałem model o największej liczbie poprawnych klasyfikacji na zbiorze walidacyjnym SRD, SGH 59 Skutki pominięcia zbioru testowego ◼ Y: binarna zmienna objaśniana ◼ X1, X2, … , X100: losowe zmienne objaśniające niezależne między sobą i ze zmienną objaśnianą ◼ Na zbiorze uczącym zrobiłem 100 modeli MNK, gdzie za każdym razem dobierałem jedną zmienną objaśniającą ◼ Wybrałem model o największej liczbie poprawnych klasyfikacji na zbiorze walidacyjnym Cztery najlepsze wyniki na zbiorze walidacyjnym (poprawny wynik to 50) Model Uczący Walidacyjny Testowy Najlepszy 57 66 Drugi 54 65 Trzeci 50 64 Trzeci 50 64 SRD, SGH 60 Skutki pominięcia zbioru testowego ◼ Y: binarna zmienna objaśniana ◼ X1, X2, … , X100: losowe zmienne objaśniające niezależne między sobą i Nie mamy podstaw do oceny ze zmienną objaśnianą ◼ Na zbiorze zdolności uczącym zrobiłem 100 modeli MNK, predykcyjnej gdzie za każdym razem modelu, dobierałem jedną zmienną objaśniającą ◼ bo 66 to znacznie ponad 50 Wybrałem model o największej liczbie poprawnych klasyfikacji na zbiorze walidacyjnym Cztery najlepsze wyniki na zbiorze walidacyjnym (poprawny wynik to 50) Model Uczący Walidacyjny Testowy Najlepszy 57 66 Drugi 54 65 Trzeci 50 64 Trzeci 50 64 SRD, SGH 61 Skutki pominięcia zbioru testowego ◼ Y: binarna zmienna objaśniana ◼ X1, X2, … , X100: losowe zmienne objaśniające niezależne między sobą i Dopiero zbiór testowy daję ze zmienną objaśnianą ◼ Na zbiorze uczącym zrobiłem podstawę do100nieobciążonego modeli MNK, gdzie za każdym razem dobierałem jedną zmienną objaśniającą ◼ szacunku błędu Wybrałem model o największej liczbie poprawnych klasyfikacji na zbiorze walidacyjnym Cztery najlepsze wyniki na zbiorze walidacyjnym (poprawny wynik to 50) Model Uczący Walidacyjny Testowy Najlepszy 57 66 52 Drugi 54 65 Trzeci 50 64 Trzeci 50 64 SRD, SGH 62 Inny przykład ilustrujący potrzebę zbioru testowego Załóżmy, że prognozujemy wynik rzutu monetą, tj. Albo orzeł (O) albo reszka (R ) 63 Inny przykład ilustrujący potrzebę zbioru testowego Załóżmy, że prognozujemy wynik rzutu monetą, tj. Albo orzeł (O) albo reszka (R ) Dysponujemy tysiącami modeli generującymi losowy ciąg reszek i orłów (każdy z definicjij ma trafność 50%) 64 Inny przykład ilustrujący potrzebę zbioru testowego Załóżmy, że prognozujemy wynik rzutu monetą, tj. Albo orzeł (O) albo reszka (R ) Dysponujemy tysiącami modeli generującymi losowy ciąg reszek i orłów (każdy z definicjij ma trafność 50%) Zbiór walidacyjny jest cztero elementowy, np. {R, O, R, O} 65 Inny przykład ilustrujący potrzebę zbioru testowego Załóżmy, że prognozujemy wynik rzutu monetą, tj. Albo orzeł (O) albo reszka (R ) Dysponujemy tysiącami modeli generującymi losowy ciąg reszek i orłów (każdy z definicjij ma trafność 50%) Zbiór walidacyjny jest cztero elementowy, np. {R, O, R, O} Tak się składa, że wśród tysięcy modeli znalazł się przynajmniej jeden, który idealnie to zaprognozował i na zbiorze walidacyjnym osiągnął 100% trafność Ten model został wybrany i wdrożony na produkcję 66 Inny przykład ilustrujący potrzebę zbioru testowego Załóżmy, że prognozujemy wynik rzutu monetą, tj. Albo orzeł (O) albo reszka (R ) Dysponujemy tysiącami modeli generującymi losowy ciąg reszek i orłów (każdy z definicjij ma trafność 50%) Zbiór walidacyjny jest cztero elementowy, np. {R, O, R, O} Tak się składa, że wśród tysięcy modeli znalazł się przynajmniej jeden, który idealnie to zaprognozował i na zbiorze walidacyjnym osiągnął 100% trafność Ten model został wybrany i wdrożony na produkcję Czy na produkcji też możemy się spodziewać 100% trafności? 67 Inny przykład ilustrujący potrzebę zbioru testowego Załóżmy, że prognozujemy wynik rzutu monetą, tj. Albo orzeł (O) albo reszka (R ) Dysponujemy tysiącami modeli generującymi losowy ciąg reszek i orłów (każdy z definicjij ma trafność 50%) Zbiór walidacyjny jest cztero elementowy, np. {R, O, R, O} Tak się składa, że wśród tysięcy modeli znalazł się przynajmniej jeden, który idealnie to zaprognozował i na zbiorze walidacyjnym osiągnął 100% trafność Ten model został wybrany i wdrożony na produkcję Czy na produkcji też możemy się spodziewać 100% trafności? Nie, bo do poprawnego (nieobciążonego) oszacowania trafności potrzebny jest zbiór tesowy. 68

Document Details

Tags

Related

Summary

Full Transcript