Stat C Lesson 11 - Lecture Notes PDF
Document Details
Uploaded by StatuesqueUranus2111
Dr. Gabriel Zor
Tags
Summary
This document is a lecture on statistical methods for regression analysis including partial correlation and different types of multiple regression. It examines the contribution of independent variables to a prediction model. The lecture covers various concepts, such as the partial correlation, multiple correlation, and different regression methods.
Full Transcript
סטטיסטיקה ג' שיעור 11 ד“ר גבריאל צור סטטיסטיקה ג' מתאם חלקי ושיטות שונות ברגרסיה מרובה בדיקת תרומתם של המשתנים הב"ת למודל הניבוי ברגרסיה מרובה ...
סטטיסטיקה ג' שיעור 11 ד“ר גבריאל צור סטטיסטיקה ג' מתאם חלקי ושיטות שונות ברגרסיה מרובה בדיקת תרומתם של המשתנים הב"ת למודל הניבוי ברגרסיה מרובה סטטיסטיקה ג' שיעור 11 ד“ר גבריאל צור נושאי המצגת מטרת השיעור המתאם החלקי המתאם המרובה שיטות שונות לרגרסיה מרובה שיטת ENTER שיטת FORWARD שיטת BACKWARD שיטת STEPWISE סטטיסטיקה ג' -מטרת השיעור שיעור 11 מטרת השיעור ד“ר גבריאל צור בשיעור הקודם למדנו על רגרסיה מרובה -רגרסיה עם מספר משתנים ב"ת ( 2או יותר .)...x2 ,x1 - למשל ,ניבוי ממוצע שנה א' ( )Yעל-ידי שני משתנים ב"ת ציון הפסיכומטרי (~ )x1 וציון Y b1 x1 b2 x2 a ממוצע שנה א' ( - )Yמשתנה תלוי הבגרות (.)x2 (מנובא) Y בגרות ( - )x2משתנה ב"ת פסיכומטרי ( - )x1משתנה ב"ת (מנבא) x2 x1 (מנבא) בשיעור הנוכחי נלמד שיטות שונות לבדיקת התרומה הייחודית (המתאם החלקי) של כל משתנה ב"ת בניבוי המשתנה התלוי ,ונבחן אלו משתנים ב"ת יעילים יותר ו/או יעילים פחות במודל הניבוי הליניארי – במילים אחרות ,נבחן באלו משתנים ב"ת רצוי להשתמש במודל הניבוי ואלו משתנים רצוי שלא להשתמש. קודם נרענן חלקים רלוונטיים מהשיעורים הקודמים. -מתאם חלקי סטטיסטיקה ג' – ריענון שיעור 11 המתאם החלקי ד“ר גבריאל צור ברגרסיה פשוטה בה היה רק מנבא אחד ( ,)Xמקדם השיפוע ( - bמקדם הרגרסיה) היה פונקציה של מקדם המתאם פירסון בין המשתנים ( - )ryxמתאם פשוט. sy Y = bשיפוע קו b r sx r הרגרסיה x ברגרסיה מרובה בה יש יותר ממשתנה מנבא אחד ( ,)...x2 ,x1כבר לא ניתן להשתמש ישירות במתאם פירסון ( )ryxשהרי צריך להחזיק את המשתנים האחרים קבועים - במקרה זה משתמשים במתאם החלקי. הקשר הליניארי הקשר הליניארי Y הייחודי Y הייחודי Beta 2 rYx 2. x1 Beta1 rYx1. x 2 ) r(Yx 2 )r(Yx1 x2 x2 x1 x1 -מתאם חלקי סטטיסטיקה ג' – ריענון שיעור 11 ד“ר גבריאל צור המתאם החלקי בין ( 1xציון הפסיכומטרי) לבין ( yממוצע שנה א') כאשר ( 2xציון ממוצע שנה א' הבגרות) מוחזק קבוע מסומן כ.ryx1.x2 - ()Y Y הקשר הליניארי הייחודי Beta1 rYx1. x 2 בגרות x2 ()x2 x1 פסיכומטרי ()x1 כשם שבמשוואת הרגרסיה החד משתנית יש קשר פונקציונאלי בין המתאם ( )rלבין מקדם הרגרסיה ( )bכך גם ברגרסיה המרובה יש קשר פונקציונאלי בין המתאם החלקי ( )ryx1.x2לבין מקדם הרגרסיה החלקי ( ,b1או בשמו המלא יותר .)byx1.x2 המתאם החלקי מוגדר כמתאם פירסון בין החלקים של yושל 1xאשר אינם מנובאים ע"י - x 2כפי שמוצג איור למעלה. -מתאם חלקי סטטיסטיקה ג' – ריענון שיעור 11 ד“ר גבריאל צור ניכוי הקשר של משתנה ( 2xציון הבגרות) ,גם עם yוגם עם - 1x כלומר ,לאחר המתאם החלקי הוא מתאם פירסון בין מה שנשאר מ 1x -לבין מה שנשאר מ.y - Y הקשר הליניארי הייחודי Beta1 rYx1. x 2 x2 x1 ניתן להתייחס למתאם זה גם כמתאם בין 1xלבין yכאשר 2xמוחזק קבוע (מעבר להשתנות של .)2xהמתאם החלקי הוא למעשה השורש של פרופורציה השונות ב Y אשר מנובאת באופן ייחודי על ידי החזאי המתאים ,כאשר החזאי השני מוחזק קבוע. ברגרסיה מרובה מקדמי השיפוע ( - bמקדמי הרגרסיה) של המשתנים המנבאים מחושבים על סמך המתאמים החלקיים. -מתאם חלקי סטטיסטיקה ג' – ריענון שיעור 11 ד“ר גבריאל צור ברגרסיה פשוטה ,בדיקת השערת 0Hכי מקדם הרגרסיה של המנבא (היחיד) Bשווה לאפס באוכלוסייה ,זהה לחלוטין להשערת 0Hשתטען כי מתאם פירסון של מנבא זה עם המשתנה תלוי באוכלוסייה שווה אפס. H 0 : R( x , y ) BETA 0 H 0 : B 0 ברגרסיה מרובה ,בדיקת השערת 0Hכי מקדם הרגרסיה של מנבא כלשהו Bשווה לאפס באוכלוסייה ,זהה לחלוטין לבדיקת השערת 0Hשתטען כי המתאם החלקי של מנבא זה עם Yבאוכלוסייה שווה אפס (כלומר שהמתאם שלו עם Yכאשר שאר כל המנבאים מוחזקים קבועים שווה אפס). H 0 : R( yx1. x 2 ) BETA1 0 H 0 : B( yx1. x 2 ) B1 0 -המתאם המרובה סטטיסטיקה ג' – ריענון שיעור 11 המתאם המרובה ד“ר גבריאל צור ברגרסיה המרובה כבר איננו יכול להיות ריבועו של מתאם פירסון מאחר חישוב r 2 וישנם מספר מתאמים חלקיים ולא מתאם רגיל אחד. Y Y r x2 x1 x . r2 = SS[Reg] / SST נעשה ע"י חישוב r 2 או על ידי העלאה בריבוע של המתאם המרובה שהוא המתאם של Yעם כל המנבאים גם יחד: Y SS SS SS Y T Re g Re s ) 1 r(2Y. x1 x 2 SSRe s ) r(2Y. x1 x 2 ) S(2Y~. x1x 2 SS SSRe g r 2 ) ( Y. x1 x 2 Re g SY2 SST x2 x1 x2 x1 הערה :גם אם המתאם החלקי בין החזאים (או חלקם) לבין המשתנה התלוי הוא שלילי ,המתאם המרובה יקבל רק ערכים חיוביים. סטטיסטיקה ג' -שיטות שונות לרגרסיה מרובה שיעור 11 ד“ר גבריאל צור שיטות שונות לרגרסיה מרובה לשם הדגמת השיטות השונות נשתמש בנתונים האמיתיים של ( 118לניתוח נכנסו )107 סטודנטים להם הועברו שאלוני דיווח עצמי למדידת חרדה תכונתית ,שליטה ,חוללות עצמית, אופטימיות וצורך בקוגניציה.המתאם החלקי של משתנה מנבא מסוים (ומכאן גם מקדם האחרים במשוואה. המנבאים Descriptive השיפוע שלו) ,מחושב לאחר ניכוי החלק ממנו המנובא ע"י Statistics Std. N Minimum Maximum Mean Deviation Anxiety 117 1.15 4.30 2.4410 .67621 Control 118 2.50 4.55 3.5748 .39880 GSE 118 2.00 4.93 3.8467 .54064 Optimism 110 2.58 4.92 3.8971 .53868 NFC 115 1.33 4.67 3.5047 .54120 )Valid N (listwise 107 מערך המחקר: מנבאים ( )Yציון חרדה תכונתית ( )anxietyשל סטודנטים ממספר מנבאים: א.שליטה (control - (x1 ב.חוללות עצמית כללית (general self efficacy – GSE - (x2 ג.אופטימיות (optimism - (x3 ד.צורך בקוגניציה (need for cognition - NFC - (x4 סטטיסטיקה ג' -שיטות שונות לרגרסיה מרובה שיעור 11 ~ ד“ר גבריאל צור Y b1 x1 b2 x2 b3 x3 b4 x4 a משוואת הרגרסיה במקרה זה תיראה כך : לכל אחד מארבעת המנבאים יש מקדם רגרסיה חלקי משלו. כל אחד ממקדמי הרגרסיה החלקיים של המשתנים (ה ,)b-מייצג את השינוי הצפוי במשתנה התלוי ,Yכאשר המשתנה הבלתי תלוי משתנה ביחידה אחת ,וכאשר כל שאר המשתנים קבועים. מנבא מסוים (ומקדם השיפוע שלו) ,מחושב לאחר ניכוי חלק משתנהמוחזקים המתאםתלויים החלקי של הבלתי ממנו המנובא ע"י המנבאים האחרים. ככל שיהיו יותר מנבאים כך 2rיגדל או יישאר אותו הדבר.כך ,לאחר הכנסת שלושה מנבאים למודל ,יחושב המקדם של X4בניכוי המנבאים הקודמים.המתאם החלקי של X4עם Yשונה או שווה לאפס.אם המתאם החלקי שונה מאפס – 2rיגדל ,ואם הוא שווה לאפס 2r ,לא ישתנה (בלא קשר הכרחי לגודל המתאם הפשוט בין X4ל .)Yבעוד שערכו של 2rיכול רק לגדול עם הוספת משתנים בלתי תלויים ,הרי שכל הוספת משתנה בלתי תלוי גורמת לאיבוד של דרגות חופש של הטעות [) ]df(eששוות ל( N-k-1 :כאשר kשווה למספר החזאים).בדרך של 2rתהיה מזערית זו ,בעת חישוב ציון Fנצפה ,המכנה יהיה גדול יותר אם העלייה בערכו r 2 F( k , N 1 k ) k 2 ) (1 r לעומת הירידה במספר דרגות החופש. )(N 1 k ENTER - סטטיסטיקה ג' -שיטות שונות לרגרסיה מרובה שיעור 11 שיטת ENTER ד“ר גבריאל צור בשיטה זו ,שהיא ברירת המחדל של ,SPSSמכניס המחשב את כל המנבאים למשוואת הרגרסיה ללא קשר לתרומתם.להלן תוצאות רגרסיה בשיטת .enter Coefficientsa Unstandardized Standardized Coefficients Coefficients Model B Std. Error Beta t Sig. 1 )(Constant 7.182 .520 13.818 .000 Control -.244 .143 -.139 -1.703 .092 GSE -.163 .101 -.131 -1.622 .108 Optimism -.640 .098 -.510 -6.531 .000 NFC -.211 .097 -.164 -2.176 .032 a. Dependent Variable: Anxiety ומשוואת הרגרסיה היא: ~ Y 0.244 x1 0.163 x2 0.64 x3 0.211 x4 7.182 מקדמי הרגרסיה השליליים הם צפויים ,שכן עלייה של כל אחד מארבעת המנבאים שהם משתנים "חיוביים" אמורה להיות מלווה בירידה של המשתנה התלוי ה"שלילי" ENTER - שיטות שונות לרגרסיה מרובה- 'סטטיסטיקה ג Model Summary 11 שיעור ד“ר גבריאל צור Adjusted Std. Error of Model R R Square R Square the Estimate 1.712a.507.488.48353 a. Predictors: (Constant), NFC, GSE, Optimism, Control r(Y2.1234 ( המתאם המרובה בריבוע ) ) - 2 = 0.51 או,0.71 ארבעת המנבאים במודל הרגרסיה מצליחים לנבא מתאם מרובה של מנובאת ע"י כלBA )Y( - מהשונות הכללית של ציון ה51% כלומר.)מובהק סטטיסטיתr.ארבעת המנבאים ANOVAb Sum of Model Squares df Mean Square F Sig. 1 Regression 24.528 4 6.132 26.227.000a Residual 23.848 102.234 Total 48.375 106 a. Predictors: (Constant), NFC, GSE, Optimism, Control b. Dependent Variable: Anxiety.)ניתן לראות כי המודל מובהק סטטיסטית (עבור כל המנבאים יחד ENTER - שיטות שונות לרגרסיה מרובה- 'סטטיסטיקה ג 11 שיעור ד“ר גבריאל צור ) איננו מובהקGSE( שימו לב כי מקדם הרגרסיה החלקי של ציון החוללות העצמית. וזאת בשל ההחזקה הקבועה של שאר המנבאים,במודל זה Coefficientsa Unstandardized Standardized Coefficients Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 7.182.520 13.818.000 GSE מתאם חלקי Control -.244.143 -.139 -1.703.092 אינו מובהק GSE Sig=0.108/2=0.054 -.163.101 -.131 -1.622.108 Optimism -.640.098 -.510 -6.531.000 NFC -.211.097 -.164 -2.176.032 a. Dependent Variable: Anxiety אם היינו מכניסים רק את ציון החוללות העצמית למודל היינו מקבלים עבורו :מקדם מובהק Coefficientsa Unstandardized Standardized Coefficients Coefficients Model B Std. Error Beta t Sig. מתאם פשוט 1 (Constant) 4.177.421 9.915.000 GSE GSE מובהק -.452.109 -.362 -4.162.000 Sig=0.00 a. Dependent Variable: Anxiety ENTER - סטטיסטיקה ג' -שיטות שונות לרגרסיה מרובה שיעור 11 ד“ר גבריאל צור נכנסים למשוואת הרגרסיה כל המשתנים ,גם אלה שהמקדם החלקי בשיטתenter שלהם אינו מובהק! מכאן ,ניתן לשאול מספר שאלות לגבי המודל האחרון: בהנחה שהחוללות העצמית ( )GSEלא מוכנסת למודל ,מה יהיה ?2rכמה ניבוי ייגרע אם החוללות העצמית תושמט? האם ניתן לוותר למשל על משתנה השליטה? מה יהיה 2rללא משתנה השליטה כמנבא? ברור כי אם תרומתו של משתנה השליטה לאחוז השונות המנובאת 2rתהיה מאד קטנה ,אזי כדאי לשקול מחדש האם כדאי לכלול אותו בעתיד. ואם החלטנו להוציא את משתנה השליטה מהמודל ,מה יהיה אז R ?2 אולי בהיעדר משתנה שליטה ,משתנה החוללות העצמית ישוב להיות משמעותי בניבוי? enterלא נותנת תשובה ישירה ,ויש צורך להריץ רגרסיות על שאלות אלו שיטת נוספות עם היררכיה שונה של מנבאים. FORWARD - סטטיסטיקה ג' -שיטות שונות לרגרסיה מרובה שיעור 11 שיטת FORWARD ד“ר גבריאל צור בשיטה זו מוכנסים המנבאים בזה אחר זה על פי סדר תרומתם: א) נבדקים המתאמים הפשוטים של כל המנבאים עם המשתנה התלוי; המנבא בעל המתאם הגבוה ביותר מוכנס למשוואה.נוצר מודל ראשון בו Yמנובא מתוך אותו X ונבדק האם 2rמובהק. ב) נבדקים המתאמים החלקיים של שאר המנבאים עם המשתנה הבלתי תלוי (בניכוי המשתנה שכבר במשוואה).המשתנה בעל המתאם החלקי הגבוה ביותר יוכנס למשוואה.נבדקת האם תוספת המשתנה הנוסף לאחוז השונות המנובאת 2rמובהקת במודל הרגרסיה הדו-משתני.בדיקה זו מקבילה לבדיקה אם מקדם הרגרסיה של משתנה זה מובהק (או אם המתאם החלקי שלו מובהק). ג) כך מוכנסים משתנה אחר משתנה ונוצרים מודלים נוספים של רגרסיה עד לשלב בו מנבא נוסף איננו מוסיף על 2rבאופן מובהק. FORWARD - סטטיסטיקה ג' -שיטות שונות לרגרסיה מרובה שיעור 11 ד“ר גבריאל צור להלן ממצאי שיטת זו במדגם שהוצג: המתאם הפשוט של Coefficientsa Optimism Unstandardized Standardized עם המשתנה התלוי, Coefficients Coefficients הוא הגדול ביותר מבין Model B Std. Error Beta t Sig. הארבעה ולכן הוא 1 )(Constant 5.629 .365 15.424 .000 נכנס ראשון ואף נמצא Optimism -.818 .093 -.653 -8.824 .000 מובהק 2 )(Constant 6.713 .501 13.393 .000 Optimism -.728 .094 -.581 -7.742 .000 המתאם החלקי של Control -.401 .132 -.228 -3.035 .003 control 3 )(Constant 7.004 .512 13.678 .000 עם המשתנה התלוי, Optimism -.683 .095 -.545 -7.197 .000 הוא הגדול ביותר מבין Control -.329 .134 -.187 -2.444 .016 השלושה שנשארו ולכן NFC -.206 .098 -.160 -2.108 .037 הוא נכנס שני – גם הוא a. Dependent Variable: Anxiety נמצא מובהק המתאם החלקי של NFC עם המשתנה התלוי ,הוא הגדול ביותר מבין השניים שנשארו ולכן הוא נכנס שלישי – גם הוא נמצא מובהק התקבלו שלושה מודלים של רגרסיה ,שלושתם מודלים בהם כל המקדמים מובהקים. שימו לב ,כי המשתנה המנבא חוללות עצמית ( )GSEלא נכנס למודל השלישי שכן FORWARD - סטטיסטיקה ג' -שיטות שונות לרגרסיה מרובה שיעור 11 ד“ר גבריאל צור לכל מודל יש 2rשונה ,כמובן שככל שיש יותר מנבאים כך גדל ,2rאולם המחשב נותן גם את השינוי ב r 2בין מודל למודל ,ובדיקה אם שינוי זה מובהק: Model Summary Adjusted Std. Error of Model R R Square R Square the Estimate 1 .653a .426 .420 .51435 2 .687b .472 .462 .49535 3 .703c .494 .480 .48734 a. Predictors: (Constant), Optimism b. Predictors: (Constant), Optimism, Control c. Predictors: (Constant), Optimism, Control, NFC מן הפלט ניתן לראות כי "אחוז השונות המנובאת" על-פי משתנה האופטימיות ( )optimismלבדו הוא 2r = 0.43כלומר . 43% לאחר הוספת משתנה השליטה ( )controlעולה "אחוז השונות המנובאת" במודל 2ל- , 47%כלומר תוספת של ,4%תוספת זו היא מובהקת על פי הפלט הקודם ,ואם לא הייתה מובהקת המשתנה לא היה נכנס למודל. הוספת משתנה הצורך בקוגניציה ( )NFCמניבה עליה נוספת ב 2r -בשיעור של ,2% וגם תוספת זו מובהקת. BACKWARD - סטטיסטיקה ג' -שיטות שונות לרגרסיה מרובה שיעור 11 שיטת BACKWARD ד“ר גבריאל צור בשיטה זו מכניס המחשב בתחילה את כל המנבאים ולאחר מכן מוריד את המנבאים rאך לא בצורה מובהקת. 2 אשר הוצאתם מהמשוואה תקטין את Coefficientsa Unstandardized Standardized Coefficients Coefficients Model B Std. Error Beta t Sig. 1 )(Constant 7.182 .520 13.818 .000 Control -.244 .143 -.139 -1.703 .092 GSE -.163 .101 -.131 -1.622 .108 Optimism -.640 .098 -.510 -6.531 .000 NFC -.211 .097 -.164 -2.176 .032 2 )(Constant 7.004 .512 13.678 .000 Control -.329 .134 -.187 -2.444 .016 Optimism -.683 .095 -.545 -7.197 .000 NFC -.206 .098 -.160 -2.108 .037 a. Dependent Variable: Anxiety המודל הראשון מכיל את כל המנבאים.מהמודל השני הוצא משתנה החוללות העצמית ( )GSEמאחר והשמטתו מהמודל אינה מפחיתה את השונות המנובאת באופן מובהק.שאר המנבאים נשארו במודל ,שכן השמטת כל אחד מהם בנפרד תפחית את השונות המנובאת באופן מובהק. ניתן לראות כי לאחר השמטת GSEמהמודל ,המתאמים החלקיים (הביטות של BACKWARD - שיטות שונות לרגרסיה מרובה- 'סטטיסטיקה ג 11 שיעור ד“ר גבריאל צור - ב2r ) מהמודל מורידה אתGSE( ניתן לראות כי הוצאת החוללות העצמית.) אולם הורדה זו איננה מובהקת (כפי שראינו בשקופית הקודמת1% Model Summary Adjusted Std. Error of Model R R Square R Square the Estimate 1.712a.507.488.48353 2.703b.494.480.48734 a. Predictors: (Constant), NFC, GSE, Optimism, Control b. Predictors: (Constant), NFC, Optimism, Control STEPWISE - סטטיסטיקה ג' -שיטות שונות לרגרסיה מרובה שיעור 11 שיטת STEPWISE ד“ר גבריאל צור שיטה זו משלבת בו זמנית את שיטות forwardו.backward - בשיטה זו מכניס המחשב את המנבאים בזה אחר זה כמו בשיטת forwardאבל לאחר הכנסת כל מנבא חדש המחשב בודק האם הורדת אחד המשתנים הקודמים תקטין את r 2בצורה לא מובהקת כמו בשיטת .backward למשל ,יתכן מצב בו משתנה האופטימיות הוא המנבא הכי טוב בפני עצמו ולכן יוכנס ראשון.לאחר מכן יוכנסו משתנה שליטה ו( NFC-שיטת ,)forwardובשלב זה התוכנה תבדוק האם השמטת המשתנה אופטימיות ממודל הרגרסיה תפחית באופן משמעותי את שונות הניבויים (בדומה תבדוק גם את השניים האחרים – שיטת .)backwardבמידה ושונות הניבויים לא תקטן באופן מובהק המשתנה יוצא ממודל הרגרסיה (במקרים אלו יתכן כי גם אם המנבא נכנס ראשון הוא לא יישאר במודל הרגרסיה).