יחידה 10: רגרסיה וניבוי לינארי  >> 10.3: תופעת התכווצות המתאם

תופעת התכווצות המתאם (Adjusted R2)

 

תזכורת: למה שווה המתאם בין y ל-y', ?

y’ הוא טרנספורמציה לינארית של x ולכן במקום y' ניתן לכתוב x:

 

כאשר מיישמים מודל רגרסיה שנבנה על מדגם אחד במדגם אחר, סך הטעויות אשר נקבל יהיו בהכרח יותר גדולות מאשר הטעויות שהיינו מקבלים אילו היינו בונים מודל למדגם השני. זאת מאחר שהקו שמצאנו עונה על קריטריון מינימום הריבועים עבור המדגם הראשון אך לא עבור השני.

אילו היינו בונים קו עבור המדגם השני ,היינו בונים קו אחר. כאשר מיישמים את הנוסחא עבור מדגם אחר, ממוצע הטעויות לא יהיה שווה לאפס.

מדגם II

מדגם I

הקו שנבנה עבור מדגם I. לא מקיים את עיקרון מינימום הריבועים עבור מדגם II

הקו נבנה כך שהוא מקיים את עיקרון מינימום הריבועים

תיאורטית, אילו היינו יודעים את ערכי y האמיתיים (לרוב ידועים לנו רק את ה-X-ים) אזי המתאם אשר היינו מקבלים בין y לביןy'  היה קטן ממתאם זה במדגם המקורי:

מכיוון שהמתאם קטן, תופעה זו מכונה התכווצות המתאם. אנו מעוניינים לאמוד את מידת ההתכווצות.  תופעת ההתכווצות היא פונקציה של n. ככל ש-n גדל כך התופעה קטנה.

לא ניתן למנוע את התופעה אך ניתן להעריך את גודלה על ידי:

1. תיקוף מצליב – חלוקת המדגם לשניים, וחישוב קו הרגרסיה על חצי מהנבדקים. יישום הקו על החצי השני, ובדיקה אמפירית של מידת ההתכווצות.

2. אומדן סטטיסטי – קיימת נוסחא לחישוב ה-

 

השפעתם של ערכים קיצוניים (outliers) על המתאם

 

המתאם נובע מתצפית אחת קיצונית שאם נוריד אותה נגלה שאין מתאם.

מתאם "מזויף" (spurious)

 

הסבר – לא קיים מתאם אמיתי אלא גורם אחר, כמו מין לדוגמא, אשר יוצר את המתאם. אם נחשב את המתאם לכל קבוצת מין בנפרד נגלה שלא קיים קשר בין המשתנים.

משתנה ממתן

 

הסבר אנו רואים שבתוך כל אחת מן הקבוצות קיים מתאם אך העובדה שהן מופיעות כולן יחד פוגעות בערכו של המתאם. אם נחשב את המתאם בנפרד לכל אחד משתי הקבוצות, נגלה מתאמים גבוהים.

 

עבודה ב-EXCEL

 

לאחר שהזנו את ערכי שני הנתונים – x ו-y בוחרים ב-scatterplot.

לוחצים עם הכפתור הימני על נקודה כלשהי, בוחרים  add trendline ולאחר מכן בוחרים בקשר לינארי

ניתן גם לבקש להציג את המשוואה ואת אחוז השונות המוסברת

► חזור                    המשך ◄