יחידה 7: מתאם  >>  7.5: מובהקות המתאם

מובהקות מתאם

 

ניתן להשתמש במקדם המתאם לצורך תאור מדגם (סטטיסטיקה תיאורית) אך לרוב שימושו בסטטיסטיקה היסקית. טעות נפוצה היא לחשוב שערכו של המתאם מעיד על מובהקותו ! המתאם הוא סטטיסטי המחושב במדגם בדיוק כפי שממוצע וסטיית תקן מחושבים במדגם. לכן כמעט בכל חישוב מתאם אנו נתעניין גם במובהקותו.

 

בסטטיסטיקה היסקית אנו נרצה לשאול האם המדגם לקוח מאוכלוסייה שבה קיים קשר בין x ל-y.

אם ישנן מעט נבדקים (נקודות בגרף), ייתכן שבמקרה נקבל מתאם גבוה, אפילו אם באוכלוסייה לא קיים קשר בין שני המשתנים.

ככל שהמדגם גדל, כך הסיכוי לקבל מתאם גבוה באופן מקרי, כאשר באוכלוסייה לא קיים קשר , הולך וקטן. עובדה זו מזכירה לנו את השפעת גודל המדגם על התפלגות הדגימה של ממוצעים: ככל שהמדגם גדל כך קטן הפיזור של התפלגות הדגימה (  ) וכך הסיכוי לקבל ממוצע מדגם חריג תחת ההנחה שהוא נלקח מאוכלוסיה מסוימת, הולך וקטן.

ההחלטה לגבי קיומו או אי-קיומו של קשר באוכלוסייה תתבסס על בדיקת השערות.

הנחת היסוד היא כי באוכלוסיה לא קיים קשר בין משתנים, בדומה למה שעשינו בבדיקת השערות לממוצע מדגם בודד שם הנחנו שהמדגם נלקח מאוכלוסיה עם ממוצע כמו זה של האוכלוסיה הכללית.

 

התפלגות דגימה של מתאמים המבוססים על מדגמים בגודל n.

 

אנו בונים התפלגות דגימה של מתאמים שהממוצע שלה הוא אפס. התפלגות זו היא בקירוב t (אך היא תחומה בין +1 לבין -1).

 

      רק עבור  

 

 

נוסחה זו דומה לנוסחא של t להשוואת ממוצע מדגם בודד לאוכלוסיה:

כך גם כאן הנוסחא המקורית היתה כתובה בצורה דומה:

סטיית התקן מבוססת על נתוני המדגם והיא ספציפית למדגם שדגמנו. האומדן של סטיית התקן של התפלגות הדגימה ממנה נלקח אותו מדגם שווה ל: .

 

אם קיבלנו מתאם קרוב ל-0 אז האומדן של סטיית התקן גדול יחסית משום שהטווח הסביר של ערכי המתאם האמיתיים באוכלוסייה גדול אף הוא. לעומת זאת אם קיבלנו במדגם לדוגמא מתאם של 0.9 הערכים בהתפלגות הדגימה יהיו הומוגניים יותר (כי אי אפשר לקבל ערכים מעל ל-1

מכיוון שגם כאן ה-n נמצא במכנה הרי שככל שהמתאם שמצאנו גדול יותר, כך אנחנו צריכים פחות נבדקים בכדי להוכיח שהמתאם מובהק (בדיוק כמו במבחני Z ו-t להשוואת ממוצע מדגם לאוכלוסיה).

או הפוך: ככל שהמתאם שקיבלנו גדול יותר כך אנו צריכים פחות נבדקים על מנת להוכיח שמתאם זה מובהק משום שהסיכוי שנקבל מתאם גדול במקרה קטן יותר.

 

בדיקת מובהקות של מדגם כאשר ע"פ השערת האפס המתאם שווה ל-0 תמיד תתבסס על מובהקות t.

ניתן לשער השערות חד צדדיות: קשר חיובי או שלילי.

דרגות חופש בחישוב מובהקות מתאם הן n-2 וזאת משום שאיבדנו שתי דרגות חופש בחישוב המתאם: אחת עבור סטיית התקן של x ואחת עבור y

דוגמא:

במדגם בגודל 20 נמצא . ברמת בטחון של 95%, האם קיים קשר בין המשתנים באוכלוסייה?

 

פתרון:

 

איבדנו שתי דרגות חופש משום שיש לנו שני משתנים עבורם אמדנו את סטיות התקן (גם x וגם y).

 

עכשיו ניתן לבדוק בטבלה את ערך ה-t הקריטי, או לבדוק ב-EXCEL ב-TDIST:

 

 

לכן, ברמת בטחון של 95% ניתן לומר שהמדגם לקוח מאוכלוסייה שבה קיים קשר בין...

השפעת גודל המדגם

 

במדגם בגודל 20, מתאם בגודל 0.4 לא יהיה מובהק:

 

 

אבל אם נקבל את אותו גודל של מתאם במדגם בגודל 50, הוא יהיה מובהק:

 

 

 

כאשר המדגם גדול מאוד, כמעט כל מתאם בין שני משתנים יהיה מובהק, אך אם המתאם עצמו קטן (פחות מ-0.2) המשמעות התיאורטית של קשר זה תהיה שולית.

► חזור                    המשך ◄