יחידה 7: מתאם  >>  7.3: חישוב מקדם המתאם

כיצד נחשב את r?

 

העיקרון לפיו פירסון בנה את נוסחת מקדם המתאם לחישוב קשר בין שני משתנים:

אם נצייר שני קווים העוברים בממוצעיx  ו-y, נחלק את מרחב הנקודות ל-4 קוואדרנטים (רביעים).

אם קיים קשר חיובי בין המשתנים, אנו נצפה שרב הנקודות ייפלו בקוואדרנטים  ו-  (כי אם הקשר חיובי, אנו מצפים שנבדקים בעלי ציון מעל ממוצע x יקבלו גם ערכים מעל ממוצע y) או  ו-  (אם הקשר שלילי, שם צפוי שנבדקים בעלי ציון מעל ממוצע ה-x יקבלו ציונים מתחת לממוצע ה-y).

דהיינו עבור קשר חיובי, נצפה שנבדקים מעל ממוצע x יהיו מעל ממוצע y ולהיפך. יתרה מכך נצפה שככל שערך x קיצוני יותר, כך ערך ה-y גם קיצוני יותר.

תזכורת: ציון תקן (Z) משקף את מידת הקיצוניות של תצפית מסוימת מממוצע כלל התצפיות.

ניתן להמיר את הערכים לציוני תקן הן של x והן של y משום שציוני תקן משקפים את המיקום ביחס לממוצע. לכן ניתן לעבוד בציוני תקן ולבצע את הבדיקה הבאה:

 

מה יקרה אם נכפיל את  ב-  ונסכם מעבר לנבדקים, ?

אם הקשר חיובי, רוב הנקודות ייפלו בקוואדרנטים  ו- . דהיינו, רוב ציוני ה-  החיובים יוצמדו לציוני   חיוביים, לכן  יהיה גדול וחיובי.

אם הקשר שלילי, רוב הנקודות ייפלו בקוואדרנטים  ו- . דהיינו, רוב ציוני ה-  השליליים יוצמדו לציוני  חיוביים, לכן   יהיה גדול ושלילי.

אם הקשר קרוב ל-0, הנקודות יתפזרו בין ארבעת הקוואדרנטים פחות או יותר באופן שווה. לכן חלק ממכפלות ה-  תהיינה חיוביות וחלק שליליות, רובן תתקזזנה ו-   יהיה קרוב ל-0.

כלומר מכפלת ציוני התקן אכן מבטאת נאמנה את הקשר בין שני המשתנים.

חלוקת המכפלה ב-n

אם הקשר אינו 0, ככל שתהיינה יותר נקודות כך  יהיה יותר גדול. לכן ע"מ לנטרל את השפעת גודל המדגם יש לחלק את הסכום ב-n ובעצם לחשב את ממוצע מכפלת ציוני התקן: .

 יהיה מקסימלי כאשר עבור כל פרט, מידת הקיצוניות של x תהיה זהה לזו של y (דהינו כאשר עבור כל נבדק  או .

בגרף הבא ניתן לראות שהקו עובר דרך מפגש הממוצעים, (0,0), כי ממוצע ציוני תקן הוא אפס.

בציוני תקן כאשר המתאם הוא 1 שיפוע הקו הוא  מעלות.

אם, כאשר המתאם שווה ל-1,עבור כל נבדק , אזי: .

תזכורת: בסמסטר א' הוכחנו ש:  .

לכן במונה נציב .n המונה והמכנה שווים, לכן כאשר המתאם מקסימלי מתקיים

.

בעצם, הביטוי שחישבנו הוא מקדם המתאם של פירסון:

הנוסחה של r לא נוחה לעבודה.

אם נפתח אותה ע"י הצבת נוסחאות ציוני תקן במקום   ו-  נמצא ש:

מכאן שמתאם פירסון שווה לגודל השונות המשותפת (cov(x,y)) יחסית למכפלת סטיות התקן.

דהיינו השונות משותפת יחסית לסה"כ ה"שונות" הקשורה גם ב-x וגם ב-y, או במילים אחרות, רמת הפיזור המשותפת לשני המשתנים יחסית לרמת הפיזור של המשתנים עצמם.

ה-cov יכול לקבל כל ערך אפשרי ולכן נחלק אותו במכפלת סטיות התקן:

בעידן טרום EXCEL היה צורך בנוסחאות עבודה:

אם נפתח את הנוסחה לנוסחת עבודה נגיע ל: ממוצע מכפלת הציונים פחות מכפלת הממוצעים לחלק במכפלת סטיות התקן:

.

ובאוכלוסייה נחליף את ממוצעי המדגמים וסטיות התקן לפרמטרים:

הסטטיסטי r הוא אומדן מוטה ל-  ולכן צריכים תיקון מסוים (שנלמד בהמשך).

דוגמא לחישוב מתאם באמצעות נוסחת העבודה:

 

להלן נתוני גובה וידע במתמטיקה של 6 נבדקים:

 

פתרון:

מומלץ קודם כל להציג את הנתונים בדיאגרמת פיזור (scatterplot) בכדי לראות אם קיים קשר כלשהו בין המשתנים.

לצורך חישוב המתאם בצורה ידנית תוך שימוש בנוסחאות סטיות התקן יש להוסיף עמודה של העלאת כל אחד מהמשתנים בריבוע. וכן של מכפלת שני המשתנים. לצורך הצבה בנוסחאות נצטרך לסכום טורים אלו. כמו-כן נצטרך למצוא את ממוצעי X ו-Y.

 

 

 

 

נמצא קשר גבוה בין גובה לידע במתמטיקה.

ובעידן המודרני ניתן להשתמש בפקודה PEARSON או CORREL ב-EXCEL תוך סימון טווח הערכים, של x ו-y

EXCEL: = PEARSON(array1,array2)

► חזור                    המשך ◄