יחידה 5: חי בריבוע  >> 5.1:  מבחן חי בריבוע לטיב ההתאמה 

המשך מבחנים א-פרמטריים:

מבחן חי בריבוע לטיב התאמה
Chi-square for goodness of fit:

באמצעות מבחן הבינום יכולנו לבדוק האם מדגם/נבדק לקוח או לא מאוכלוסייה שבה הסיכוי ל"הצלחה" הוא  והסיכוי לכישלון  .

אבל מה קורה כאשר משתנה המחקר אינו דיכוטומי, כלומר מכיל יותר משני ערכים?

אם במקום לבדוק האם מטבע הוגן, אנו רוצים לבדוק האם קובייה הוגנת?

הערה: כל ההסתברויות לא צריכות להיות זהות - כמו ש-  לא צריך להיות זהה ל- .

פיתוח

 

דוגמא: לפי תורתה של החוקרת Ainsworth קיימים 3 סוגי התקשרות (attachment style): בטוח, נמנע וחרד. בקרב האוכלוסייה הבוגרת הפרופורציות של שלוש קבוצות אלו הן (הנתונים דמיוניים):

בטוח: 55%

נמנע: 25%

חרד:  20%

חוקר דגם 40 נבדקים.

בהנחה שהנבדקים לקוחים מכלל האוכלוסייה היינו מצפים למצוא:

חרדים

נמנעים

בטוחים

20%

25%

55%

0.2*40

0.25*40

0.55*40

8

10

22

צפויexpected – המספרים 8, 10 ו-22 נובעים מהאחוזים הידועים באוכלוסיה.

בפועל, סביר להניח שלא נקבל בדיוק את אותם הערכים במדגם (כמו שב-10 הטלות מטבע לא נצפה בדיוק ל-5 פעמים עץ), זאת מאחר וקיימת טעות דגימה.

לדוגמא, יכולנו לקבל:

חרדים

נמנעים

בטוחים

10

14

16

נצפהobserved – מה שקיבלנו במדגם שלנו בפועל.

מעניין אותנו לבדוק מהם הפערים שבין הערכים הצפויים לנצפים.

חרדים

נמנעים

בטוחים

 

8

10

22

צפוי

10

14

16

נצפה

+2

+4

-6

פער

 

מה שמעניין אותנו זה בכמה סטינו בין הנצפה לצפוי ולא מהו כוון הסטייה, לכן נעלה את הפערים בריבוע. נרצה לבדוק עד כמה הפערים שקיבלנו חריגים:

חרדים

נמנעים

בטוחים

 

8

10

22

10

14

16

+2

+4

-6

4

16

36

אבל סטייה של 6, אשר נראית יחסית  גדולה, במצב אחר יכלה להיראות קטנה. לדוגמא אם הערך הצפוי היה 550 והנצפה 556,היינו אומרים שההבדל קטן מאד.

ע"מ להתחשב בעובדה זו, נוכל לבדוק את הפער שקיבלנו יחסית לערך הצפוי:

ע"מ לבטא את סה"כ הסטיות, נסכום מעבר לקבוצות: , כאשר  הוא מספר הקבוצות.

ההתפלגות של הביטוי שקיבלנו, בהינתן , ידועה.

התפלגות חי בריבוע היא התפלגות המבוססת על סכום של z (ציוני תקן) בריבוע, כאשר ד"ח שוות למספר ה-z אשר סוכמים. כאשר מדובר רק על z בריבוע בודד, הרי דרגות החופש שוות ל-1. כך הערך הקריטי של חי בריבוע עם ד"ח=1 ורמת בטחון של 95% שווה ל- .

 עבור כל     

ברור שככל שלמשתנה יותר ערכים (יותר קטגוריות), כך הסטטיסטי יהיה גדול יותר. מכאן שהוא פונקציה של דרגות החופש, ובמקרה של חי בריבוע לטיב התאמה: מספר הקטגוריות פחות 1.   

לדוגמא, אם יש לנו 40 נבדקים בשלוש קבוצות: בקבוצה הראשונה 22, בקבוצה השנייה 10 ובאחרונה....חייבים להיות 8, דהיינו ד"ח=2 – השכיחות של התא האחרון תמיד ידועה, כי היא פונקציה של שכיחות שאר התאים.

► חזור                    המשך ◄