שאלות נפוצות - מבחני t לשני מדגמים

לקורס המקוון

 

לדף הראשי

1. שאלה:

האם ניתן לעשות מבחן t לבלתי תלויים אם לא שתי הקבוצות מעל 30?

 

פתרון:

אם גודל לפחות אחד מהמדגמים קטן משלושים והאוכלוסיות המקוריות לא מתפלגות נורמלית, אי אפשר לעשות t לב"ת (בהמשך נלמד מבחנים א-פרמטריים שיתנו פתרון לבעיה זו). כלומר, כל אחד מהמדגמים חייב לבוא מאוכלוסייה המתפלגת נורמלית או להכיל לפחות 30 נבדקים בכדי שנוכל לבצע את המבחן.

 

2. שאלה:

האם האלפא במבחן F תהיה זהה לזו שמבקשים בשאלה, כלומר אם צריך מבחן t עם מובהקות 0.025 (חד צדדית למשל) האם הבדיקה של F תהיה גם היא על אלפא של 0.025 (רק דו צדדית, כי F תמיד דו"צ)?

 

פתרון:

בעיקרון – כן.
אולם מאחר וטבלת F שמסופקת למבחן מכילה ערכים עבור אלפא של 5% בלבד – הלכה למעשה, לא.
ולכן לא תהיה לך שאלה במבחן על t לב"ת שבה המובהקות שונה מ- 5% דו"צ. במבחן לא נוכל לחשב F עבור כל מובהקות אחרת.
מה שכן - אם בכל זאת יתנו שאלה כזו - תכתבי שאין דרך לבדוק שוויון שונויות עם הטבלה שיש לנו, אבל מה שהיית עושה אם היית יכולה זה לבדוק בטבלה אחרת שכן מתאימה, או לבדוק באקסל.

 

3. שאלה:

בנוסחה של Spooled, זה S או Sn? וכשאי אפשר לעשות Spooled? ומה עם מבחן F לשיווין שונויות? Stdev או Stdevp?

 

פתרון:

כמו שכתוב, זה S (ולא Sn). כשאי אפשר לעשות Spooled משתמשים פשוט בנוסחא של Sx1-x2 מבלי להניח שוויון שונויות, כלומר מבלי לחשב Spooled, אלא תוך שימוש בשונות של כל קבוצה בנפרד. גם כאן משתמשים ב- S. החלק הבעייתי עם זה הוא מציאת דרגות החופש של המבחן, אבל כאן לפעמים אפשר לעשות את קיצור הדרך המשתמש בגבול התחתון והעליון של הערכים האפשריים לדרגות החופש. לבסוף, גם ב- F משתמשים ב- Sn-1 (ולא Sn). הסיבה שמשתמשים באומד בכל המקרים היא שאנחנו מעוניינים לאמוד את השונות המשותפת באוכלוסייה (ולא במדגם). למען האמת, אין משמעות לבדיקת שוויון שונויות בתוך המדגם כי אנחנו יכולים לחשב את השונויות בדיוק ולדעת אם הן שוות או לא. כל פעם שאנחנו אומדים שונות על פי מדגם (ולא מחשבים שונות בתוך מדגם) נשתמש באומד לשונות (n-1) ולא ב- Sn.

 

4. שאלה:

לגבי הנושא של 'df ב-t לב"ת ללא הנחת שוויון שונויות, לא כ"כ הבנתי למה ה- df בטוח גדול מ-min n-1.

 

פתרון:

'df הוא סוג של ממוצע בין דרגות החופש של כל קבוצה. הגבול העליון ברור- זה מה שהיינו מקבלים אם היה שוויון שונויות. הגבול התחתון הוא מה שהיינו מקבלים אם היינו מתייחסים רק לקבוצה הקטנה ביותר (שדרגות החופש שלה הן n-1 כאשר n זה גודל הקבוצה הקטנה). כלומר, הדרגות חופש האמיתיות הן איפשהו בין המצב הכי גרוע (ה df הכי קטן, כלומר של הקבוצה הקטנה מבין השתיים) לבין הכי טוב (שוויון שונויות). זה כמו שהממוצע בין 2 ל- 3 בטוח יהיה קטן מ- 3 וגדול מ- 2.

 

5. שאלה:

כאשר אני מקבלת את ערך ה- p value מפקודת TDIST או FDIST האם אני משווה אותו לאלפא או חצי אלפא?

 

פתרון:

ב- TDIST נשווה לאלפא, כי הנוסחא כבר מגלמת בתוכה את מספר הזנבות וב-FDIST לחצי אלפא כי הפקודה באקסל היא חד צדדית וההשערה שלנו היא תמיד דו-צדדית.

 

6. שאלה:

מה זה שונות משותפת (Sp)? לפי מה משקללים אותה? מתי בכלל משתמשים בה?

 

פתרון:

Sp היא למעשה שקלול של שתי השונויות- השונות של S1 והשונות של S2. השקלול נראה כנוסחא מורכבת ומעצבנת אבל אם תסתכלי טוב- זהו ממוצע משוקלל רגיל: S1 תורם את דרגות החופש שלו, S2 תורם את שלו, וסכומן נמצא במכנה. עלינו לכפול כל שונות בסכום דרגות החופש שהיא תרמה.
אנחנו משתמשים ב-SP כשאנחנו רוצים למצוא את השונות המשותפת למכנה של t במבחן לבלתי תלויים. בכל פעם שנבצע מבחן t לבלתי תלויים נצטרך לחשב במכנה את טעות התקן המשותפת, וזאת ניתן לעשות ע"י נוסחא שמשתמשת ב-Sp. ב- Sp משתמשים רק כשיש שוויון שונויות, אחרי שבדקנו את הנושא באמצעות מבחן F לשוויון שונויות.

 

7. שאלה:

מישהו מבין איך מחשבים עוצמה במבחני t השונים?

 

פתרון:

באותה דרך שחישבנו עוצמה עד עכשיו, פשוט בכל מקרה משתמשים בסטטיסטים ובס"ת המתאימים. למשל, אם מחשבים עבור ממוצעי הפרשים, משתמשים ב"מיו די" וב-Sd, שכשל התהליך זהה. שאלה 2ג בשאלות לדוגמא על מבחן F מתרגלת את הנושא הזה.  כמו כן, בקורס המקוון יש הסבר בנושא.

 

8. שאלה:

לא כל כך הבנתי מדוע ב- t לתלויים אנו מחשבים הפרשים ועובדים עם d ובבלתי תלויים אנו מחשבים הפרשי ממוצעים. הרי גם ב-t לתלויים במדגמים מזווגים מדובר בשתי אוכלוסיות שונות אז מדוע ההבדל?

 

פתרון:

זה לא מדויק שבמבחן t למבחנים תלויים מדובר בשתי אוכלוסיות שונות. יש תלות, אולי גדולה מאוד, בין התכונות של "שתי האוכלוסיות". אם תנסה לעשות בדיקת השערות רגילה לכל אחת מהאוכלוסיות, בדומה למבחן t לב"ת, תגלה שאחת ההנחות הבסיסיות אינה מתקיימת: אין דגימה מקרית לכל אוכלוסייה.
ההתבוננות באוכלוסיית ההפרשים משחררת אותנו מהצורך להתעסק בחישובי COV, כפי שריקרדו הראה בשיעור. זה בא בעלות מסוימת, כמו כל דבר: אנחנו צריכים שני מדגמים באותו הגודל, למשל. ובאופן יותר עקרוני, אנחנו מניחים בדיוק את מה שקראנו למבחן: תלות בין המשתנים. זאת הנחה חזקה, אולי לא מוצדקת, והיא מגיעה עם הסיכון שאולי אין באמת תלות בין כל זוג של פרטים במדגם שלנו. זה יכול להכשיל את כל הליך בדיקת ההעשרות.
בכל אופן, פשוט לא ניתן לבדוק בהליך פשוט מדגמים תלויים, כמו שאפשר לעשות עם מדגמים ב"ת. d מאפשר לנו להימנע מלהתעסק עם התלות עצמה לכן אנחנו משתמשים ב- d. במדגמים ב"ת זה לא הכרחי.
לא משתמע מכך, אני מקווה, שתמיד כדאי להשתמש במדגמים ב"ת. יש מקרים שבהם הדיוק של בדיקת ההשערות יהיה טוב יותר אם אכן נשתמש במדגמים תלויים. אני רק אומר שמדגמים תלויים מציבים מגבלות אחרות מאשר מדגמים ב"ת, ולכל שיטה היתרונות והחסרונות שלה.

 

9. שאלה:

מישהו יודע למה לפני t לבלתי תלויים תמיד עושים F דו צדדי ולא חד צדדי?

 

פתרון:

כשאנו בודקים שוויון שונויות לפני מבחן t אנו שואלים שאלה דו-צדדית ולא חד-צדדית. אנו שואלים האם השונויות שוות או שונות.

 

10. שאלה:

מה אני מפסידה אם אני עושה t לב"ת במקום t לתלויים? למשל אם הייתי צריכה לזווג ולא זיווגתי?

 

פתרון:

אם היית צריכה לזווג - זאת אומרת אם היה לך בסיס ממשי לזיווג ובכל זאת השתמשת בב"ת - אז הפסדת חלק מהעוצמה, כי מדגם תלוי מקטין את השונות שבין זוגות הנבדקים (השונות הפנימית), וזה מה שמגדיל את העוצמה במבחן תלוי מזווג. לעומת זאת, הקטנת את דרגות החופש בכך שהשתמשת בתלוי, אולם זה פחות משמעותי ביחס להקטנת השונות. ולכן תלוי עדיין עדיף.
אבל - אם השתמשת במבחן תלוי מזווג כאשר אין בסיס לזיווג, אז לא תהיה הקטנה של השונות הפנימית, ולכן רק תפסידי דרגות חופש - "תשלמי" את המחיר, מבלי "להרוויח". ובמקרה כזה, עדיף בלתי תלוי.