יחידה 6: מדדים לנטייה מרכזית  >> 6.1: שכיח וחציון

סטטיסטים ופרמטרים

 

קיימים מדדים אשר ניתן לחשבם בהתבסס על נתונים של מדגם או של כלל אוכלוסייה. לדוגמא ממוצע, סטיית תקן, מתאם.

מדדים אשר מחושבים בהתבסס על נתוני מדגם נקראים סטטיסטים ומסומנים באמצעות אותיות לטיניות.

דוגמאות:

מדדים אשר מחושבים באוכלוסייה נקראים פרמטרים ומסומנים באמצעות אותיות יווניות.

דוגמאות:

מדדים לנטייה מרכזית

 

ערך בודד אשר מטרתו להציג בצורה הנכונה ביותר את כלל הערכים במדגם/אוכלוסייה.

 

מדדים עיקריים:

ממוצע (mean/average)

חציון (median)

שכיח (mode)

 

בחירת המדד נקבעת באמצעות סולם המדידה של המשתנה, וצורת ההתפלגות.

שכיח (mode)

 

מתאים במיוחד למשתנים בסולם שמי.

הערך הנפוץ ביותר בהתפלגות (הערך בעל השכיחות הגבוהה ביותר).

התפלגות ובה שני שכיחים מוגדרת כהתפלגות דו-שכיחית (בי-מודלית). זאת אפילו אם אחד השכיחים הינו בעל שכיחות נמוכה מזו של השני.

 

דוגמאות להתפלגות דו-שכיחית:

 

 

EXCEL: mode(array)= , לא מדייק במקרים בהם יש יותר משכיח בודד.

 

   לא להתבלבל בין השכיח לבין שכיחותו!!

 

 

תכונת השכיח:

 

הערך שמספר הסטיות ממנו הוא מינימלי

 

 

בגרף עמודות ניתן לראות מיידית מהו הערך השכיח ביותר (או הקטגוריה השכיחה ביותר, במקרה של נתונים מקובצים).

חציון (median)

 

הגדרות מקובלות:

·        הערך שמחצית המקרים מעליו ומחצית המקרים מתחתיו.

·        הערך האמצעי בהתפלגות.

 

החציון מתאים למשתנים בסולם סדר, או למשתנים בסולם רווח/מנה בעלי התפלגות לא סימטרית (בהמשך נגדיר בצורה מדויקת מתי התפלגות נחשבת ללא סימטרית).

תכונות החציון:

1.  - הערך שסכום הסטיות המוחלטות ממנו הוא מינימלי

 

דוגמא: ניקח 5 מספרים שהחציון שלהם הוא חמש:

 

ניתן לבדוק ולהוכיח שעבור כל מספר אחר סכום הסטיות המוחלטות יהיה גדול יותר:

 

 

2. הערך שמספר הסטיות מעליו ומתחתיו שווה

 

דרך חישוב החציון:

 

מקרים "פשוטים" (בהמשך נגדיר מהם מקרים "לא פשוטים"):

1. מסדרים את הנתונים לפי סדר עולה.

2. אם מספר הערכים הוא אי-זוגי, אזי החציון הוא הערך שבמיקום ה- .

אם מספר הערכים זוגי, אזי החציון הוא הממוצע שבין הערכים שבמיקומים ה-  וה- .

 

דוגמא:

1,7,4,2,11

 

פתרון :

המיקום ה-  הוא .  הערך שבמיקום ה-3 הוא 4. 

החציון = 4

 

EXCEL: median(array)=

 

 

קשרים - ties

מקרים "לא פשוטים" (EXCEL לא יודע לטפל בהם):

כאשר יש "קשרים" (ties מלשון תיקו): המספר המיועד להיות החציון מופיע כמה פעמים ומספר הערכים מעליו ומתחתיו אינו זהה.

 

דוגמא: 3,4,4,4,5,7

במקרים כאלו, עובדים לפי הנוסחה לחישוב חציון מטבלת שכיחויות מקובצת.

 

 

חישוב חציון מטבלת שכיחויות מקובצת

 

במקרה זה מניחים רציפות ולכן מיקום החציון: n/2

 

 

החציון נופל במקום ה-25: בקטגוריה שבין 6.5 ל-12.5.

לכן, עלינו למצוא את הערך שבמיקום ה-25.

 

אנו מניחים שהערכים בתוך כל קטגוריה מתפזרים באופן אחיד כך שכל ערך "תופס" אותו רוחב. מכיוון שרוחב כל קטגוריה הינו 6 ובקטגוריה בה ממוקם החציון ישנם 20 ערכים, הרי שכל ערך תופס 6/20=0.3 יחידות.

מכיוון שעד לקטגוריה שלנו היו 10 ערכים (F=10) ואנו מעוניינים לדעת את ערכו של החציון הממוקם במקום ה-25, עלינו לראות כמה מקום תופסים 15 המקרים הראשונים בתוך הקטגוריה בה ממוקם החציון ולהוסיף טווח זה לגבול האמיתי התחתון של הקטגוריה (נקודת ההתחלה של הקטגוריה): 15*0.3=4.5. יש להוסיף 4.5 לנקודת ההתחלה של הקטגוריה, ולכן החציון שווה ל: 6.5+4.5=11.

 

 

 

 

 הקטגוריה אשר מכילה את החציון.

 גבול אמיתי תחתון של הקטגוריה.

 שכיחות מצטברת.

 שכיחות.

 רוחב הקטגוריה) בגבולות אמיתיים)

 

ובחזרה לדוגמת המקרה עם "קשרים":  3,4,4,4,5,7

 

 

הערה (ללא קשר לחציון): קיימת קטגוריה ריקה באמצע לכן אין חפיפה בין הגבולות האמיתיים. בעיקרון (אך מיותר) ניתן היה להוסיף את הערך 6 לטבלה עם שכיחות של  0.

 

 

► חזור                    המשך ◄