הטיית השימוש במדדים סטטיסטיים בסיסיים בלבד
databias#והפעם - תמונה אחת שווה יותר מ-3 מדדים סטטיסטיים
הטיית השימוש במדדים סטטיסטיים בסיסיים בלבד
השימוש במדדים סטטיסטיים פשוטים דוגמת: ממוצע, שונות ומתאם לניתוח נתונים בסיסי, נפוץ ונדרש, אך ההסתכלות על מדדים אלו בלבד, עלולה להוביל לטעויות בניתוח שיש להיזהר מהן!
לדוגמה,
בשנת 1973 הסטטיסטיקאי פרנסיס אנסקומבה כתב מאמר שנועד לסתור את הטענה כי “שצורת הנתונים (כפי שמוצגת בגרפים) חשובה לא פחות מהמדדים החישוביים המסכמים, ולא ניתן להתעלם מהם בניתוח״. הוא הרכיב ארבעה מערכי נתונים, המכונים הרביעייה של אנסקומבה, שכל אחד מהם מורכב מאחת-עשרה (x, y) נקודות.
I | II | III | IV | ||||
---|---|---|---|---|---|---|---|
x | y | x | y | x | y | x | y |
10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6.58 |
8.0 | 6.95 | 8.0 | 8.14 | 8.0 | 6.77 | 8.0 | 5.76 |
13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12.74 | 8.0 | 7.71 |
9.0 | 8.81 | 9.0 | 8.77 | 9.0 | 7.11 | 8.0 | 8.84 |
11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
14.0 | 9.96 | 14.0 | 8.10 | 14.0 | 8.84 | 8.0 | 7.04 |
6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5.25 |
4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.50 |
12.0 | 10.84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
5.0 | 5.68 | 5.0 | 4.74 | 5.0 | 5.73 | 8.0 | 6.89 |
המשותף לארבעת מערכי הנתונים הוא שיש להם אותן תכונות סטטיסטיות בסיסיות, כלומר ממוצע, שונות ומתאם זהים. עם זאת, כאשר הם מתוארים בתרשים, ברור כי כל מערכות הנתונים שונות לחלוטין.
הגרף הראשון (למעלה משמאל) מציג מערכת יחסים ליניארית פשוטה, בעלת שני משתנים מתואמים, כך שערכי ה-y יוצרים צורה של התפלגות גאוסיינית עם ממוצע ליניארי תלוי ב- x.
הגרף השני (מימין למעלה) אינו רגיל. בעוד שהקשר בין שני המשתנים ברור מאליו, הוא אינו לינארי, ומקדם המתאם של פירסון אינו רלוונטי. רגרסיה כללית יותר ומקדם ההסבר (coefficient of determination) יהיה מתאים יותר.
בגרף השלישי (משמאל למטה), ההתפלגות היא ליניארית, אך צריך להיות קו רגרסיה שונה (היה דרוש רגרסיה חזקה). הרגרסיה המחושבת זזה על ידי חריג החשוב כטעות (outlier) שמפעיל מספיק השפעה כדי להוריד את מקדם המתאם מ -1 ל -0.816.
לבסוף, הגרף הרביעי (מימין למטה) מראה שמספיקה נקודת מנוף גבוהה אחת בכדי לייצר מקדם מתאם גבוה, אף על פי שנקודות הנתונים האחרות אינן מצביעות על קשר כלשהו בין המשתנים.
Photo by Campaign Creators