אנחנו בוחרים לא להאמין אבל הסטטיסטיקה לא משקרת (הדג נחש)
"ישנם שלושה סוגים של שקרים:", טען כביכול ראש הממשלה הבריטי בנג'מין דיזראלי, "שקרים, שקרים ארורים, וסטטיסטיקה". וכידוע דברים של פוליטיקאים הם ממש אַמַת המידה לאמת צרופה.
כל מי שאיתרע מזלו לבלות פרק זמן משמעותי כלשהו בחברתי, יודע שאני ומתמטיקה לא עובדים טוב ביחד. לא יודע אם יש לה בעיה איתי, אבל לי בהחלט יש בעיה איתה (כן, עדיין רוסי, תודה ששאלתם). כשנרשמתי ללימודי פסיכולוגיה, חשבתי לתומי שעכשיו נפתרתי ממנה אחת ולתמיד, אבל אז הגיעו הקורסים בסטטיסטיקה ואמרו "פחחח". וזה לא שאני מתפדח לכתוב פה כמה קיבלתי במועד א' בהסקה סטטיסטית. ולא שאני מתפדח לחשוף כמה מועדים עשיתי בסך הכל. יותר בכיוון של מתפדח לכתוב כמה פעמים חזרתי על הקורס, ובעור של אילו שיניים הצלחתי לעבור אותו לבסוף.
ועכשיו, עשור וחצי מאוחר יותר, מה מסתבר? מסתבר שהקטע לא היה לעבור, הקטע היה להקשיב.
הגעתי למסקנה המרעישה הזאת בשנה ה-36 למנייני בעקבות כמה שיחות עם קולגות, אנשי UX שמודדים את התנהגות המשתמשים שלהם, והיו להם כמה תהיות מתודולוגיות. הם משום מה הניחו שבתור בעל תואר עם תיזה במדעי החברה אני אמור להבין משהו בסטטיסטיקה. וזאת הנחה מאוד מוצדקת, אבל כידוע "אמור" זה שם של נהר ברוסיה.
בסוף, בין אם הצלחתי לכוון אותם קצת, ובין אם הם הלכו לחפש מישהו פחות מאכזב, אבל אחרי כמה שיחות כאלה יצאתי בהרגשה שנראה שיש לי איזושהי תפיסה מעורפלת של איך הדברים אמורים לעבוד, אבל אני לא באמת מבין, קל וחומר מסוגל להסביר למישהו אחר.
אז הפוסט הזה הוא קודם כל ניסיון שלי להתחיל להבין את הסיפור, ובתקווה שעל הדרך זה יעזור גם לאחרים.
אבל להבין מה בדיוק? סטטיסטיקה היא תחום קצת גדול, ומינה צמח אני כבר לא אהיה. אני רוצה להבין רק דבר אחד — בגדול הדבר היחיד שמעסיק אותנו ב-UX — מתי ניתן להגיד שממשק א' נותן תוצאות שונות מממשק ב'. ו"תוצאות" זה כידוע התנהגות משתמשים. אז למעשה "מתי אפשר להגיד בביטחון שההתנהגות של משתמשי ממשק א' שונה מההתנהגות של משתמשי ממשק ב'".
הבעיה כאן מתחילה בצורת הרבים, "משתמשים". אם היה מדובר ב"משתמש" (או במשתמשת), החיים היו הרבה יותר פשוטים. ובאמת קורה שמאפיינים מסכים המיועדים למשתמשים בודדים ספציפיים, בד"כ ההנהלה הבכירה ביותר של ארגוני ענק (אני אישית נתקלתי בזה בבנק גדול), ואז אפשר פשוט להראות להם ולבדוק מה הם אומרים (למרות שבמקרים כאלה ממש אין להם זמן אליך, שזו בעיה אחרת). אבל ב-99% מהמקרים קהל היעד הוא רחב יותר, מגוון יותר, ובעיקר – עלום יותר. איננו מכירים את המשתמשים האמיתיים ברמה השמית, לא משנה כמה תמונות של פרסונות נתלה על הקירות. וכאן נכנסת הסטטיסטיקה. שהיא הדרך הכי טובה שיש לנו לפעול בתנאי אי-וודאות, למעט כמובן קריאה בקפה, שראיתי כבר שיטות אפיון גרועות ממנה.
בשלב זה אמורים להיכנס מונחים מרטיטים כמו אוכלוסיה, מדגם, שונות, התפלגות, סטיית תקן, חד-זנבי ודו-זנבי ושאר מרעין בישין. אבל הם לא ייכנסו מהסיבה הפשוטה של הירדמות ספונטנית ובלתי-נשלטת שלי בתגובה אליהם. הנה, בין שני המשפטים האחרונים דפקתי שנ"צ. כן יש מצב שחלק מהמושגים יבזיקו בהמשך כדי לקשור בין המחוזות המטאפוריים אליהם אני נוטה להסחף, למונחים קצת יותר קונקרטיים שניתן להתקל בהם ביומיום בסמטה חשוכה. או במשרד מואר במקרה שלנו.
אנשים ממוצעים באמצע הדרך (כמעט נעמי שמר)
בואו נתחיל במשהו קל, והגיוני כמו שהוא מציאותי. נקח את כל האנשים הבוגרים בעולם, ונבקש מהם להסתדר לפי גובה. נקבל שורה לא קצרה של כ-7 מיליארד איש, שבקצה השמאלי שלה יבצבץ ג'ונריי בלאווינג הפיליפיני ומעל הקצה הימני יתנוסס סולטן קושן הטורקי.
אבל זה יהיה יותר מדי אנשים ואין מקל סלפי מספיק ארוך כדי שכולם ייכנסו לפריים. לכן נרצה לצמצם שורות קצת. אז נבקש מהם ליצור טורים – שכל האנשים בגובה מסוים יעמדו בטור, אחד אחרי השני. טור של 1.78, טור של 1.79 וכו'. מאחורי ג'ונריי וסולטן לא יעמוד אף אחד, כי אין עוד אנשים בגובה שלהם. גם השכנים המיידיים שלהם די בודדים. אבל די מהר נשים לב שככל שמתרחקים מהצדדים, כך הטורים מתארכים, ויש יותר ויותר אנשים בכל גובה נתון (תעשו את התרגיל הזה בראש עם כל מי שאתם מכירים ותקבלו תמונה מאוד דומה). אי-שם באזור המרכז (בטח בפתח תקווה) יהיה את הטור הכי ארוך, שבו יעמדו האנשים בעלי הגובה הכי נפוץ בעולם. בשלב זה נקח רחפן, נעלה אותו גבוה לאוויר, ונצלם את כל הסיפור מלמעלה, בתנאי כמובן שאף סלב ישראלי לא יחליט להתחתן באמצע הניסוי ויסגור לנו את השמיים. הצורה שנראה מלמעלה היא זו: בודדים בקצוות, וטורים יותר ויותר ארוכים ככל שנלך פנימה, לכיוון פתח תקווה.
בשלב זה נחזיר את הרחפן למטה כי נגמרה לו הבטריה, ובינתיים נבקש מכולם להסתדר הפעם לפי משקל, עדיין בטורים. רוב האנשים יזוזו כמה טורים ימינה או שמאלה, ובעלי ה-BMI החריג יזוזו די רחוק. יש סיכוי טוב שמשמאל ימשיך להתנפנף לו בבריזה ג'ונריי בלאווינג, בעוד שמצד ימין יעגון חאליד בין מוחסן שעארי הסעודי, על 460 קילוגרמיו. אחרי שהכיסאות המוסיקליים יסתדרו, נעלה את הרחפן שוב, ויואו, איזה קטע! מלמעלה לא רואים כל שינוי, הצורה הסופית נראית בדיוק אותו דבר – עם בודדים בקצוות, וטורים הולכים ומתארכים לכיוון גוש דן. זה יקרה גם אם נבקש להסתדר לפי מידת הנעליים, גודל האזניים, רמת הברזל בגוף, היקף הראש, היחס לביבי (בצד ימין יהיה ביבי), ופחות או יותר כל משתנה טבעי אחר.
אם אי-פעם שמעתם את המושג "התפלגות נורמלית" אז זה בדיוק זה. והיא נורמלית לא בקטע ערכי-שיפוטי של "תגידי, את נורמלית?!" אלא בזה שכך מתנהגות רוב התופעות הטבעיות בעולם, כלומר זו הנורמה. בכל תופעה כזו יש כמה קיצוניים ויש הרבה במרכז, והמעבר ביניהם הדרגתי. וההתנהגות הזו היא כה נפוצה, שבמדעי החברה, כאשר מסתכלים על קבוצה גדולה של אנשים ואין סיבה להניח התנהגות יוצאת דופן, מקובל להניח שאותם אנשים מתפלגים נורמלית במדד הרלוונטי (מניסיון מר — את ההנחה הזאת שווה לבדוק). למעשה, ובהכללה גסה מאוד, כאשר מנסים לאתר הבדל סטטיסטי בין שתי קבוצות של בני-אדם, בפועל בונים שתי התפלגויות כאלה, אחת עבור כל קבוצה, ובודקים האם הן מספיק שונות זו מזו כדי שאפשר יהיה לטעון שהן מתארות קהלים שונים. והן יכולות להיות שונות בכל מיני צורות, שתיכף נעבור על כמה מהן.
אבל כל הסיפור הזה קורה מאחורי הקלעים, ואנחנו בכלל אנשי ממשק, אז מה אני מבלבל לכם בשכל? יאללה conversion!
יש המכורים לטיפה המרה (מאיר אריאל)
על אף האמת שבדבריו של הטרובדור הנודד, טיפה המרה זה לא ממכר. טיפה המרה זה די מאכזב, למעשה. המון המרה — זה כן ממכר! במיוחד לאנשי UX. אז כדי להגיע להמון המרה אנחנו רוצים לבדוק אם כפתור ירוק ממיר יותר טוב מאשר כפתור כחול. עושים A/B test, מציגים למשתמשים שונים גרסאות שונות — חצי רואים ירוק, חצי כחול. בסוף היום רואים שבירוק 10% מהמשתמשים לחצו, ובכחול — 15%. הכחול יותר טוב. אבל מה, בדיוק היה יום העצמאות ואנחנו אוהבים כחול ביום העצמאות, אז אולי זה לא מייצג. עושים עוד יום. הפעם הירוק מוביל ב-10%. אבל מה, בדיוק היה משחק של מכבי חיפה אז לא פלא. ובסך הכל מיום ליום קיבלנו תוצאות הפוכות, אז מבינים שכדאי לצבור קצת יותר מידע. בואו נריץ את זה למשך חודש.
בודקים אחרי חודש, רואים שבכפתור הירוק יש ימים ממש מוצלחים ויש ימים ממש גרועים, ורוב הימים הם ככה באמצע. ובכפתור הכחול – אותו הסיפור. כי זו תופעה טבעית, כן? שמתפלגת נורמלית. יש מעט קיצוניים והרבה ככה פרווה. אבל נראה שבסך הכל המספרים של הכחול טיפה יותר גבוהים. מנסים לקבל תמונה מייצגת, סוכמים את הכל, מחלקים במספר הימים, רואים שהממוצע הירוק באמת גבוה מהממוצע של הכחול — 13% המרה לעומת 10%. שלכאורה זה נראה סבבה (ולא נכנס לבעייתיות של השימוש בממוצעים, המדד להמחשה בלבד). אבל מקודם כבר הייתה לנו תוצאה סבבה, גם ביום הראשון וגם בשני, רק שהן היו הפוכות, שזה פחות סבבה. ומי יודע, אולי אם נשווה את זה לחודש אחר, דווקא הירוק יצליח יותר? הרי את הסיפור הזה אפשר לסחוב עד אינסוף — אם תוצאות של חודש אינן משכנעות אז נשווה תקופות של חודשיים, של שלושה, של שנה? הכפתור הרי מחכה, הוא צריך צבע. מתי נוכל להחליט שהתוצאה היא אמיתית ולא איזה פוקס? זה כמובן תלוי, ובדיוק בשביל זה אנחנו כאן.
נגיד שכבר ביום הראשון היינו רואים הבדל אדיר — רק 5% מהקבוצה הירוקה היו לוחצים על הכפתור שלהם, מול תוצאה של 90% בקבוצה הכחולה. שום יום עצמאות לא יכול להסביר משהו כזה, זאת תוצאה חריגה על רמת ההזויה ושווה לבדוק האם רקע האתר אינו ירוק גם הוא במקרה, כך שהכפתור נעלם עליו. אולי המהדרין ימשיכו עוד יום-יומיים ליתר ביטחון, ואם היחס נשאר באותו סדר גודל אז אין סיבה להמשיך לחכות, זה פשוט לזרוק את הכסף לפח. זה אומר שגודל ההבדל בין הקבוצות (מה שנקרא "גודל אפקט") כבר יכול להגיד לנו שאין מצב שמדובר במקריות וכנראה שיש הבדל אמיתי בין שתי הגרסאות. אני מניח שזה לא מפתיע אף אחד.
הדבר השני שמשפיע הוא גודל הקבוצה. אם מצאנו הבדל של 10% על סמך קבוצות של 20 איש, זה לא אומר כלום. בקבוצה הכחולה 10 אנשים לחצו, בקבוצה הירוקה 11 איש. הירוקה היא 10% יותר טובה מהכחולה, אבל בפועל זה כולה בן אדם אחד, היום הוא העדיף את הירוק, מחר הוא יזרום יותר על הכחול. אבל אם מצאנו את אותו הבדל של 10% בין קבוצות של 2,000 איש (1,000 המרות אל מול 1,100), זה כבר הבדל של מאה איש, וזה בהחלט משמעותי. זה נכון שהמאה האלה עדיין מורכבים מאנשים נפרדים שיכולים לזרום היום על הכחול ומחר על הירוק, אבל זה שבאותו יום כולם החליטו לזרום דווקא על הירוק בלי שמכבי לקחה את הסופרבול (מצבי בכדורגל הוא שני רק למצבי במתמטיקה), זה כבר מאוד לא סביר. בסך הכל גם השפעת מספר הנבדקים נשמעת אינטואיטיבית למדי.
החלק הלא לגמרי אינטואיטיבי הוא שזה עובד גם לכיוון השני – כלומר לא "10% מתוך כמה אנשים" אלא גם "אילו 10% בדיוק", או "שיפור של 10% אל מול מה". בקבוצה של 100 איש, השיפור מ-0 ל-5% הוא משמעותי מאוד. השיפור מ-95% ל-100% גם הוא משמעותי, מאוד לא סביר שזה מקרי. אבל כאשר מדובר באותו הבדל של 5% אבל הפעם הוא בין 40% ל-45%, יש סיכוי סביר שמדובר בפוקס.
זה מספיק קרוב הפעם (ישי לוי)
השאלה המתבקשת בשלב הזה היא מי בדיוק שָׂמני לקבוע מה משמעותי ומה לא, ומה פתאום אני מחליט פה מה סביר ומה לא סביר. וזה דווקא סיפור מעניין. העניין הוא שבאחד הלילות, לפני כעשור וחצי, נגלה אליי בחלום סר רונלד איילמר פישר, אבי הסטטיסטיקה, והעניק לי חוברת שלמה של לוחות סטטיסטיים סבוכים. כשהתעוררתי, ראיתי את החוברת מונחת ממש לידי! כמובן שהתרגשתי נורא עד שנזכרתי שיום לפני הזעתי כמו חמור במשך שעתיים בקופי סנטר כדי לצלם עותקים לכל החבורה שלנו מהלימודים. בקיצור, יש נוסחאות שמתארות את הקשר בין כל הדברים האלה ועוד מלא דברים שהבטחתי שאני לא אכנס אליהם (כמה נוח!), ובסוף נותנות מספר. ויש טבלאות שאומרות: עבור מספר משתתפים X, הסיכוי לקבל את התוצאה שלך באופן מקרי הוא Y. אם אתה מעל Y, אשריך, אפשר להניח שמדובר בתוצאה אמיתית ולא מקרית". ומכיוון שסטטיסטיקה היא, איך לאמר, עניין סטטיסטי, תמיד ייתכנו חריגות. לכן הטבלאות מנסות לכסות את התחת המרובע שלהן והן מוסיפות: "אנחנו בטוחות במה שאמרנו ברמה של 95%. אם אתה רוצה וודאות של 99% למשל, אז Y לא יספיק, אתה חייב לפחות Z. ואם אתה רוצה וודאות של 100% אז לא הבנת מה זה סטטיסטיקה".
עכשיו, זוהי דרך קצת מסורבלת לתת תשובה, ולכן המציאו את המילה הגאונית "מובהקות". וכמו כל גאון, היא סובלת מזה שאנשים פשוט לא מבינים אותה. ככשואלים אנשים שעשו בדיקות האם התקבלו תוצאות מובהקות הם אומרים "כן". כשמתחילים לחפור טיפה, מסתבר שב"כן" הם רצו להגיד "היה הבדל מספיק גדול כדי שאני אוהב את מה שיצא. בראשון 50%, בשני 60%, איזה יופי, עשרה אחוז, מובהקות אחושילנג מובהקות". אבל זאת לא המשמעות. מובהקות היא לא עניין של דעה או של החלטה, אלא היא נמדדת בעזרת אותן נוסחאות אל מול אותן טבלאות, שבסוף אומרות האם התוצאה היא מובהקת או שלא – כלומר, האם הסיכוי לקבל את התוצאה באופן מקרי עובר רף מסוים של וודאות שקבעת לעצמך, או שלא עובר אותו. הביטוי "נראה לי" לא מופיע כאן בשום שלב ובשום מקום. אמנם את הרף כן כל אחד קובע לעצמו, אבל במדעי החברה מקובל לעבוד עם 95% וודאות וניתן להחמיר אותו. אפשר בוודאי גם להקל ולעבוד עם 50% וודאות, אבל אז הרבה יותר זול ומהיר להטיל מטבע – למה להסתבך עם מדע? יתרון נוסף של המטבע הוא כמובן שאפשר להמשיך להטיל עד קבלת התוצאה המבוקשת. ואחר-כך גם אפשר לקנות איתו ארטיק, מה שאי אפשר לעשות עם מובהקות (אומר מניסיון).
לשמחת כולנו אנחנו חיים בעידן שבו טבלאות זה לחלשים, או לנטולי אינטרנט. ברשת יש מלא מחשבוני מובהקות שנועדו ספציפית עבור A/B testing והם מפשטים את כל הסיפור עד כמה שרק ניתן. לא צריך להיכנס לשונויות, סטיות תקן, דרגות חופש, רווחי סמך, ולא צריך אפילו להכיר את המושגים הנפלאים "טעות מסוג ראשון" ואחיו "טעות מסוג שני" (טריוויה מעניינת – הבן אדם שהגה את השמות האלה לקח פעם מקום ראשון בתחרות "האיש בעל הכי מעט דימיון בעולם"). המחשבון החביב הזה, לדוגמא, מבקש להזין רק שני דברים – כמה נבדקים היו בכל קבוצה, וכמה המרות נרשמו. ובסוף אומר לך האם התוצאה מובהקת ועד כמה ניתן להיות בטוחים בה.
הקטע הכי מקסים בעיניי הוא שהם החביאו את ההודעה על מובהקות סטטיסטית במקום הכי נידח שבו זה עדיין נחשב כאילו שהם מציגים את זה. אני מניח שזה נובע קצת מהתפיסה שהביטוי הזה מפחיד אנשים, אך בעיקר מהעובדה שרובם המוחלט של A/B tests פשוט לא מניבים תוצאות מובהקות. גם בגלל שלרבים מהעוסקים במלאכה אין שום רקע מתודולוגי ומבחינתם ניתן להריץ A/B test כדי להשוות בין גוגל דוקס למיקרוסופט אופיס (שזה כמו למדוד זמנים של מרוץ פורמולה 1 עם שעון קוקיה: אפשרי, אבל רק אם ממש לא אכפת לך מהתוצאות), אבל גם משום שבהמון מקרים פשוט אין הבדל, ולאף אחד לא באמת אכפת אם הכפתור הוא כחול או ירוק (זאת למורת רוחו של בחור שהתפאר באזניי שהוילונות בחדר הישיבות של המשרד שלהם הם כתומים בגלל שהמחקרים מראים שכתום מעודד אנשים לקנות). כך שהמון מבחנים לא יוצאים מובהקים סטטיסטית, אבל למה לבאס בן אדם שטרח ומצא אותך בגוגל והשתמש במחשבון שלך, ממש כמו גדול? בואו נראה לו באותיות גדולות את השיפור בהמרה, ואילו את העובדה הזניחה שכל זה חסר משמעות לחלוטין – נציין בקטן ורק עבור מי שמבין. בלי שום קשר, לבן שלי יש טלפון צעצוע שנראה קצת כמו סמארטפון, עושה אורות וקולות, הוא מסתובב איתו שעות, מעמיד פנים שהוא מדבר עם סבתא, אנחנו כמובן משתפים פעולה, כולם מבסוטים, יופי של דבר.
אני רוצה לציין סוג נוסף של מחשבון, שהוא דווקא יותר מעניין בעיניי. ישנו חשש מאוד נפוץ לגבי גודל הקבוצות, והאם באמת ניתן להסיק משהו מקבוצה של 40-50 איש (הנה, תיכף מסיים את הפוסט בלי להגיד "מדגם").
למעלה דיברנו על השפעתם של שלושה דברים – גודל הקבוצה, עוצמת השינוי, והערכים הקונקרטיים של השינוי (האם חמשת האחוזים שלקחנו כדוגמא הם 0-5% או 50-55% או 95-100%). המחשבון הזה מאפשר לשחק עם העוצמה והמהות של השינוי ולראות כיצד זה משפיע על גודל הקבוצה הנדרשת.
שימו לב — ככל שהשינוי הוא דרסטי יותר — גם כשלעצמו וגם יחסית למצב הקיים (baseline) — כך נדרשים פחות נבדקים כדי לאתר אותו. זה נשמע מנוגד לאינטואיציה, אבל זה כנראה בגלל שהתרגלנו שעל דברים טובים משלמים יותר. תחשבו על זה ככה — שינוי גדול רואים יותר מהר. עצמים גדולים נראים יותר בקלות. כדי להבחין בין שני גוונים קרובים של אותו צבע, נרצה להתסכל מקרוב ואולי נקח כמה דקות. ההבחנה בין צבעים רחוקים היא מיידית. כדי להיות בטוחים בקיומו של הבדל גדול, מספיק להריץ מעט אנשים, והנה כמה מספרים (אני מעתיק מהמחשבון, אל תגלו לאף אחד):
- אחוזי המרה נוכחיים: 2%. אחוז השינוי שרוצים לאתר: 1000%. שינוי אדיר וקיצוני. מספר הנבדקים הדרוש: 2.
- או, אם לנסח את זה בצורה שתרים פחות גבות — השינוי היחיד שניתן למצוא עם שני נבדקים הוא שינוי קיצוני מאוד. יותר טוב?
- המרה של 50% עם שינוי של 50%: 17 נבדקים.
- המרה של 40% עם שינוי של 10%: 1,600.
- המרה של 30% עם שינוי של 5%: 41,000.
- אם יש לנו אתר מוצלח במיוחד עם 1% המרה גאים, ואנחנו כל-כך עפים על עצמנו שרוצים לאתר בו שינוי פצפון שיביא לעלייה של 1% (כלומר, ל-1.01% בסה"כ, לא ל-2%), נוכל לסגור עניין עם 27,000,000 נבדקים אמיצים בכל קבוצה. שטויות, נביא סינים, מה הסיפור.