תשכחו מ A/B testing, הגיע הזמן ל A/Z testing

כשעשיתי את הצעדים הראשונים שלי בשיווק, כל הזמן השתמשתי באתר של Apple כרפרנס. כולם באותה תקופה התייחסו אליו כאתר הכי טוב בעולם וככזה שצריך ללמוד ממנו. מאיך התפריט שלהם מעוצב, הנביגציה, הטקסטים. אחרי כמה חודשים הבנתי כמה זה אבסורד להשתמש באתר הזה כרפרנס. מבקר באתר של Apple  מגיע לחברה שהוא מכיר ואוהב, לאחר שראה את הברנד שלהם בכל מקום אפשרי במשך שנים ולרוב יכנס לאתר בכוונה מאד ברורה. המבקר באתר שלי לא יודע עלינו כלום, לרוב מגיע בלי שום כוונה ובטח שלא נותן לנו יותר מדי קרדיט. אין שום קשר בין מה שעובד ל Apple למה שיעבוד לנו.

למה אני מספרת על האתר של Apple בפוסט הזה? לקחו לי כמה שנים להבין שלעשות A/B testing  מסורתי זה למעשה לחזור על אותה סוג טעות. A/B testing היא מתודולגיה שבבסיסה מתאימה לאתרים עם המון טראפיק ועם בסיס עיסקי טוב. הבעיה היא, שהמתודולוגיה הזו חלחלה לסטארטאפים וחברות אחרות שרחוקים מאד מלענות על הקריטריונים האלה. אני, וכל הסטארטאפים האחרים, עסוקים בלבדוק את ההשפעה של שינוי צבע הכפתור, הלייבל על הכפתור או אחד מהאימג׳ים באתר. המלחמה הזו היא אבודה מראש. צריך כמויות אינסופיות של תנועה, לדעתי לפחות בעשרות אלפים בחודש, כדי להסיק מסקנות נכונות. צריך למדוד את ההשפעה לאורך כל ה funnel, מה שאומר שלא מספיק רק הרבה תנועה אלא צריך לפחות כמה מאות המרות (לרוב זה מתרגם בלקוחות משלמים) כדי לערוך ניסוי נכון. כלומר, אם למשל משנים את הלייבל על כפתור ההרשמה הראשי ל “Try it for free״, יכול להיות שאחוז הקליקים עליו יעלה מאד, אבל, לאורך כל המסלול זה לא ימיר יותר משתמשים ללקוחות משלמים. דבר בעייתי אחר הוא, שאם נודה על האמת, לרוב המוחלט של A/B tets אין השפעה עצומה. למשל, יכול להיות ששינוי צבע של כפתור מאדום לכתום הוביל לעליה באחוז אחד בהרשמות. עבור חברה גדולה זה הבדל משמעותי שמאפשר להוציא תקציבים על הבדיקה, אימות, מדידה לאורך ה funnel וכו׳, אבל עבור סטארטאפים ואתרים קטנים שינויים כ״כ קטנים לרוב לא מצדיקים את המאמץ.

אז מה כן אפשר לעשות אם אין המון טראפיק?

בגלל ש A/B testing מתאים יותר לאתרים עם הרבה מאד תנועה, ה best practice שלו הוא שינויים קטנים – לייבל על כפתור, אימג׳, צבע של כפתור, כותרת, מיקום של כפתור, לפעמים קצת יותר. ההבדלים בתוצאות יהיו לרוב יחסית קטנים. באתר עם כמה מאות או אלפי מבקרים בחודש זה כמעט בלתי אפשרי למדוד את זה. גם שינוי של 10% לטובת test  מסויים, למשל 400 איש לחצו על כפתור עם לייבל אחד מול 440 על לייבל אחר זה לא הבדל מספיק גדול לדעתי. אם A/B testing מבוסס על שינויים קטנים יחסית, התפיסה שאני מאמינה בה לחברות שעדיין נמצאות בשלב ה growth היא A/Z testingכלומר, טסטים שונים קיצונית זה מזה. זה אמנם מצריך הרבה יותר עבודה אבל יכול באמת להוביל לאופטימיזציות משמעותיות.

בואו נקח לדוגמה אופטימיזציה של landing page. הפרקטיקה הרווחת היום היא בניית דף מסויים, לראות שהוא עובד בסדר (פחות או יותר) ואז להתחיל להריץ עליו בדיקות של שינוייים מינוריים יחסית. האני מאמין שלי הוא להתחיל עם לפחות 3 דפים שונים באופן קיצוני, מבחינת העיצוב, ה flow והמסרים. בניגוד ל A/B testing שבו בטראפיק נמוך קשה לקבוע תוצאות, במצב של בדיקות מאד קיצוניות, גם תנועה נמוכה תתן תוצאות חד משמעיות. ברגע שמשהו עובד משמעותית יותר טוב מהאחרים, אני מתחילה לייצר כמה ורסיות עליו. וככה ממשיכים.

תחשבו על השיטה הזו קצת כמו המשחק של הניחושים של איזה אישיות מפורסמת אני (או למתכנתים בינכם, תחשבו על אלגוריתם מיון):

בדרך כלל תתחילו עם שאלות כמו ״אני גבר או אשה?״, ״אני דמות אמיתית או לא?״, ״אני צעיר או מבוגר?״. ולפי זה תתכווננו על הכיוון הנכון. אני מאמינה שכמו במשחק, גם באופטימיזציה של אתר יש ׳תשובה נכונה׳ למה ימיר יותר טוב וזו כנראה הדרך הכי נכונה ומהירה להגיע אל התשובה הנכונה. אם אמשיך בדימוי הזה, מבחינתי הפרקטיקה של A/B testing כמו שהרוב המוחלט מבצעים אותה היום, זה כמו להתחיל את המשחק ולשאול ״אני גבר בן 55 או 56?״, ״אני דמות מצויירת עם מכנסיים ורודים או אדומים?״, בהנחה שהבסיס לא נכון יקח אינסוף זמן להגיע לתשובה הנכונה.

איך מתחילים?

אני בדרך כלל מתחילה עם 3 גרסאות מאד שונות. מהניסיון שלי, ההבדלים שמובילים לתוצאות שונות באופן משמעותי, הם דווקא במסר או ב flow  ולא בעיצוב. הפוקוס שלי בנסיונות השונים יהיה על מה אני מסבירה למבקרים ובאיזה דרך אני לוקחת אותם ופחות על צבעים שונים או עיצוב שונה. שלא ישתמע שאני לא מאמינה שלדברים האלה יש הרבה משמעות, אני פשוט חושבת שהם בדרגה שניה למסר.

אחד הדברים שאני אוהבת לעשות הוא לייצר גרסת benchmark, המטרה של הגרסה הזו היא למדוד איך הרעיונות היותר קיצוניים/ משונים מתפקדים ביחס לסטנדט ואם בכלל צריך להיות יצרתיים או פשוט לבנות משהו סטנדרטי. אני בדרך כלל אוהבת לקחת רפרנס מחברות כמו Wix, Fiverr וכו׳ שאני יודעת שעשו אינסוף בדיקות על האתרים שלהם וליצור דף יחסית באותו סגנון. במקרים מסויימים ׳גרסת ה benchmark׳ עובדת מעולה ובאחרים דווקא היציאה מהקופסה גורפת תוצאות יותר גבוהות משמעותית.

אבל זה לוקח הרבה יותר זמן

נכון. אין ספק שבניית שני דפים שונים במהותם לוקחת הרבה יותר זמן מאשר לשנות צבע של כפתור. אני חושבת שהמפתח פה הוא לבחור את הקרבות הנכונים. אני מתרכזת כמעט רק בדפים המשמעותיים להמרה. כלומר בעיקר דפי הנחיתה, דף הבית, ה pricing ודף המוצר. אפשר לחלוטין להתייחס לעיצוב הראשוני כסוג של פיילוט ולא להשקיע בו יותר מדי.

דוגמאות לבדיקות שונות שהרצנו על דפי נחיתה:

ודוגמאות לבדיקות על ה flow שהרצנו על תהליך ה sign up

עוד אסטרטגיה שאני אוהבת לעשות בה שימוש כדי לקצר זמני פיתוח היא לבדוק את המסרים דווקא ב Facebook Ads   ו email campaigns. קל יותר להפיק כמה אימג׳ים או סרטונים קצרים עם מסרים מאד שונים ולבדוק איך הם עובדים מאשר לבנות דפים שונים באתר. מהניסיון שלי באוריבי, היו הבדלים עצומים באחוזי הקליקים וההרשמה במודעות פייסבוק עם מסרים שונים. אני מקפידה למדוד בעיקר את ההרשמות ולא להתמקד בקליקים. יכולה להיות פרסומת מעניינת שתניב הרבה הקלקות אבל לא תוביל מבקרים להרשם.

הנה כמה דוגמאות לפרסומות מאד שונות שאנחנו מריצים ושעזרו לי לבדוק את המסרים.

עוד דרך לבדיקת מסר היא ב subject line של אימיילים ששולחים לרשימת תפוצה (פה צריך לדעתי כמה אלפים לפחות כדי לבדוק את הכדאיות). בשבועות הקרובים, לדוגמה, אנחנו מוציאים כמה פיצ׳רים שמותאמים ל marketing agencies. המסרים יכולים להיות מאד שונים: מאיך אוריבי תעזור לך להשיג יותר לקוחות, איך תוכל סוף סוף לתקשר ללקוחות שלך את העבודה הנהדרת שאתה עושה, או יכול להיות שפשוט צריך למנות את הפיצ׳רים החדשים ומשם כבר יבינו מה הערך. לפני שאבנה לזה דף ייעודי אני מתכננת לשלוח 3 מיילים שונים (לקבוצות שונות בהרכב דומה, כמובן) עם המסרים השונים. את הדף אבנה לפי המסר שעבד הכי טוב.

אחת השאלות שבטח עולות לכם, היא, אם המסר הוא הדבר הכי חשוב, למה אי אפשר פשוט להריץ A/B testing על הכותרת של הדף? קודם כל, אם אין לכם משאבים לבדיקות של גישות יותר קיצוניות, זה ה A/B test הראשון שהייתי עושה. לרוב זה יוביל לשינוי יותר משמעותי מכל הבדיקות האחרות. גם פה, הייתי מנסה גישות מאד שונות ולא ניסוחים קצת אחרים לאותו מסר או שינוי של כמה מילים. הבעיה העיקרית היא שכדי למדוד אם מסר עובד, אותו מסר צריך להיות מיוצג לאורך כל הדף. למשל, באוריבי, אחד המסרים שעובדים לנו הכי טוב הוא “Say Goodbye to Old Analytics tools”, במקרה כזה לא מספיק רק לשנות את הכותרת, כל הדף צריך להסביר מה אוריבי מחדשת ביחס לכלים אחרים. יכול להיות שהתוצאות של דף ״רגיל״ עם הכותרת הזו לא יהיו טובות לא בגלל שהמסר לא ״קונה״ אנשים אלא בגלל הפער בין הכותרת לשאר התוכן בעמוד.

זה לא באמת קריטי לעשות split testing

נכון שזה לא בשמיים, אבל, אחד הדברים שמסבכים בדיקות לאופטימיזציה הוא הצורך ב split testing, כלומר, לנתב חצי מהתנועה (או כל משקל אחר) באתר לגרסה אחת מול ניתוב של שאר התנועה לגרסה אחרת. גם פה, הסטארטאפים לומדים מהחברות הגדולות שלא לצורך. במדידות של שינויים קטנים על תנועה מאד גדולה זה באמת סופר משמעותי, יכול להיות שעונה בשנה, שינויים בפרסום או כל גורם אחר ישפיע על התוצאות. אבל, בסטארטאפ בלי המון תנועה זה לא באמת קריטי. שיש לי גרסה חדשה שאני רוצה לבדוק, מה שאני עושה לרוב, זה פשוט להחליף את הגרסה הישנה בחדשה לכמה ימים במקום להריץ אותן במקביל. אחרי כמה ימים אני משווה את הביצועים של כל גרסה. כל עוד לא היו שינויים מאד משמעותיים בסוג המבקרים התוצאות אמינות. זה מאפשר לי להגיע למסקנות מהר יותר (כי 100% מהתנועה עוברת לבדיקה החדשה) וחוסך לי זמן של התעסקות בעוד כלי בשביל ניתוב התנועה.