אני מת על פתרונות שגם עושים את העבודה ועל הדרך גם עוזרים למטרה טובה.
נזכרתי בזה בגלל שבעת הרישום לאתר מסוים נתקלתי במנגנון CAPTCHA שעושה את שני הדברים האלה – גם מגן על האתר מפני כניסות אוטומטיות ודואר זבל, וגם עוזר להעביר ספרים ישנים לפורמט דיגיטלי. העיקרון הוא פשוט – הספרים נסרקים ועוברים עיבוד OCR – optical character recognition, כלומר המחשב מנסה לזהות את המילה המופיעה בספר. אבל כידוע המחשבים אינם יכולים לעשות זאת במאה אחוז דיוק (אחרת ה-CAPTCHA לא הייתה עובדת כמנגנון הגנה). ואז לוקחים את המילים שהמחשב אינו בטוח לגביהן, ומציגים אותן למשתמשים בתור מילת המטרה.
ורק היום גיליתי תוספת נחמדה למנגנון הזה. מנגנוני CAPTCHA רבים מציעים גם חלופה לאנשים בעלי מוגבלויות ראייה – קובץ אודיו שעליהם להקשיב לו ולהזין את הטקסט שהם שומעים. אז גם זה יכול לשרת מטרה דומה – כשם שמנסים להעביר ספרים ועיתונים לפורמט דיגיטלי, עושים את זה גם עם תוכניות רדיו ישנות. התהליך הוא דומה, והמחשב מנסה לפענח אותן באמצעות מנגנוני S2T – speech to text. וגם כאן, כשהמחשב מתקשה לפענח קטע מסוים, מעבירים את הקטע למשתמשים בתור CAPTCHA.
למי שרוצה להשתמש בזה – המנגנון נקרא reCAPTCHA וניתן להשיג אותו באתר המקושר.
למי שרוצה לדעת קצת יותר על הפילוסופיה שמאחורי העברת ספרים ועיתונים לפורמט דיגיטלי – מומלץ לקרוא את הפוסט ולצפות בוידאו בבלוג של ברק דנין שמראיין את שיזף רפאלי מאוניברסיטת חיפה.
ולמי שרוצה לדעת מדוע נצטרך כנראה להפרד בקרוב ממנגנון ה-CAPTCHA – מומלץ לבקר באתר הזה שמציע לפרוץ את המנגנון במחיר שווה לכל נפש (2 דולר עבור אלף פתרונות נכונים), עצוב ככל שזה יהיה. למרות ש"פריצה" זה לא המונח הנכון כאן – הפיתרון מתבצע ע"י בני-אדם שיושבים כל היום ופותרים קאפצ'ות, ומקבלים עבור זה כמה גרושים.