"אתה חבר שלי" - אנדרואידים מוקדמים ודיבור מלאכותי
- גור זיו
- 19 במאי
- זמן קריאה 15 דקות
עודכן: 23 במאי
מאות שנים לפני דיפ-פייק בעזרת בינה מלאכותית ותוכנות להמרת טקסט לדיבור, בנו ממציאים במאה ה־18 אנדרואידים עם ריאות מתנפחות, שפתיים גמישות ולשונות נעות כדי לדמות את הדיבור האנושי. היסטוריונית המדע ג'סיקה ריסקין (Jessica Riskin) בוחנת את ההיסטוריה של אותם ראשים מדברים - מראשיתם באוטומטונים מוזיקליים ועד לניסיונות הקפריזיים של ממציאים לגרום למכונות לבטא מילים, לנהל שיחה ולהכריז על אהבתן.
המילה "אנדרואיד", שמקורה ביוונית ופירושה "דמוי-אדם", נוצרה על ידי גבריאל נאודה (Gabriel Naudé), רופא וספרן צרפתי, רופאו האישי של לואי השלושה עשר, ולימים האדריכל של ספרייתו של הקרדינל ז'ול מאזארן - ספרייה שכללה ארבעים אלף כרכים. נאודה היה רציונליסט ואויב מושבע של אמונות טפלות. בשנת 1625 פרסם כתב הגנה על פילוסופים סכולסטיים, שלפי המסורת יוחסו להם מעשי קסם. ביניהם נכלל גם הנזיר הדומיניקני בן המאה ה־13, התאולוג והפילוסוף אלברטוס מגנוס (אלברט הגדול), שלפי האגדה בנה אדם מלאכותי מברונזה.

סיפור זה, ככל הנראה, נולד הרבה אחרי מותו של אלברטוס, אצל אלפונסו דה מדריגל (Alonso Fernández de Madrigal), שנודע גם בשם אל טוסטאדו, פרשן פורה בן המאה ה־15, שעיבד והרחיב את סיפורי הפסלים הנעים והראשים המדברים מהפולקלור של ימי הביניים. אל טוסטאדו טען כי אלברט עמל שלושים שנה כדי להרכיב אדם שלם ממתכת. האוטומטון הזה סיפק לאלברט תשובות לכל שאלותיו ובעיותיו המסובכות, ואפילו - לפי גרסאות מסוימות - הכתיב לו חלקים נרחבים מכתביו המרובים. המכונה באה אל סופה, לפי אל טוסטאדו, כאשר תלמידו של אלברט, תומאס אקווינס, ניפץ אותה לרסיסים בזעם, לאחר שנמאס לו מ"פטפטנותה ורכילותה הרבה".
נאודה לא האמין בפסל המדבר של אלברט. הוא דחה את הסיפור, כמו גם סיפורים אחרים על ראשים אוטומטיים מדברים, כ"שקריים, אבסורדיים ושגויים". הנימוק שהביא לכך היה מחסור במנגנונים: כיוון שהפסלים הללו נעדרו לחלוטין "שרירים, ריאות, מכסה גרון, וכל מה שדרוש להפקה מושלמת של קול", הם פשוט לא החזיקו ב"חלקים והאמצעים" הדרושים כדי לדבר בצורה סבירה. נאודה הסיק, לאור כל הדיווחים, שכנראה אלברט הגדול אכן בנה אוטומטון - אך לא כזה שיכול היה להשיב בתשובות ברורות ונבונות לשאלות. במקום זאת, מכונתו של אלברט דמתה, לדבריו, לפסל המצרי של ממנון, שזכה לתשומת לב נרחבת אצל סופרים קדומים: הוא היה פולט רחש נעים כאשר השמש זרחה עליו - החום גרם לאוויר שבתוכו "להידלל", כך שהוא נדחק החוצה דרך צינורות קטנים ויצר צליל לוחש.
על אף חוסר האמונה שלו בראשו המדבר של אלברט הגדול, נאודה נתן לו שם עוצמתי חדש: הוא קרא לו "אנדרואיד". וכך, במיומנות, הגניב נאודה מונח חדש לשפה: לפי מילון שפורסם ב־1695 מאת הפילוסוף והסופר הצרפתי פייר בל, "אנדרואיד" היה "מילה שלא הייתה מוכרת כלל, והומצאה כולה על ידי נאודה, אשר השתמש בה באומץ כאילו הייתה מונח מבוסס". זה היה רגע מתאים ליצירת חידושי לשון: המונח של נאודה חדר במהירות לז'אנר המתפתח של מילונים ואנציקלופדיות. בל חזר עליו בערך על "אלברט הגדול" במילון שלו. ומשם, המונח "אנדרואיד" הבטיח את נצחיותו כערך עצמאי - המצטט את נאודה ובל — בכרך הראשון של ציקלופדיית צ'יימברס מאת האנציקלופדיסט האנגלי אפרים צ’יימברס (Ephraim Chambers). בהכחשת קיומו של האנדרואיד של אלברט, נאודה העניק חיים חדשים למושג "אנדרואיד" - כקטגוריה של מכונה.

אבל האנדרואיד הראשון בפועל מן הסוג החדש, הניסיוני-פילוסופי, אשר לגביו יש תיעוד היסטורי עשיר - "אנדרואיד" במשמעותו הבסיסית אצל נאודה, כלומר מבנה דמוי-אדם פועל, המורכב מ"החלקים הנחוצים" והמכשור הדרוש - הוצג לראשונה ב־3 בפברואר 1738. המקום היה פתיחת יריד סן־ז'רמן השנתי בגדה השמאלית של פריז. האנדרואיד הזה היה שונה באופן מהותי מאוטומטונים מוזיקליים קודמים - דמויות באורגנים הידראוליים ושעונים מוזיקליים - בכך שהוא באמת ביצע את הפעולה המורכבת שהוא נראה כמבצע: נגינה בחליל. לא מדובר היה רק בתנועות סמליות שמרמזות על פעולה מוזיקלית. מבחינה זו, המכשיר היה חידוש, אך הוא ככל הנראה נראה מוכר לרבים ממבקרי היריד, שכן הוא היה מבוסס על פסל מפורסם שעמד בכניסה לגני טווילרי וכיום נמצא במוזיאון הלובר: "הרועה המנגן בחליל" מאת אנטואן קואזוו.
בדומה לפסל, גם האנדרואיד ייצג פאון (Faun) - דמות מיתולוגית שחציה אדם וחציה תיש. הפאון המכני, כמו זה מהשיש בגני טווילרי, אחז חליל. אך זה השני לפתע התעורר לחיים והחל לנגן, מבצע שנים־עשר קטעים מוזיקליים ברצף. בתחילה, צופים ספקנים שכנעו את עצמם שמדובר בתיבת נגינה עם מנגנון פנימי אוטונומי שמפיק את הצלילים, ואילו הדמות עצמה רק מדמה נגינה. אבל לא: האנדרואיד באמת ניגן בחליל אמיתי, נשף אוויר מתוך ריאותיו (שהיו למעשה שלוש מערכות מפוח), הפעיל שפתיים גמישות, לשון רכה, ואצבעות מרופדות בעור רך. על פי הדיווחים, ניתן היה אף להביא חליל אישי משלך, והמכונה הייתה מנגנת גם עליו.
האנדרואיד המנגן בחליל היה יצירתו של מהנדס צעיר ושאפתן בשם ז'אק ווקנסון (Jacques Vaucanson). הבן הצעיר מבין עשרה ילדים לאב יצרן כפפות מגרנובל, נולד בחורף הקשה של 1709, בסוף תקופת שלטונו הארוכה של לואי הארבעה עשר, בעיצומו של רעב איום ושנת הדמים הקשה ביותר במלחמה שצרפת הייתה עתידה להפסיד.
מתוך תקופה אפלה זו, עתיד היה ווקנסון להתעצב - בצוותא עם עידן הנאורות - ודמותו תיהפך לנקודת ייחוס בעולם הספרות והמדע.
בילדותו אהב לבנות שעונים ולתקן אותם. בימי לימודיו החל לתכנן אוטומטונים. לאחר תקופה קצרה כנזיר טירון בליון - שנקטעה כאשר גורם בכיר בכנסייה הורה להרוס את סדנתו - עבר בגיל 19 לפריז בתקווה להתקדם בחייו.
בתחילה שקל ללמוד רפואה, והשתתף בקורסים באנטומיה וברפואה, אך עד מהרה החליט ליישם את לימודיו בתחום חדש של מחקר: שחזור תהליכים חיים באמצעות מכונות. החלילן היה פרי עמל של חמש שנות עבודה. כאשר הושלם, הגיש ווקנסון ממורנדום לאקדמיה הצרפתית למדעים בפריז, ובו הסבר על מנגנון המכשיר. מסמך זה נחשב לראשון הידוע שהוא גם ניסיוני וגם תיאורטי, בחקר האקוסטיקה של החליל.

לאחר הופעה בת שמונה ימים ביריד סן־ז'רמן, העביר ווקנסון את האנדרואיד שלו אל הוטל דה לונגוויל (Hôtel de Longueville) - אולם מצופה זהב באחוזה גדולה מהמאה ה־16 בלב פריז. שם הוא משך כ־75 מבקרים ביום, כל אחד מהם שילם דמי כניסה גבוהים של שלושה ליבר - שכר שבועי ממוצע עבור פועל פריזאי. בין הצופים היו גם חברי האקדמיה למדעים של פריז, שהגיעו כולם יחד כדי לחזות באנדרואיד החלילן. ווקנסון קיבל את קהל המבקרים בקבוצות של עשרה עד חמישה־עשר, הסביר את מנגנון החלילן ואז הפעיל אותו לקונצרט.
הביקורות היו נלהבות. "כל פריז באה להתפעל... מן התופעה המכנית המוזרה והנעימה ביותר שנראתה אי פעם אולי", כתב מבקר אחד, והדגיש שהאנדרואיד "באמת ופיזית מנגן בחליל". מבקר אחר הסכים: הפסל המנגן היה "היצירה המכנית המופלאה ביותר" שנוצרה אי־פעם. פייר דפונטיין (Pierre Desfontaines), עיתונאי וסופר פופולרי, שפרסם את המופע לקוראי כתב העת הספרותי שלו, תיאר את פנים האנדרואיד: "הוא מכיל אינספור חוטים ושרשראות פלדה... [היוצרים] את תנועת האצבעות, באותו אופן כמו אצל אדם חי, על ידי התרחבות וכיווץ השרירים. אין ספק כי היכרותו של היוצר עם האנטומיה של האדם... היא זו שהדריכה אותו במכניקה שלו". בערך "אנדרואיד" באנציקלופדיה הגדולה (Encyclopédie), אסופה אוניברסלית של ידע בעריכת הפילוסוף והסופר דני דידרו והמתמטיקאי והפילוסוף ז'אן ד'אלמבר, הפך החלילן המכאני של ווקנסון לדגם האידיאלי של אנדרואיד. הערך, שנכתב על ידי ד'אלמבר, מגדיר אנדרואיד כדמות אנושית המבצעת פונקציות אנושיות, וכמעט כולו מוקדש לחלילן.
זמן קצר לאחר שחברי האקדמיה למדעים ביקרו בהוטל דה לונגוויל, החזיר להם ווקנסון ביקור כדי להציג ממורנדום על תכנון ותפקוד החלילן. המנגנון של האנדרואיד הונע על ידי משקולות שחוברו לשתי מערכות של גלגלי שיניים.
המערכת התחתונה סובבה ציר עם ארכובות שהפעילו שלוש מערכות מפוחים, אשר הובילו לשלוש "קני נשיפה" שונים - מה שאיפשר לריאותיו של החלילן שלושה לחצי נשיפה שונים. המערכת העליונה סובבה גליל עם זיזים, אשר הפעילו מסגרת של מנופים ששלטה באצבעות החלילן, בקנה הנשימה, בלשון ובשפתיים. כדי לתכנן מכונה שתנגן בחליל, בחן ווקנסון נגני חליל אנושיים באופן מדוקדק ביותר. הוא פיתח שיטות שונות להעברת היבטים של נגינתם אל תוך עיצוב האנדרואיד. למשל, כדי לסמן את מקצבי המוזיקה, נתן לנגן חליל להשמיע מנגינה, בזמן שאדם נוסף תופף את הקצב בעט חדה על גליל מסתובב.
בחורף שלאחר מכן הוסיף ווקנסון שתי מכונות נוספות למופע. האחת הייתה מוזיקאי אנדרואיד נוסף - רועה פרובנסי בגודל אנושי - שניגן עשרים מינואטים ומנגינות ריקוד אחרות בחליל בעל שלושה חורים שאחז ביד שמאל, בעודו מלווה את עצמו בתיפוף ביד ימין על תוף שהיה תלוי על כתפו. לחליל היו רק שלושה חורים, מה שאומר שהצלילים הופקו כמעט לחלוטין על ידי שינויי לחץ הנשיפה והפסקות הלשון של המנגן. כשניסה לשחזר את הדקויות הללו באוטומטון, גילה ווקנסון כי נגני חליל אמיתיים עושים שימוש בטווח לחצי נשיפה רחב בהרבה משחשבו בעצמם. האנדרואיד הרועה הביא עמו גם תגלית נוספת ומפתיעה: ווקנסון הניח שכל צליל נוצר משילוב של מיקום מסוים של האצבעות ולחץ נשיפה מסוים, אך גילה שלחץ הנשיפה הנדרש עבור תו כלשהו תלוי גם בתו שקדם לו - לדוגמה, דרוש לחץ גבוה יותר כדי לנגן D לאחר E מאשר לאחר C - מה שאילץ אותו לתכנן פי שניים יותר לחצי נשיפה מאשר מספר התווים עצמם. הצלילים העיליים (overtone) של תו גבוה מהדהדים בעוצמה רבה יותר בחליל מאשר אלה של תו נמוך - אך נגני חליל לא היו מודעים לכך שהם מפצים על התופעה. הפיזיקה של הצלילים העיליים הוסברה רק בשנות ה־60 של המאה ה־19 על ידי הרמן פון הלמהולץ.

המוזיקאים האנדרואידים לא רק יצרו מוזיקה - הישג שתיבות נגינה כבר השיגו מזה למעלה ממאתיים שנה - אלא עשו זאת באמצעות שפתיים גמישות, לשונות נעות, אצבעות רכות וריאות מתנפחות. הם היו סימולציות של תהליך יצירת המוזיקה האנושי, וככל שהמאה ה־18 התקדמה, החלו מתכנני סימולציות כאלה לפנות לעבר המשימה המורכבת אף יותר: יצירת מכונות שיכולות לחקות את הדיבור האנושי.
בשנת 1739, שנה לאחר שברווזו של ווקנסון הוצג לראשונה לציבור, פרסם כירורג בשם קלוד־ניקולא לה קאט (Claude-Nicolas Le Cat) תיאור - שאבד בינתיים - של "אדם אוטומטון שבו נראות מתבצעות הפונקציות המרכזיות של הכלכלה החייתית": מחזור הדם, נשימה ו"ההפרשות". לא ברור מה עלה בגורלו של הפרויקט המוקדם הזה, אך לה קאט שב לרעיון בשנת 1744, כאשר, לפי פרוטוקולי האקדמיה של רואן (Académie de Rouen), הקריא שם ממורנדום סנסציוני. קהל רב התאסף לשמוע אותו, ואחד העדים סיפר: "מונסייה לה קאט סיפר לנו על תוכניתו לאדם מלאכותי... האוטומטון שלו יכלול נשימה, מחזור דם, דמוי עיכול, הפרשה וכייל, לב, ריאות, כבד ושלפוחית שתן, ואלוהים יסלח לנו - גם כל מה שנלווה לכך".
האדם האוטומטוני של לה קאט היה אמור לבצע "את כל הפעולות של אדם חי", כולל לא רק "מחזור הדם, תנועת הלב, פעולת הריאות, בליעת המזון, עיכולו, הפרשה, מילוי כלי הדם ודילולם על ידי הקזת דם", אלא גם - ככל הנראה תוך כדי חציית הגבול הקרטזיאני הדק שמתח בין הגוף המכני לנפש הרציונלית - "אפילו דיבור והיגוי של מילים".
רעיון זה - האפשרות להדמות דיבור מובן - עורר מסורת של דיון פילוסופי במהלך המאה הקודמת. ואם היו שעדיין ראו בו רעיון דון־קישוטי, הרי שזה היה כך גם באופן מילולי: כאשר דון קישוט עצמו נתקל בראש ברונזה מדבר (שהיה מחובר לבן אדם נסתר), הוא נכבש כליל בקסמו, אף כי נושא כליו, סנצ'ו פנסה, שהיה פחות נתון להשפעה, התרשם הרבה פחות מן השיחה. בן זמנו של סרוונטס, הסופר הספרדי שכתב על כישוף, מרטין דל ריו (Martin Delrio), גם הוא דחה את האפשרות ש"דבר חסר חיים יכול להפיק את הקול האנושי ולהשיב על שאלות. שהרי לשם כך נדרשים חיים, נשימה, שיתוף פעולה מושלם של האיברים החיוניים, ומידה מסוימת של יכולת שיח מצד הדובר".

כמה עשורים לאחר מכן, נראה כי חלק מהפריטים - אם לא כולם - שברשימתו של דל ריו הפכו ברי השגה במכונה מלאכותית. בשנת 1673 כתב אתנסיוס קירכר, בהתייחסו לאגדות על ראשו המדבר של אלברטוס מגנוס ולפסלים המדברים של מצרים העתיקה, שבעוד ספקנים מסוימים מאמינים שמדובר היה ב"מכשירים שלא התקיימו כלל, או היו מזויפים, או נבנו בסיוע השטן", רבים אחרים סברו כי בהחלט ייתכן לבנות פסל שכזה, בעל גרון, לשון ושאר אברי דיבור, שיוכל להפיק קול ברור ומובחן כאשר יופעל על ידי רוח. קירכר אף כלל באותו חיבור רישום של תכנון לפסל מדבר. תלמידו של קירכר, גספאר שוט (Gaspar Schott) - אף הוא פילוסוף טבע פורה ומהנדס - אימץ גישה דומה, ואף רמז לקיומו של פסל עונה־על־שאלות שקירכר בנה עבור כריסטינה, מלכת שוודיה. אין ספק שהמורה הקודם של המלכה לפילוסופיה, רנה דקארט, עורר בה עניין בקשרים שבין דיבור רציונלי לבין גוף מכני.
אף שהרעיון של דיבור מסומלץ לא היה חדש, סביב אמצע המאה ה־18 גילו הפילוסופים הניסיוניים והמהנדסים עניין מחודש בו. הם הניחו שדיבור הוא תפקוד גופני, בדומה לנשימה או עיכול - הם לא הבחינו באופן מפורש בין ההיבטים הרציונליים להיבטים הפיזיולוגיים של הדיבור - ואפילו הספקנים ביטאו את ספקותיהם תוך התייחסות לפרטים פיזיולוגיים ולא מתוך התנגדות עקרונית. למשל, בביקורתו הנלהבת על חלילן האוטומטון של ווקנסון בשנת 1738, חזה פייר דפונטיין כי דיבור ברור לעולם לא יוכל להיווצר במכונה מלאכותית, משום שתהליך הדיבור הפיזי יישאר בגדר תעלומה בלתי ניתנת לפענוח: לעולם לא נוכל לדעת בדיוק "מה מתחולל בתוך בית הקול (לרינקס) וסדק הקול (גלוטיס)... וכיצד פועלת הלשון, קיפוליה, תנועותיה, השפשופים המגוונים והבלתי נראים שלה, כל השינויים של הלסת והשפתיים". דיבור, כך סבר דפונטיין, הוא תהליך אורגני במהותו, שיכול להתרחש אך ורק בגרון חי.
דפונטיין לא היה לבדו באמונה זו: בתקופה זו, הספקנים לגבי האפשרות של דיבור מלאכותי טענו לרוב כי בית הקול, דרכי הקול והפה האנושיים רכים, גמישים וניתנים לעיצוב במידה כזו שאין אפשרות לשחזרם באופן מכני. בסביבות שנת 1700, הגיש דניס דודאר (Denys Dodart), רופאו האישי של לואי ה־14, מספר תזכירים לאקדמיה למדעים של פריז בנושא קול האדם. הוא טען כי הקול ומודולציותיו נובעים מהתכווצויות של סדק הקול, וכי תופעות אלו "אינן ניתנות לחיקוי על ידי האמנות" (כלומר על ידי תכנון מלאכותי). הסופר והאקדמאי ברנאר לה בובייה דה פונטנל, שהיה אז המזכיר הנצחי של האקדמיה, העיר כי אין כל כלי נשיפה המפיק את קולו באמצעות מנגנון שכזה (שינוי של פתח יחיד), ושדבר זה נראה לו "לגמרי מחוץ לתחום החיקוי... הטבע עושה שימוש בחומרים שאינם ברשותנו כלל, והוא גם יודע כיצד להשתמש בהם בדרכים שאינן ניתנות לנו להבנה".
ספקן אחר, שציין את הקשיים החומריים, היה הפילוסוף והסופר אנטואן קור דה גבלן (Antoine Court de Gébelin), שהבחין כי "הרעידות המתפשטות לכל חלקי סדק הקול, זעזועי השרירים שבו, התנגשותם בעצם הלשון שעולה ויורדת, ההדים שעובר האוויר נגד דפנות הפה... כל התופעות הללו" אינן יכולות להתרחש אלא בגופים חיים. מן העבר השני, היו גם רבים שהתנגדו לדעה זו. לדוגמה, המטריאליסט הלוחמני ז’וליאן אופריי דה לה מטרי (Julien Offray de La Mettrie), בחן את חלילן האוטומטון של ווקנסון והסיק שמכונה מדברת "לא תוכל עוד להיחשב כבלתי אפשרית".

במהלך שלושת העשורים האחרונים של המאה ה־18, כמה אנשים נטלו על עצמם את משימת יצירת הדיבור המלאכותי. כולם הניחו כי צלילי השפה המדוברת דורשים מבנה שידמה ככל האפשר לגרון ולפה האנושיים. הנחה זו - שמכונה מדברת מחייבת איברי דיבור מדומים - לא תמיד הייתה הדעה השלטת בנוגע לדיבור מלאכותי. בשנת 1648, ג'ון וילקינס (John Wilkins), מזכירה הראשון של החברה המלכותית של לונדון, תיאר תוכניות לפסל מדבר שיסנתז, ולא ידמה, דיבור באמצעות שימוש ב"צלילים בלתי מובנים". הוא כתב: "ניתן לשים לב כי רעד המים דומה לאות L, כיבוי של דבר מה חם לאות Z, צליל של מיתרים לאות Ng [כך במקור], נפנוף שוט לאות Q, וכן הלאה". אך בשנות ה־70 וה־80 של המאה ה־18, בוני מכונות דיבור הניחו ברובם כי אי אפשר יהיה ליצור דיבור מלאכותי מבלי לבנות ראש מדבר: כלומר, לשחזר את איברי הדיבור ולהדמות את תהליך הדיבור עצמו.
הראשון שניסה לבנות מכונה כזו היה המשורר והנטורליסט האנגלי ארסמוס דרווין, סבו של צ'ארלס דרווין, אשר בשנת 1771 דיווח כי "המציא פה עשוי עץ עם שפתיים מעור רך, ועם שסתום בחלקו האחורי ששימש כאף". לדרווין היה ראש מדבר עם בית קול עשוי "סרט משי... שנמתח בין שני מקלות חלקים וקעורים מעט". המכונה אמרה את המילים "mama", "papa", "map" ו־"pam" ב"טון מייבב ביותר".
הבא שסימלץ דיבור היה צרפתי בשם האב מיקאל (abbé Mical), אשר הציג זוג ראשים מדברים בפני האקדמיה למדעים של פריז בשנת 1778. הראשים הכילו "כמה גלוטיסים מלאכותיים בצורות שונות [שסודרו] מעל ממברנות מתוחות". באמצעות גלוטיסים אלו, ביצעו הראשים דיאלוג בשבחו של לואי השישה עשר: "המלך מביא שלום לאירופה" – דקלם הראש הראשון. "השלום מכתיר את המלך בתהילה" – השיב השני. "והשלום יוצר את אושרו של העם" – הוסיף הראשון. "הו מלך, אב נערץ של עמך, אושרו מציג לאירופה את תהילת כס מלכותך" - סיכם הראש השני.

הרכלן וכותב הזיכרונות הפריזאי לואי פטיט דה באשומון (Louis Petit de Bachaumont) ציין כי הראשים היו בגודל טבעי, אך מצופי זהב בטעם רע. הם גמגמו חלק מהמילים ובלעו כמה מהאותיות; יתרה מכך, קולם היה צרוד והדיקציה שלהם איטית (והשיחה שלהם, ניתן היה להוסיף, לא עוררה השראה).
ובכל זאת, על אף כל זאת, לא ניתן היה להכחיש כי היה להם "כושר דיבור". חברי האקדמיה שמונו לבחון את הראשים המדברים של מיקאל הסכימו כי ההגייה שלהם הייתה "מאד לא מושלמת", אך העניקו את אישורם לעבודתו בכל זאת, משום שהיא נעשתה כחיקוי של הטבע וכללה "את אותן תוצאות שאנו מעריצים כאשר אנו מנתחים... את איבר הקול". באשומון תיעד כי חברי האקדמיה התרשמו כל כך מהאב מיקאל, שבמהלך הדגמת הכדור הפורח של האחים מונגולפייה בוורסאי, ב־19 בספטמבר 1783 - שבה הפכו כבשה, תרנגול וברווז לנוסעים הראשונים בהיסטוריה של התעופה - ששת הנציגים של האקדמיה למדעים הזמינו את מיקאל להצטרף למשלחת שלהם והציגו אותו בפני המלך כיוצרם של הראשים המדברים המפורסמים.
בשנה שלאחר מכן, כנראה ביוזמתו של המתמטיקאי לאונרד אוילר, פרסמה האקדמיה למדעים של סנקט פטרבורג תחרות פרסים שמטרתה הייתה לקבוע את טבען של התנועות (vowels) ולבנות מכשיר הדומה לצינורות "vox humana" בעוגב, שיוכל לבטא אותן. קרל גותהילף קראצנשטיין (C. G. Kratzenstein), חבר האקדמיה, זכה בפרס. הוא השתמש בגלוטיס מלאכותי ובצינורות עוגב שעוצבו לפי מיקום הלשון, השפתיים והפה בהגיית התנועות.
עוד מספר אנשים בנו ראשים מדברים לפני סוף המאה. ביניהם היה מהנדס הונגרי בשם וולפגנג פון קמפלן, אשר נשכר בגיל 21 על ידי הקיסרית מריה תרזה לשרת בחצר האימפריה הרומית הקדושה בוינה. שמו התפרסם בשנת 1769, כאשר, לשעשוע פטרוניתו, בנה קמפלן אנדרואיד טורקי ששיחק שחמט ברמה גבוהה - בזכות שחקן שחמט אנושי מומחה שהוסתר בתוכו בתבונה. כעבור שני עשורים, יצא קמפלן לגלות את סוד הדיבור המלא והברור. בשנת 1791 הוא פרסם "תיאור של מכונת דיבור", ובה דיווח כי חיבר מפוחים ותיבות תהודה לכלי נגינה הדומים לקול האנושי, כגון אבובים וקלרינטים; כמו כן ניסה, בדומה לקראצנשטיין, לשנות את צינורות ה־vox humana של העוגב. במהלך עשרים שנות ניסויים כאלה, סיפר קמפלן, הוא הונע על ידי האמונה כי "דיבור חייב להיות ניתן לחיקוי". המנגנון שיצר כלל מפוחים שדימו ריאות, גלוטיס עשוי שנהב, תעלת קול עשויה עור עם לשון מפרקית, חלל פה מגומי, פה שיכול לשנות את תהודתו באמצעות פתיחה וסגירה של שסתומים, ואף עם שני צינורות קטנים ששימשו כנחיריים. שני מנופים במכשיר התחברו למשרוקית, ומנוף שלישי היה מחובר לחוט שיכול היה ליפול על הקנה. מנגנונים אלו אפשרו למכונה להגות עיצורים נוזלים וחיכוכים: Ss, Zs ו־Rs.

מכונה זו הפיקה ממצא אמפירי המזכיר את גילויו של ווקנסון, לפיו לחץ האוויר הנדרש להפקת תו מוזיקלי מסוים תלוי בתו שקדם לו. קמפלן דיווח כי בתחילה ניסה להפיק כל צליל במילה או בביטוי באופן עצמאי, אך נכשל - מפני שהצלילים העוקבים היו זקוקים לכך שצורתם תיגזר זה מזה: "צלילי הדיבור נעשים ברורים רק בזכות הפרופורציה הקיימת ביניהם, ובקישור של מילים וביטויים שלמים". כששמע את נאומה המטושטש של מכונתו, זיהה קמפלן מגבלה נוספת על האפשרות למכן את השפה: התלות של ההבנה של ההקשר.
המכונה של קמפלן הצליחה באופן חלקי בלבד. לפי הדיווחים, היא פטפטה בקול ילדותי, חזרה על תנועות ועיצורים, והגתה מילים כמו "מאמא" ו"פאפא", כמו גם משפטים אחדים כגון "אתה חבר שלי - אני אוהב אותך בכל לבי", "אשתי היא חברתי", ו"בוא איתי לפריז", אך באופן בלתי ברור. כיום נמצאת המכונה במוזיאון הגרמני במינכן. קמפלן ותומכיו הדגישו כי המכשיר אינו מושלם, והסבירו שהוא אינו מכונת דיבור כשלעצמה, אלא מכשיר שנועד להדגים את האפשרות לבנות מכונת דיבור.
לאחר פרץ הפעילות הזה בשנות ה־70, ה־80 וה־90 של המאה ה־18, חלה ירידה בהתעניינות בהדמיית הדיבור. מספר אנשים במהלך המאה ה־19, בהם הממציאים צ'ארלס ויטסטון ואלכסנדר גרהם בל, בנו גרסאות משלהם למכונות הדיבור של קמפלן ומיקאל ולראשים המדברים מתקופות מוקדמות יותר. אך ברוב המקרים, מעצבי דיבור מלאכותי הפנו מחדש את תשומת לבם לסינתזה של דיבור במקום להדמיה - כלומר, הפקת צלילי דיבור אנושיים באמצעים אחרים, במקום לנסות לשחזר את האיברים והתהליכים הפיזיולוגיים של הדיבור עצמו.
בשנת 1828, רוברט ויליס (Robert Willis) - פרופסור למכניקה שימושית בקיימברידג' שדחה בעבר את האפשרות שתהיה אינטיליגנציה לשחקן השחמט המכני - כתב בבוז כי רוב האנשים שחקרו את טבען של התנועות (vowels) "נראה שמעולם לא חיפשו מעבר לאיברי הדיבור אחר מקורן", בהנחה שהתנועות אינן יכולות להתקיים אלא אם הופקו באיברי הקול האנושיים. במילים אחרות, הם התייחסו אל התנועות כאל "פונקציות פיזיולוגיות של גוף האדם" במקום כאל "ענף של האקוסטיקה". לטענת ויליס, אפשר בהחלט להפיק תנועות גם באמצעים אחרים. השאלה האם ניתן לדמות באופן מלאכותי את איברי הקול הפכה נפרדת מן השאלה האם ניתן לשחזר את צלילי הדיבור. אפילו בשנת 1850, כתב הפיזיולוג הצרפתי קלוד ברנאר במחברת הרשימות שלו: "הגרון הוא גרון, והעדשה הגבישית היא עדשה גבישית, כלומר תנאיהם המכניים או הפיזיקליים מתממשים רק בתוך אורגניזם חי".

האכזבה מהניסיונות להדמות דיבור הייתה כה עמוקה, עד שכאשר מהגר גרמני לארצות הברית בשם ג'וזף פאבר (Joseph Faber) תכנן ראש מדבר מרשים למדי בשלהי שנות ה־1840, איש כמעט לא הקדיש לו תשומת לב. ראשו המדבר של פאבר היה מבוסס על אלה של קמפלן ומיקאל, אך היה מפורט הרבה יותר. היה לו ראש וחזה של אדם, שוב בלבוש טורקי, ובתוכו מפוחי אוויר, גלוטיס ולשון עשויים שנהב, תא תהודה משתנה, וחלל פה עם חיך מגומי, לסת תחתונה ולחיים. המכונה הייתה מסוגלת להגות את כל התנועות והעיצורים, והייתה מחוברת באמצעות מנופים למקלדת בעלת שבעה־עשר קלידים, כך שפאבר היה יכול "לנגן" עליה ממש כמו על פסנתר. הוא הציג את המכונה לראשונה בניו יורק ב־1844, אך עורר עניין מועט בלבד. לאחר מכן לקח אותה לפילדלפיה, ושם זכה לאותה תגובה פושרת. פי. טי. ברנום יזם הבידור הנודע, מצא את פאבר וראשו המדבר שם, שינה את שם המכונה ל־Euphonia, ויצא עמה למסע הופעות בלונדון - אך אפילו ברנום לא הצליח להפוך אותה להצלחה. לבסוף הוצגה ה־Euphonia בפריז בשלהי שנות ה־1870, אך גם שם עוררה בעיקר אדישות, ולא חלף זמן רב עד שכל זכר לה נעלם.
הרגע של הראשים המדברים חלף. בראשית המאה ה-20, עברו ממציאי דיבור מלאכותי מן הסינתזה המכנית אל סינתזה קולית חשמלית. ניסיונות ההדמיה של האיברים ושל תהליך הדיבור - של הרעד של הגרון, של דרכי הקול הגמישות, של הלשון והפה הרכים - היו ייחודיים לעשורים האחרונים של המאה ה־18, כאשר פילוסופים, מהנדסים וקהל משלם היו שקועים באובססיה חולפת לרעיון שהשפה המדוברת היא תפקוד גופני, וכי ייתכן שדווקא באיברי הדיבור ניתן יהיה לגשר על הפער שהציב דקארט בין גוף ונפש. והגענו לעידן הנוכחי... רעיון "הראש המדבר" שב ונולד מחדש - אך לא כפסל נשימה עם מנופים ושסתומים, אלא כקוד דיגיטלי, רשתות נוירונים ובינה מלאכותית. לאחר עשרות שנים שבהן העדיפו מהנדסים את סינתזת הקול על פני הדמיה פיזית של איברי הדיבור, הפיתוחים האחרונים בתחום הטקסט לדיבור (TTS) ובעיקר טכנולוגיות voice cloning ו־audio deepfake הביאו את תחום הדיבור המלאכותי לשיאים חדשים. תוכנות יודעות לייצר דיבור ריאליסטי, רהוט ובעל גוון רגשי, לעיתים בלתי ניתן להבחנה מקול אנושי אמיתי. טכנולוגיות מבוססות למידת מכונה מאפשרות כיום לא רק להגות משפטים בבהירות, אלא גם לשנות טון, מבטא, מצב רגשי ודרך דיבור - הכל מתוך טקסט בלבד. ניסויים חדשים אף עוסקים בשחזור דיבור ישירות מאותות מוחיים, ללא תיווך של קול.
אם פעם ניסו לחקות את "השריקה" של הלשון או את פעולת הגרון בגומי ומתכת, היום אנו מעצבים דיבור מלאכותי ממיליארדי דגימות, באמצעות חישובים מתמטיים וסטטיסטיים אדירים. הקסם הישן של האוטומט שפותח את שפתיו ונושף דרך חליל הפך לקסם חדש - קול חסר גוף שנשמע אנושי להפליא, אך נולד כולו בתוך מכונה. מה שפעם היה אובססיה מכנית ל"שחזור תפקודי הגוף", הפך לשאלה פילוסופית חדשה: האם קול ללא גרון, או אהבה ללא לב, יכולים עדיין להיחשב אנושיים?
מאת: Jessica Riskin
מקור: PublicDomainReview
Comments