דף הבית > בינה מלאכותית

תאריך הוצאה: 01-2024

קטגוריה: עיון / ספרות מקצועית

מספר עמודים: 228

בינה מלאכותית

בעז תמיר

תקציר

בעז תמיר הוא בעל דוקטורט ממכון ויצמן ודוקטורט מאוניברסיטת בר אילן. תחומי העניין שלו כוללים פיזיקה קוונטית, חישוב קוונטי ואינפורמציה קוונטית, בינה מלאכותית, תורת המשחקים, מודלים חישוביים של מדעי החברה ופילוסופיה והיסטוריה של המדעים. פרסם עשרות מאמרים בתחומים אלו; מלמד בפקולטה ללימודים בין תחומיים באוניברסיטת בר אילן. ספרו הקודם, "פיזיקה קוונטית", ראה אור ברסלינג (2019).

פרק ראשון

הקדמה

בספר נציג ארבעה עמודי תווך של הבינה המלאכותית: רשתות נוירונים, לימוד חיזוק (Reinforcement Learning), רשתות גרפיות וחישוב גנטי. הבנה של פרקים אלו תאפשר לקוראים לצלול לעולם החדש של הבינה המלאכותית במהירות. הספר מדלג על ההצגה ההיסטורית של הבינה המלאכותית, שכן נושא זה ראוי לספר בפני עצמו. התיאור אם כך יהיה נטול הקשר היסטורי, עם החסרונות והיתרונות שבכך.

בדומה לכל ספר מדע פופולרי, כתיבת טקסט משולה להליכה בין הטיפות, בכל רמה של דיון שנבחר בה יהיה מי שימצא את התוכן קשה ומי שימצאו קל וחסר. כולי תקווה שהטקסט יאפשר ככל הניתן למתעניינים להכיר את התחום המרתק הזה ואף בעתיד לתרום לפיתוחו. השתדלתי שלא להכביר בניסוחים מתמטיים, ואולם לעיתים חרגתי מכלל זה. העיקרון המנחה היה לפרט בדיוק במידה שתאפשר לקורא המתעניין להמשיך לחקור בעצמו מאותה נקודה והלאה.

העיסוק בבינה מלאכותית הוא בעל ערך מוסף ייחודי, וכפי שטען פטריק ווינסטון, אחד מאבות התחום באחת מהרצאותיו, לימוד בינה מלאכותית עושה אותנו חכמים יותר.[1] בנוסף לכך שאנו לומדים תחום חדש, הרי שבניגוד לתחומים אחרים כגון פיזיקה, שבהם אנו מתמחים בנושא מסוים, כאן אנו לומדים דבר־מה גם על עצמנו, לומדים כיצד אנו חושבים, כיצד אנו פותרים בעיות וכדומה.

לבינה מלאכותית ישנו קשר חזק לתחומים אחרים כגון מדעי המוח, פסיכולוגיה קוגניטיבית, קוגניציה, כלכלה, תורת המשחקים ועוד. הניסיון להבין כיצד אנו חושבים הוא משותף לתחומים האלו. גם כיום רעיונות חדשים וטובים בתחום מגיעים מאנלוגיות לשיטות חשיבה בתחומים משיקים אלו.

העיסוק בבינה מלאכותית מעורר שאלות פילוסופיות כבדות כגון מה עתידו של התחום, האם באמת ניתן יהיה בסופו של התהליך להגיע לבינה אמיתית ("חזקה")? אלו תכונות אנושיות לא ניתן לדמות במחשב? אלו סכנות טמונות בטכנולוגיה הזאת? אלו בעיות אתיות עולות מהשימוש בה? ועוד. אני מאמין כי לא ניתן לדון ברצינות בשאלות האלו מבלי לנסות להבין את עיקרי הטכנולוגיה, מבלי לצלול מעט פנימה; אחרת דומה הדבר לעיסוק בפילוסופיה של המדע מבלי להכיר כלל שום תחום במדע, עיסוק שהופך להיות עקר.

אביא כאן סריקה מהירה של פרקי הספר. הפרק הראשון עוסק ברשתות נוירונים. אחד התחומים הבולטים ביותר בבינה מלאכותית בשנים האחרונות הוא תחום רשתות הנוירונים. מודל רשתות הנוירונים נולד ב־1957 מתוך כוונה לדמות רשת נוירונים אמיתית. ככל שהזמן עבר, היילוד התנתק מחבל הטבור והפך להיות מודל עצמאי. שיטת הלימוד ה־Back Propagation (או חלחול אחורנית של הטעות), הייתה ידועה זה מכבר. סיבוכיות החישוב היא זו שעצרה את התפתחות התחום שנים רבות. רק הצירוף של ארכיטקטורות רשת טובות יותר CNN‏[2] יחד עם מעבדים גרפיים חזקים אפשרו לאחרונה את הקפיצה המדהימה שעשה התחום. כיום רשתות נוירונים שולטות במרבית מערכות הבינה המלאכותית.

תפקידן של רשתות נוירונים הוא ללמוד אוסף גדול של דוגמאות ומהן להכליל לגבי דוגמאות שהרשת לא ראתה. כיום רשתות נוירונים יכולות לזהות או להפריד בין תמונות ברמה יותר טובה מאיתנו, כלומר בטעות יותר קטנה מטעות שאדם היה עושה. הן משמשות בתוכנות של זיהוי פנים, זיהוי טקסט, זיהוי אובייקטים, יצירה של טקסטים מלאכותיים, מוזיקה מלאכותית, אמנות מלאכותית, נהיגה אוטונומית, ועוד. כדי להגיע לרמה טובה של הכללה עלינו לאמן את הרשת באמצעות קבוצה גדולה מאוד (אלפים ואף עשרות אלפים) של דוגמאות. האם כך באמת אנו לומדים? האם תמיד נדרשת לנו קבוצה כל כך גדולה של דוגמאות?[3]

רשתות נוירונים לומדות בשיטת End to End, כלומר שבקצה אחד של הרשת נכניס את הנתונים, לדוגמה התמונות, ובקצה השני את הכיתוב. אנחנו לא צריכים ללמד את המערכת איך חתול או כלב נראים, מהן התכונות ה"חתוליות" המגדירות חתול ובמה הן נבדלות מהתכונות ה"כלביות".[4] הרשת תעשה בעצמה את עבודת הסיווג. היא תחפש בעצמה את התכונות המייחדות חתול או כלב. אם כך, אולי תם עידן התכנות? בהינתן בעיה של סיווג, כל שעלינו לעשות הוא לספק דוגמאות רבות, להזין אותם לתוך מבוא הרשת, ובמקביל את הסיווג הנכון למוצא הרשת. זהו ויכוח שמתנהל היום בין העוסקים בבינה מלאכותית: האם לסמוך על כוח החישוב העיוור והחזק של הרשת או שעלינו לדבוק בגישה הישנה של תכנות, או אולי לשלב בין שתי הגישות בהתאם לבעיה.

רשתות נוירונים הינן בבחינת קופסה שחורה - Black Box. אי אפשר לדעת כיצד הן הגיעו לתוצאה הנדרשת, לא ניתן לעשות Reverse Engineering לרשת. כפי שנראה בפרק א', הרשת אינה יותר מאוסף המשקלות שלה, זהו "החיווט" שלה, אני יכול ללמד אותה להגיע למשקלות הנכונים ואולם אינני יודע לחשב אותם מראש. אנו אומרים כי מערכת כזאת איננה "שקופה". לעיתים השקיפות חשובה לנו, אם למשל המערכת מנבאת את סיכויינו להיות חולים, היינו רוצים לדעת מדוע. לא היינו מסתפקים בטענה שהרשת מנבאת נכון ואפילו אם כמעט תמיד. לאחרונה החל להתפתח תחום חדש הקרוי Explainable AI והוא כולל אוסף של טכניקות המנסות לפענח את הקופסה השחורה הזאת. על בעיית השקיפות עונות הרשתות הגרפיות הנידונות בפרק ג'.

הפרק השני עוסק בלימוד חיזוק או Reinforcement Learning. לימוד חיזוק הוא מודל המייצג סוג של חשיבה או תכנון, כלומר צפייה קדימה בזמן. בכדי לבצע משימה בעלת שלבים רבים ובצורה הטובה ביותר נצטרך לתכנן את הפעולות תוך כדי צפייה קדימה בזמן. בדיוק כפי שאנו עושים כשאנו משחקים כנגד יריב כלשהו. אנו חושבים מהו המהלך שהיריב יבצע וכנגד זה מה כדאי לנו לעשות וכיצד היריב שלנו ישיב על כל תגובה שלנו וכך הלאה. משחק מעין זה דורש התבוננות קדימה, שאותה אנו יכולים ללמוד אם שיחקנו את אותו משחק פעמים רבות. אנו יכולים ללמד רובוט ללכת, ללמד מכונית אוטונומית לחנות, ללמד מחשב לשחק כנגד יריב ועוד. אנחנו נראה מספר סוגים של לימוד כזה: לימוד המתבצע כאשר נתון לנו מודל של העולם (Model Based R. L.‎) ולימוד ללא מודל (Model Free R. L.‎). אנו נראה כי כאשר יש לנו מודל של העולם הלימוד יהיה פשוט יחסית. כאשר אין לנו מודל נצטרך לדגום את העולם וללמוד ממנו כיצד להתנהג. לעיתים כאשר אין לנו מודל נבנה לנו מודל מאוסף דגימות של העולם, נוכל כעת להתנהג על פיו ואולי לחזור מדי פעם ולשפר אותו.

הפרק השלישי עוסק ברשתות גרפיות. רשתות גרפיות מייצגות מודל של העולם באמצעות אוסף של משתנים מקריים ותלויות ביניהם. רשתות כאלו מייצגות שיקולים הסתברותיים. בני אדם מגיעים למסקנות על סמך שיקולים הסתברותיים ולא שיקולים דטרמיניסטיים. לדוגמה, רשת גרפית המתארת את הגורמים ואת הסימפטומים של קבוצת מחלות מתארת את כל מה שאנו יודעים באותו התחום והיא מהווה מודל של התחום. בהינתן אוסף של גורמים ראשוניים ואוסף של סימפטומים הרשת מאפשרת לנו לנבא בהסתברות גבוהה את המחלה מתוך אוסף מחלות אפשריות. רשתות כאלו הן "שקופות" ואנחנו יכולים לנסות להבין את ההשפעות של כל גורם על משנהו, בניגוד מוחלט לרשתות נוירונים. בפרק נציג את הרעיונות והכלים המרכזיים לנתח רשתות גרפיות. כיצד נוכל לחתוך אותן לחלקים בלתי תלויים זה בזה; כיצד מדידה של משתנה מסוים משפיעה על הידע שלנו לגבי משתנים אחרים; כיצד נחשב התפלגות שולית של אחד המשתנים ברשת ועוד. רשתות כאלו משמשות כיום ברפואה והן לעיתים סבוכות ומכילות כמה אלפי משתנים מקריים.

הפרק הרביעי עוסק באלגוריתמים גנטיים. אלגוריתמים גנטיים הם משפחה של אלגוריתמים המנסים לחקות תהליך אבולוציוני של אופטימיזציה. הטבע עושה שימוש בתהליך אבולוציוני בכדי לעשות אופטימיזציה על אוסף גנים ביחס לסביבה נתונה. גם כאן יהיו לנו "גנים", "כרומוזומים", "מוטציות", "טרנספוזונים" ועוד. ה"ברירה הטבעית" תיעשה כאן באמצעות התבוננות בפונקציית מטרה שאותה אנו רוצים לחשב. אלגוריתמים שונים יעשו הכלאה ביניהם במטרה לייצר אלגוריתמים חדשים "טובים" יותר ביחס לאותה מטרה. נראה שבאמצעות אלגוריתם גנטי נוכל להגיע לתיאור אלגברי טוב של נוסחאות, של דינמיקה, נוכל לתאר אופטימיזציה של תהליך עיצוב ועוד. אלגוריתם גנטי הוא כלי חזק, עם יכולת מקבילית רחבה.

הכלים שנותנת לנו הבינה המלאכותית הם כה חזקים עד שיש ביכולתם להשפיע באופן עמוק על תחומי ידע רבים. לדוגמה, בביולוגיה ניתן להיעזר ברשתות נוירונים לתאר קיפול של חלבונים,[5] בכימיה לנבא התנהגות של מולקולות,[6] ברפואה לנבא ואו להסביר מחלה,[7] באמנות לייצר תמונות,[8] מוזיקה, טקסט ועוד. אפשר כמובן להתווכח אם מדובר בעוד כלי מחקר ויצירה, חזק ככל שיהיה, או שמדובר בטכנולוגיה שמשנה באופן בסיסי את אותם תחומים. מכל מקום, הכוח החזק של הבינה המלאכותית הוליד "חוקרים" חדשים, חוקרים שהם אנשי מדעי המחשב וגם ביולוגים, אנשי מדעי המחשב וגם אמנים וכדומה.

הדיון אינו יכול להגיע לכדי סיום ללא הביקורות כנגד רעיון הבינה המלאכותית.[9] האינטראקציה שלנו עם הסביבה בלתי ניתנת להצרנה במחשב, שכן אנו חיים ופועלים בעולם פיזי, רואים, שומעים, מריחים וממששים אותו. במונחים מודרניים יותר, הלקוחים מתחום מחקר חדש יחסית הנקרא Embodied Cognition, אינטליגנציה אנושית היא הפשטה של אינטראקציה חושית עם הסביבה. מאחר שלמחשב אין גוף, הוא לעולם לא יוכל להבין את הקשר שבין קור פיזי לבין קור במובן של אישיות, בין מחוספס במובן הפיזי לבין מחוספס במובן של אישיות. מחשב חסר גוף לעולם לא יבין ניואנסים כאלו של שפה. האם ניתן יהיה להשיב אי פעם לביקורת זו?

בשנים האחרונות התפתח תחום הבינה המלאכותית הרבה מעבר לעיסוק באופטימיזציה, חישוב ותכנון. כיום אנו מבינים שבינה מלאכותית אמורה לכלול גם בינה מלאכותית חברתית,[10] זיהוי וחישוב רגשות,[11] ואפילו לימוד של ערכים.[12] לפיכך, ההגדרה שלנו של מושג הבינה המלאכותית הינה דינמית, מתרחבת במהלך הזמן, והמימוש שלה באמצעות המחשב מאתגרת אותנו יותר.

לחשיפה לטכנולוגיות הבינה המלאכותית מספר פנים: מחד גיסא, לעיתים אובד הקסם שהיה לתחום, פתאום נראה לנו שהדברים מכניים ופשוטים יותר. מאידך גיסא, החשיפה לעקרונות פותחת בפנינו עולם חדש, מאפשרת לנו להבין כיצד הדברים עובדים, להבין מה ניתן ומה לא ניתן לעשות כרגע בתחום, ואולי אפילו להעלות רעיונות מקוריים משלנו למחקר.

א

רשתות נוירונים

יסודו של מודל רשתות הנוירונים ברעיונות שהועלו כבר בשנות ה־40 של המאה הקודמת.[13] מלכתחילה היה נראה כי ישנה אנלוגיה בין רשתות עצביות אמיתיות לבין מודל רשתות הנוירונים המלאכותיים. במהלך השנים התפתח המודל באופן עצמאי וללא קשר למחקר על רשתות עצביות אמיתיות. כיום, מרבית החוקרים בתחום מסכימים כי האנלוגיה בין המודלים הינה חלשה, ולמרות זאת, לעיתים נוכל ללמוד מכל אחד מהמודלים על אופיו של השני. בסוף שנות ה־60 התגלה לכאורה "פגם" במודל, והוא הקושי לתאר באמצעותו מעגלים לוגיים כמו XOR.‏[14] מחקר רשתות הנוירונים המלאכותיות דעך כעשור בשל אותו הקושי ועיקר המשאבים בחקר הבינה המלאכותית הופנו לתחום הסימבולי־לינגוויסטי. לימים, הפתרון לאותו קושי, רשתות עמוקות, הפך את המודל לחזק הרבה יותר, לכזה המאפשר באמצעותו לתאר כמעט כל פונקציה. יחד עם זאת, סיבוכיות החישוב נותרה בעייתית שנים רבות. אימון המודל דרש זמן חישוב גדול מדי, במיוחד במחשבי שנות ה־80 וה־90 של המאה הקודמת. בכדי לפתור בעיה זו נדרשה קפיצה נוספת, מרשתות עמוקות לרשתות קונבולוציוניות,[15] שבהן נדון בהמשך. כיום, מודל הרשתות הקונבולוציוניות בצירוף כוח חישוב חזק של מעבדים גרפים הופך את מודל רשתות הנוירונים המלאכותיות לאחד החזקים ביותר בתחום הבינה המלאכותית.

בפרק זה נתחיל בתיאור תכונותיו של נוירון בודד, משם נעבור לתיאור של רשת נוירונים. נראה כיצד ניתן ללמד את הרשת לזהות ואו להפריד בין עצמים המוצגים במבוא הרשת. נראה דוגמאות לשימוש ברשתות, נציג מודלים שונים של רשתות ונבחן כמה מהרעיונות שהועלו בתחום בשנים האחרונות.

תכונות נוירון בודד

חלק מהתכונות הבסיסיות של רשתות נוירונים ניתן לזהות כבר בנוירון בודד. התבוננו באיור א1. במרכז האיור אנו רואים את גרעין הנוירון. גרעין הנוירון מחובר לכניסות רבות מצד שמאל, אלו הדנטריטים. דנדרוס (dendros) הוא עץ ביוונית. גרעין הנוירון מחובר גם למספר יציאות מצד ימין, אלו נקראים אקסונים (axon). הנוירון עצמו הוא חלק מרשת של נוירונים. הדנדריטים של כל נוירון מחוברים משמאל להם לאקסונים (מוצא) של נוירונים אחרים, ומוצא הנוירון, האקסון, מחובר מימין לו לדנדריטים של הנוירונים הבאים ברשת.

על גבי הדנדריטים והאקסונים נוכל לראות פולסים של מתח. פולס של מתח על גבי דנדריט נקרא אקטיבציה. כל אקטיבציה תסומן ב־1 או 0, (או ב־1 ו־1‎-). בדומה לכך ננהג לגבי המתחים על גבי האקסון, 1 יסמן את העובדה שהנוירון "יורה" או פעיל (קיים פולס של מתח) ואילו 0 (או 1‎-) יסמן את העובדה שהנוירון לא יורה או לא פעיל.

לכל נוירון יש גודל נוסף הנקרא סף. נסמן אותו באות θ. הנוירון מבצע פעולת חישוב פשוטה, כמו מיקרופרוסור פשוט, הוא בודק את סכום הכניסות אליו, באם סכום הכניסות עולה על הסף הקבוע מראש (או שווה לו) הרי שהנוירון יורה (האקסון עובר למצב 1‎), ובאם סכום הכניסות נמוך מהסף הנוירון מושתק (האקסון עובר למצב 0).

ניקח לדוגמה נוירון פשוט בעל שלוש כניסות ומוצא אחד (ראו איור א2). מרחב הכניסות הוא בעל 8 מצבים 000 עד 111, בדוגמה שבאיור קבענו את הסף מראש לערך 2. את ערך הסף נרשום בתוך העיגול המסמן את גרעין תא הנוירון. חישוב פשוט מראה כי באם יש יותר משתי כניסות בעלות ערך 1, ולא חשוב אלו מהן, הרי שהנוירון יורה (סכום הכניסות שווה ל־2). לפיכך הנוירון יורה בכל המקרים הבאים: 110, 101, 011, 111. בכל שאר המקרים הנוירון מושתק.

נשים לב לכמה תכונות בסיסיות של הנוירון הבודד. ראשית, כאשר הנוירון מחשב אם סכום האקטיבציות עולה על הסף אין חשיבות לסכום האקטיבציות עצמו אלא רק לשאלה האם הסכום עולה על הסף או לא. בדוגמה שלעיל, גם שלש האקטיבציות 111 וגם השלשה 110 הפעילה את הנוירון למרות שסכום האקטיבציות שונה. במובן זה אנו אומרים שהנוירון הוא מערכת לא ליניארית. הוא לא מעביר את שלש האקטיבציות 111 למוצא גדול יותר מאשר השלשה 110.

אפשר לתאר את פעולת החישוב שהנוירון עושה באמצעות פונקציית סף. זו הפונקציה הקובעת את ערך המוצא להיות 1 אם סכום הכניסות גדול מהסף, ולהיות 0 אם הסכום קטן מהסף (ראו איור א3).

פונקציית האקטיבציה היא לא ליניארית (איננה קו ישר, אלא מדרגה) והיא זו שגורמת לנוירון להיות לא ליניארי. אנחנו נראה כי הרבה תכונות מעניינות נוצרות כתוצאה מאי־ליניאריות זו.

נשים לב גם לעובדה שהנוירון לא רגיש לשינויים קלים במבוא. שינויים קלים, למשל הוזזה של המיקום שבו מתקבל 1 במבוא הנוירון, לא ישנו את המוצא. במצב זה, שבו הנוירון מגיב באותו אופן לשלש האקטיבציות 110 ולשלשה 101, אנו אומרים שהמערכת איננה רגישה לשינויים קטנים בכניסה. אנו נראה כי תכונה כזו רצויה, הנוירון אמור להפריד בין דימויים שונים, אבל לא להפריד בין כל שני דימויים. גם חוש הראייה שלנו הוא כזה, לו היינו רגישים לכל שינוי חזותי קטן היינו מוצפים באינפורמציה ולא מסוגלים לזהות שום דבר. אנחנו תופסים את אותו גוף גם אם חלו בו שינויים קלים. אני מזהה אותכם גם אם לבשתם משהו שונה מעט ממה שלבשתם בפעמים האחרונות שפגשתי אותכם.

הנוירון מחלק את מרחב הכניסות לשני חלקים, כל הקונפיגורציות[16] שנותנות 1 במוצא הנוירון וכל הקונפיגורציות שנותנות 0 במוצא. גודל מרחב הכניסות הוא חזקת 2 של מספר הדקי הכניסה, עבור n הדקים גודל מרחב הכניסות הוא 2ⁿ, לדוגמה עבור 3 הדקי כניסה קיבלנו מרחב בעל שמונה קונפיגורציות. גודל מרחב היציאות אף הוא חזקה 2 של מספר הדקי היציאה. בדרך כלל מרחב היציאות קטן ממרחב הכניסות.

התכונות החישוביות של הנוירון הבודד הן אם כך (א) אי־רגישות לשינויים קלים במבוא; (ב) חלוקה של מרחב הכניסה לשתי קבוצות על ידי פונקציית הסף.

הנוירון הבודד יודע לזהות תכונות גלובליות של מרחב הכניסות. הוא מפריד בין קונפיגורציות עם סכום אקטיבציות גדול מהסף לבין כאלו עם סכום נמוך מהסף.

כעת נגדיר גודל נוסף, הוא משקל החיבורים, Weight. המשקל קובע את טיב החיבור בין הנוירונים. משקל גבוה משמעותו שהחיבור בין הנוירונים הוא טוב ומשקל נמוך משמעותו חיבור פחות טוב. אם המשקל מתאפס משמעותו שאין חיבור כלל. אנו רושמים את המשקלות מעל לכל דנדריט או אקסון. בהינתן משקלות, בכדי לחשב האם הנוירון יורה או לא, יש להכפיל כל אקטיבציה במשקל המתאים לה (טיב החיבור) ואחר כך לחבר את כל הביטויים ולבדוק אם הסכום שהתקבל עולה על ערך הסף, לדוגמה ראו איור א4.

לפיכך החישוב במקרה שישנם גם משקלות יהיה כדלקמן: אם סכום מכפלות המשקלות באקטיבציות גדול (או שווה) מהסף כלומר:

הנוירון יורה, אחרת הנוירון מושתק. נסכים להלן כי אם לא ציינו מספר כלשהו מעל הדנדריט או האקסון המשמעות תהיה שהמשקל הוא 1, בדומה, אם לא רשמנו ערך סף כלשהו (בתוך העיגול המסמן את גרעין תא הנוירון) אזי ערך הסף יהיה 1.

עד כאן עסקנו בהגדרות ותכונות בסיסיות של הנוירון הבודד. כעת נעבור לרשתות נוירונים.

רשת נוירונים

נתאר לעצמנו רשת של נוירונים, ניקח לדוגמה רשת פשוטה של ארבע נוירונים בשכבה הראשונה היא שכבת הכניסה, ושני נוירונים בשכבת המוצא (ראו איור א5).

אנו מסמנים את כל הקישורים, בין כל נוירון בשכבת הכניסה לבין כל נוירון בשכבת המוצא. מבחינת הסימונים רצוי לחבר בין כל נוירון בשכבת הכניסה לבין כל נוירון בשכבת המוצא, תמיד נוכל לסמן במשקל 0 קישורים שלא מתממשים. ארבע נוירונים בכניסה אל מול שני נוירונים במוצא פירושו שמרחב הכניסות הוא בעל 16 מצבים והוא מחולק ל־4 תת־קבוצות (כל הקונפיגורציות האפשריות במרחב המוצא).

הרשת יכולה, אם כך, להפריד את מרחב הכניסה לארבעה חלקים, הפרדה משמעותה זיהוי. בהינתן נקודה במרחב הכניסות (קלט), המערכת תוכל לייחס אותה לאחד מארבע אפשרויות המוצא. קבוצה של קונפיגורציות המייצגת תבנית מסוימת, אמורה להיות מיוחסת באמצעות הרשת למוצא מסוים. לדוגמה, נניח שאנו רוצים ללמד את הרשת לזהות את מספר האקטיבציות הפעילות בכל קונפיגורציה, כלומר אנו רוצים ללמד את הרשת את החישוב הבא:

משמאל לחץ רשמנו את הקונפיגורציות במבוא הרשת, ומימין לחץ את מוצא הרשת הנדרש מכל אחת מהקונפיגורציות. יש לנו, אם כך, את הערכים במבוא ובמוצא הרשת שאותה אנו רוצים לבנות, אלו נתונים הניתנים לנו מראש, זו הדרישה שאנו דורשים מהרשת. רשת כזאת תדע "לספור" את מספר הכניסות הפעילות.

כיצד נלמד את הרשת לזהות או להפריד בין התבניות? אנו מלמדים את הרשת באמצעות משחק עם המשקלות ועם ערכי הסף. אלו הם המשתנים החופשיים שנותרו לנו. עלינו לקבוע את המשקלות ואת ערכי הסף בכדי שהרשת תוכל לממש את אותן ארבע הדרישות. בהמשך נראה כיצד נעשה זאת. קביעה של המשקלות ושל ערכי הסף משמעותה "לימוד" הרשת.

אנו קוראים ללימוד כזה לימוד מונחה Supervised Learning. בלימוד מונחה המוצא הנדרש ניתן מראש ועל המערכת להתאים בין הנתונים בכניסה לבין התוצאה הנדרשת.[17] בהמשך נראה כי מערכות יכולות ללמוד לבד לזהות ואו להפריד בין נתונים, גם מבלי שמישהו הנחה אותן מבחוץ Non Supervised Learning.

נשים לב כי עבור מערכת הנוירונים "לזהות" או "להפריד" הם היינו הך, כל מה שהמערכת עושה הוא להפריד בין תכונות שונות. בכך מתמצה כושר הזיהוי של המערכת. הנתונים נצבעים ב"צבע" כלשהו מראש והמערכת לומדת להפריד בין נתונים ה"צבועים" ב"צבעים" שונים כלומר לייחס את הנתונים ל"צבע" שלהם. זיהוי כזה משמעותו הפרדה בין קבוצות של קונפיגורציות.

הנה דוגמה נוספת, נניח שאנו רוצים ללמד את הרשת לזהות צורות או תמונות. אפשר לחשוב על הנוירונים בכניסה כאילו הם מסודרים במבנה של מטריצה. נניח שכל נוירון בכניסה מחובר לתא רגיש לאור. כאשר האור המוחזר מדמות כלשהי נופל על המטריצה נוצרת מערכת של אקטיבציות המתואמת לדמות, הנוירונים המתאימים, הרגישים לאור מופעלים. נניח כי מוצא הרשת הוא נוירון בודד.[18] כעת היינו רוצים להפריד בין דמויות שונות. היינו רוצים לדוגמה כי דמות של חתול תיתן במוצא ערך 1 (המייצג "חתול") ודמות של כלב תיתן במוצא הרשת 0. אנו רוצים ללמד את הרשת להפריד בין חתולים לכלבים (ראו איור א6). הפרדה בין תמונות חתולים לכלבים כמובן שאיננה שקולה להבנה כלשהי של מהותו של חתול ואו כלב, זו יכולת ויזואלית טכנית בלבד.

כיצד אם כך נלמד את הרשת לזהות, כלומר להפריד בין התמונות? ראינו כי יש לנו שתי משפחות של משתנים חופשיים. האחת היא מערכת המשקלות והשנייה היא מערכת גדלי הסף. אנו נשחק במשתנים אלו עד אשר המערכת תצליח להפריד בין כלבים לחתולים.

כיצד עושים זאת בפועל? האם נוכל לתאר אלגוריתם מתאים?

הנה אלגוריתם פשוט לתיאור. אנו מציבים במבוא המערכת (על גבי המטריצה) תמונה של חתול, כעת נתחיל לשחק בערכי המשקלות. נניח שהתחלנו עם משקלות אקראיים. כעת נשנה את המשקלות בכדי לקבל את הערך 1 במוצא. אם התוצאה שקיבלנו היא 0 ("כלב") עלינו אם כך לשנות את המשקלות לכיוון הרצוי, ייתכן שנצטרך להגדיל חלק מהמשקלות עד שיתקבל במוצא ערך 1 כנדרש. במקרה שמוצא המערכת מכיל יותר מאשר נוירון אחד יש לעשות את אותן הפעולות לגבי כל אחד מהנוירונים במוצא.

בשלב הבא נציב במבוא המערכת תמונה של כלב, נעשה את אותן פעולות ואולם הפעם נפעל בכדי לקבל במוצא הרשת ערך 0. הבעיה היא שבכדי לקבל כעת את התוצאה הרצויה ייתכן שנצטרך לשנות חלק מהמשקלות שקבענו בשלב הקודם. בסיום שלב זה נצטרך לחזור לתמונת החתול ולתקן שוב את המשקלות שקלקלנו, וכך נמשיך שוב ושוב. בנוסף עלינו להציג בפני המערכת תמונות של חתולים וכלבים אחרים. לא היינו רוצים מערכת שיודעת להפריד בין חתול מסוים אחד לכלב מסוים אחד, אלא מערכת היודעת להפריד בין חתול כלשהו לכלב כלשהו. נצטרך להמשיך ולאמן את המערכת עבור קבוצה גדולה של דוגמאות. כיצד נחלק את הדוגמאות ומה יהיה סדר האימון זו שאלה שנצטרך לעסוק בה בהמשך. אחרי שלבים רבים של אימון חוזר ונשנה התיאוריה מבטיחה לנו כי המערכת תדע להפריד בין חתולים לכלבים, גם אם לא ראתה תמונות שלהם בעבר. כמה שלבים כאלו דרושים לנו? גם בשאלה זו נצטרך לדון בהמשך. כאשר סיימנו את אימון המערכת יש לנו ביד מכשיר חדש היודע להפריד בין תמונות של חתולים וכלבים. נוכל לבחון אותו: נציג בפניו (במבוא המערכת) תמונה של חתול שלא ראה בזמן האימון וכן תמונה של כלב שלא ראה עדיין. אנו מצפים מהמערכת שתיתן מוצא 1 עבור תמונת החתול ומוצא 0 עבור תמונת הכלב.

לימוד המערכת הוא "עיוור" אין לנו נוסחה היכולה לומר לנו מראש מה יהיו ערכי המשקלות הדרושים בכדי להפריד בין קבוצת החתולים לקבוצת הכלבים. את הערכים האלו נקבל אחרי עבודה קשה של ניסוי וטעיה. זו גם הסיבה שלעיתים רשתות כאלו מכונות "קופסה שחורה". החיווט (ערך המשקלות) שבתוך הקופסה איננו מגלה שום דבר על תכונותיה, ולהפך, בהינתן תכונות נדרשות אין לנו אלגוריתם ברור היודע מראש מהו מבנה החיווט. בדומה אין לי דרך להוכיח לכם שקופסה כזאת עובדת חוץ מאשר להראות לכם שהיא אכן נותנת את התוצאה הנדרשת על קבוצה מספיק גדולה של תמונות חדשות (שהמערכת לא ראתה) כך שתאמינו לי שהמכונה אכן יעילה.

ובכל זאת, מה ניתן לומר על תהליך הלמידה? ראשית עלינו לבחור את פונקציית הטעות, או ההפסד, loss function. אנחנו צריכים להחליט איזו סוג טעות אנחנו רוצים לצמצם, אולי ממוצע של טעויות? פונקציה כלשהי של הטעויות? נראה מאוחר יותר כי באמצעות בחירה נכונה של פונקציית הטעות נוכל להשיג מטרות שונות.

אחרי שבחרנו את סוג הטעות עלינו לבדוק אם שינויי המשקלות ושינויי ערכי הסף מגדילים או מקטינים את הטעות. נוכל לחשב כיצד השינויים הלוקליים האלו משפיעים על הגדלה או הקטנה של הטעות.[19] עלינו ללכת באותו כיוון של שינוי המשקלות היוצר טעות הולכת וקטנה. חיפוש המשקלות המתאימים דומה למהלך של אדם עיוור בנוף כלשהו הנעזר במקל גישוש בכדי למצוא את הנקודה הנמוכה ביותר. מקל גישוש יכול לעזור לי למצוא את כיוון השיפוע, במידה שהוא חיובי הגובה עולה, או במידה שהוא שלילי והגובה יורד. זיהוי כזה הוא לוקלי. אני יודע כיצד להתקדם מנקודה לנקודה אבל איני יכול לומר מראש היכן נמצאת הנקודה הנמוכה ביותר.

נתאר לעצמנו נוף על מרחב המשקלות. צירי ה־x הם ערכי המשקלות (ראו איור א7). גובה הנוף הוא גודל הטעות. נלך תמיד בכיוון של הורדת הטעות, שיטה זו נקראת Gradient Descent. נשנה כל פעם את המשקלות בצעדים קטנים בכדי להקטין את הטעות. בכל מקום על גבי פונקציית הטעות נוכל למצוא את כיוון ההליכה הנכון שיבטיח לנו הקטנה של הטעות. זיהוי כזה הוא כמובן לוקלי. אין לנו דרך לחשב מראש איפה נמצאת נקודת המינימום.

כיצד נדע מהו הגודל הרצוי של כל צעד? נעשה צעדים מספיק קטנים כדי לא לדלג על נקודה טובה (מינימלית) במרחב המשקלות (איור א7). כיצד נדע מתי כדאי לעצור את התהליך? אפשר לעצור במקרה שבו שינוי בכל כיוון נותן רק תוצאות גרועות יותר, כלומר טעות גדולה יותר, כלומר בנקודת מינימום. ואולם אליה וקוץ בה, קיימת סכנה של נפילה לנקודת מינימום שהיא לוקלית בלבד. באיור א7 אנחנו רואים כמה נקודות כאלו. בכדי לצאת מהן ולעבר מינימום טוב יותר, גלובלי, כדאי לפעמים ללכת דווקא כנגד ההיגיון ולהמשיך לשנות את המשקלות למרות שפונקציית הטעות גדלה, כך לפחות זמן מה עד לירידה חזקה יותר של הטעות.

עד כאן היה שלב אימון ולימוד המערכת. לאחר שסיימנו את שלב ה"אימון" (נניח שמצאנו נקודת מינימום כלשהי) נוכל "לבחון" את תפקודה של המערכת על מספר תמונות שהיא עדיין לא ראתה, של חתולים וכלבים. קבוצה זו של תמונות נקראת Test Set או קבוצת ביקורת. אם המערכת נתנה את התוצאה הנדרשת על קבוצת הביקורת הרי שהיא מוכנה להפעלה. במידה והמערכת נכשלה בפעולתה על קבוצת הביקורת משמעות הדבר היא שיש לחזור לשלב האימון, ייתכן שיהיה עלינו להגדיל את קבוצת האימון או לשנות בה כמה דברים.

צריך, אם כך, להפריד בין השלבים הבאים: לימוד המערכת על קבוצת אימון, Training set; בדיקת המערכת על קבוצת הביקורת, Test set; המערכת מוכנה ויכולה להכליל את מה שלמדה.

בהינתן קבוצה של תמונות, ה־training set, נוציא ממנה מראש תת־קבוצה קטנה אשר תשמש לנו בעתיד כקבוצת ביקורת, test set (נניח 10% מקבוצת האימון). אלו תמונות שאנו רוצים לבדוק באמצעותן את תפקוד המערכת. על קבוצה זו לא נאמן את המערכת, נשתמש בה אך ורק בכדי לבדוק את תפקודה, נראה בעתיד מספר דוגמאות לשיטת עבודה כזאת. במקרה שלנו אלו תמונות שברור לנו מהי התוצאה הנדרשת ואנו רוצים לוודא שהרשת אכן מקטלגת אותן כראוי.

מהו אותו תהליך של Gradient Descent ומדוע הוא נקרא כך?

בכל נקודה w נתבונן בשיפוע של פונקציית הטעות (ראו איור א8). במקום שבו הפונקציה יורדת, משמאל לנקודת המינימום באיור א8, אנו אומרים שהשיפוע שלילי (נגזרת שלילית), ונגדיל את ערכו של w בכדי להקטין את ערך פונקציית הטעות. מצד ימין לנקודת המינימום, הפונקציה עולה ואנו אומרים שהשיפוע חיובי (נגזרת חיובית), שם נקטין את ערכו של w במטרה להקטין את פונקציית הטעות. לסיכום, התוספת ל־w תהיה חיובית כאשר הפונקציה יורדת, ושלילית כאשר הפונקציה עולה. את השיפוע המקומי של פונקציית הטעות ניתן לחשב באמצעות חישוב הנגזרת.[20] אנו הולכים עם כיוון הירידה של השיפוע (הנגזרת) ומכאן מקור השם.

דוגמאות לשימוש במערכות נוירונים

נתחיל בשימוש מאוד בסיסי לרשתות נוירונים, והוא מערכת לזיהוי כתב יד.

פרספטרון: פרספטרון הוא התקן לזיהוי של איור ואו תמונה. הפרספטרון הוצג לראשונה ב־1957.[21] הדוגמאות הראשונות שהוצגו באמצעותו היו של הפרדה בין קווי אור מאוזנים למאונכים.

בדוגמה שנציג נעסוק בזיהוי ספרות (איור א9). נניח נתונה לנו מטריצה של נוירונים, ניתן לחשוב על כל אחד מהם כמו תא רגיש לאור. זו שכבת הכניסה של המערכת. על גבי מטריצת הכניסה נציג את הספרות 0 עד 9, בכתב יד. לכל אחת מהספרות יש קבוצה גדולה של דוגמאות, כל אחד מאיתנו כותב את הספרות באופן קצת שונה. אלו כולן מהוות את קבוצת האימון. המערכת אמורה לזהות את כתב היד. שכבת המוצא של המערכת מורכבת מעשר נוירונים סודרים המייצגים את הספרות 0 עד 9. בשעה שספרה כלשהי מוצגת בכתב יד על גבי שכבת הכניסה, הנוירון המתאים בשכבת המוצא אמור להיות מופעל, שאר הנוירונים אמורים להיות מושתקים. אנו אמורים לאמן את הרשת כדי לקבל את התוצאה הזאת.

מכל אחד מהנוירונים בשכבת הכניסה יוצאים אקסונים לכל אחד מהנוירונים בשכבת המוצא. כך יוצא שצמה גדולה של אקסונים יוצאת מהמטריצה לכיוון כל אחד מהנוירונים בשכבת המוצא (ראו איור א9). כעת כיצד נאמן את המערכת?

נניח שאחת הספרות מוצגת על גבי מטריצת הכניסה בכתב יד. הנוירונים המייצגים את דמות הספרה נמצאים באקטיבציה 1 בעוד ששאר הנוירונים באקטיבציה 0. כעת נניח שפיזרנו משקלות ראשונים אקראיים. כיצד נשנה את המשקלות בכדי ללמד את המערכת לזהות את הספרות?

בכל מקום שבו הנוירון בכניסה הוא 1 וגם מצב הנוירון ביציאה אמור להיות 1 עלינו לחזק את המשקל על גבי האקסון המחבר בין נוירון זה לנוירון היציאה המתאים, אם מצב נוירון הכניסה הוא 1 ומצב נוירון היציאה אמור להיות 0 עלינו להקטין את המשקל על גבי האקסון המתאים. אם מצב הנוירון בכניסה הוא 0 לא נשנה את המשקלות בינו לבין נוירון היציאה (שכן ממילא אין טעם בכך). הכלל שהצבנו כאן הוא טבעי מאוד והוא גרסה של כלל ברשתות נוירונים הידוע ככלל Hebb.‏[22]

לדוגמה, נציב את תמונת הספרה 1 על גבי מטריצת הכניסה, כעת נחזק את כל המשקלות בין הנוירונים המופעלים כעת במטריצת הכניסה אל עבר הנוירון השני בשכבת היציאה המייצג את הספרה 1 (הנוירון הראשון מייצג את הספרה 0) ונחליש את כל המשקלות בין הנוירונים המופעלים במטריצת הכניסה אל עבר שאר הנוירונים בשכבת היציאה. כך נעשה לגבי כל אחת מהדוגמאות בכתב יד לספרה 1. אחר כך נעבור על כל הדוגמאות של הספרה 2 וכך הלאה.[23], [24]

קיבלנו מערכת שמסוגלת לזהות ספרות בכתב יד. בדומה, נוכל לבנות מערכת המזהה אותיות בכתב יד.

נעבור לשני אלגוריתמים בסיסיים ביותר, רגרסיה וקלסיפיקציה (סיווג). אלו מהווים גם עמודי תווך בלימוד מכונה.[25]

רשת נוירונים לחישוב רגרסיה ליניארית

נתונה קבוצה של נקודות במרחב דו־ממדי. אנו מנסים למצוא קו ישר אשר מתאר באופן המדויק ביותר את אוסף הנקודות. אם נמצא ישר כזה נוכל לנבא באמצעותו נקודות נוספות ולתאר בקלות את כל הנקודות שבידנו. אוסף הנקודות שקיבלנו הוא קבוצת האימון שלנו.

נסמן את הנקודות ב־ . כאשר היא ערך המטרה של (t הוא target). אנו מחפשים פונקציה ליניארית, כלומר ישר אשר מתאר בצורה הטובה ביותר את אוסף הנקודות (איור א10).

בדרך כלל, הישר שבחרנו לא יתאר את כל הנקודות באותה מידה של דיוק, תיווצר כנראה טעות כלשהו בין הנקודות לבין הישר. כיצד אם כך נמצא ישר כך שהטעות הזאת היא מינימלית?

כמו כל ישר, הישר y שאותו אנו מחפשים נקבע על ידי שני פרמטרים ו־:

נתבונן ברשת הנוירונים הבאה (איור א11):

רשת הנוירונים א11 מיישמת את הישר אותו אנו מחפשים, כלומר היחס בין אות הכניסה לאות המוצא מבוטא על ידי פונקציה ליניארית פשוטה. לשם כך נצטרך להניח גם שפונקציית האקטיבציה הינה ליניארית, כלומר הנוירון מעביר את סכום האקטיבציות (המוכפלות במשקלות) כפי שהוא למוצא, מבלי להשוות אותו לסף כלשהו, רק כך נקבל את המשוואה הליניארית למעלה. נניח בנוסף כי ערך האקטיבציה של הכניסה התחתונה של הנוירון יכול להיות כל ערך על ציר ה־x.

עלינו כעת לאמן את הרשת (למצוא את המשקלות הנכונים) כך שהישר שהיא מתארת יהיה קרוב ככל היותר לאוסף הנקודות. נאתחל את הרשת באמצעות קביעה של משקלות אקראיים. בהינתן משקלות ראשוניים אקראיים, ערכי ה־y המתקבלים על ידי הרשת , כלומר , שונים מערכי ה־t האמיתיים של נקודות האימון שקיבלנו. נגדיר אם כך פונקציית טעות טבעית:

כאשר הסכום עובר על כל נקודות האימון (באיור א10 רואים דוגמאות לטעויות כאלו). הטעות היא אם כך, אוסף כל הטעויות המקומיות (או הממוצע שלהם), כלומר ההפרשים בין הערך שנתנה הרשת באותה נקודה לבין מה שהיה אמור להתקבל שם. כעת עלינו לשנות את המשקלות בכדי להקטין את אותה הטעות. שינוי המשקלות שקול אם כך ל"טיול" במרחב של ו־ על גבי ה"נוף" שיוצרת פונקציית הטעות (ראו איור א7). נשנה כל פעם את המשקלות ונבדוק את הטעות החדשה. בכל פעם שאנו בודקים את הטעות נצטרך לעבור על פני כל הנקודות כלומר כל קבוצת האימון, ככה הגדרנו את הטעות. כל שינוי כזה של המשקלות שקול לבחירה של קו אחר, עם שיפוע אחר ונקודת חיתוך שונה עם ציר ה־y. המטרה היא למצוא נקודת מינימום (גלובלית) של פונקציית הטעות[26] כלומר זוג משקלות או ישר המייצר טעות מינימלית.

כיצד נמצא את נקודת המינימום? אפשר להתחיל בבחירה של ישר כלשהו באופן רנדומלי, לחשב את פונקציית הטעות, וכעת לשנות מעט את הישר (הפרמטרים שלו) ולבדוק אם שינוי כזה מוריד או מעלה את הטעות. אם השינוי מוריד את הטעות לקבל את השינוי ולהמשיך ולשנות את הישר באותו כיוון. אם השינוי מעלה את הטעות לא לקבל אותו. תהליך כזה יכול להוביל אותנו לנקודת המינימום שרצינו. תהליך זה נקרא Simulated Annealing ועוד נזכיר אותו בהמשך. אפשר גם להגיע לנקודת המינימום בתהליך של gradient descent. בתהליך כזה אנו גוזרים את פונקציית הטעות כלומר מחשבים את השיפוע שלה במקום שבו אנו נמצאים (ערכי המשקלות הנוכחים) ומשנים מעט את המשקלות בכיוון מורד השיפוע. אנו נראה דוגמאות לאלגוריתם כזה בהמשך.

העקרונות שהוצגו לעיל יהיו טובים גם למקרה שבו הרגרסיה איננה ליניארית, כלומר פונקציה ליניארית איננה מהווה קירוב טוב לנקודות ונדרשת פונקציה יותר מורכבת שאינה ליניארית. בכדי לייצר אי־ליניאריות נצטרך להשתמש בפונקציות אקטיבציה שאינן ליניאריות. לדוגמה, ניתן להשתמש בפונקציית סף כמו באיור א3. בדרך כלל רשתות המתקרבות לפונקציות לא ליניאריות יהיו גם עמוקות.

רשת נוירונים כמסווגת (Classification)

נניח שהמערכת נדרשת להפריד בין שתי קבוצות של נקודות במרחב דו־ממדי, נקרא להן נקודות "שחורות" ונקודות "אפורות". אם ניתן באופן עקרוני להפריד ביניהן כלומר ידוע לנו כי קיים קו ישר המפריד בין שתי הקבוצות במרחב הדו־ממדי, נאמר שהמערכת ספרבילית. במקרה כזה מובטחת לנו הצלחה מלאה של האלגוריתם, ואולם גם במקרה כללי יותר נוכל לבנות רשת נוירונים מפרידה עד כדי טעות קטנה.

הרשת שלנו תהיה מורכבת מנוירון בודד עם שתי כניסות. אנו נאמן אותו לתת את הערך 1 עבור הנקודות השחורות ואת הערך 0 עבור הנקודות האפורות (ראו איור א12).

המערכת אמורה למצוא ישר מפריד, כלומר את הנוסחה שלו. נתייחס למערכת הנקודות הנתונה (הצבועה) כקבוצת אימון. מתוך קבוצת האימון נוכל לקחת מראש כמה נקודות מסומנות וליעד אותן להיות קבוצת הביקורת. לא נאמן את המערכת על קבוצת הביקורת. בסיום שלב האימון נוכל לבדוק את תפקודה של המערכת על קבוצת הביקורת. באם המערכת מתפקדת כראוי על קבוצת הביקורת הרי שהיא מוכנה לפעולה.

נתבונן באיור א13:

על פי הגדרת "אימון הרשת" למעלה, המערכת באיור א13 מחפשת שני משקלות ו־ וערך θ, כך ש:

עבור כל הנקודות השחורות, (עבורן הרשת תיתן מוצא של 1) וכן:

עבור כל הנקודות האפורות (עבורן הרשת תיתן מוצא של 0). אם הצלחנו למצוא משקלות וערך סף הממלאים את התנאים למעלה השלמנו את משימת האימון. מדוע, אם כך, רשת בעלת נוירון בודד מספיקה לכך?

נתבונן במשוואה , זוהי משוואת ישר, אפשר לחלץ ממנה את (בהנחה ש־ הוא הציר האנכי) ולרשום אותה בצורה מוכרת יותר:

ערכי המקיימים (או , כלומר נוירון מופעל) נמצאים מעל לישר וערכי המקיימים (או , כלומר נוירון מושבת) נמצאים מתחת לישר. בסוגריים רשמנו את שני התנאים שמגדירים מתי נוירון המוצא מופעל ומתי לא. תנאי האימון של רשת עם נוירון בודד שקולים, אם כך, לחיפוש משקלות שקובעות קו ישר המפריד בין הנקודות השחורות לאפורות. אנו מחפשים למעשה את הישר שמפריד טוב בין שתי הקבוצות.

אם כן, כיצד נמצא את המשקלות הנכונים? אנו יכולים להציב משקלות ראשוניים אקראיים, כלומר לקבוע ישר כלשהו באופן אקראי. ישר כזה אמור לסווג (גם אם באופן חלקי) את קבוצת האימון שלנו. נבדוק את הטעות שקיבלנו על גבי קבוצת האימון כלומר הנקודות השחורות והאפורות. הטעות תהיה אוסף הנקודות האפורות שקוטלגו כשחורות ואוסף הנקודות השחורות שקוטלגו כאפורות. ננסה להקטין את הטעות על ידי שינוי המשקלות כלומר שינוי הפרמטרים של הישר, למשל השיפוע. עבור הישר החדש נבדוק שוב את הטעות שקיבלנו. אם הטעות קטנה, הרי ששינוי השיפוע הגיוני ואולי כדאי להמשיך ולשנות את השיפוע באותו הכיוון. את התהליך הזה אפשר לקרוא בשתי צורות: כאלגוריתם כללי למציאת ישר מפריד ללא קשר לרשתות נוירונים[27] או כתהליך הלמידה שתיארנו למעלה עבור נוירון בודד.

כעת, לאחר שאימון הרשת הסתיים, נוכל להפעיל אותה על נקודות כלשהן במרחב שאינן מקבוצת האימון ואף לא מקבוצת הביקורת. אם עבור נקודה כזאת קיבלנו שהנוירון יורה, אזי אותה נקודה נמצאת כנראה מעל הישר. לחלופין, אם קיבלנו שהנוירון לא יורה, אותה נקודה כנראה ממוקמת מתחת לישר.

לעיתים אנו נדרשים להפריד בין קבוצות של נקודות (וקטורים) במרחב בעל ממד גדול יותר, לדוגמה במקרה של שתי קבוצות נקודות במרחב תלת־ממדי. עבור מערכת כזאת נצטרך נוירון עם יותר הדקי כניסות.

הרשתות שדנו בהן עד כה הורכבו משתי שכבות, שכבת הכניסה ושכבת המוצא. רשתות אלו מוגבלות במספר מובנים. רשת הנוירונים יוצרת פונקציה וקטורית או סקלרית[28] של ערכי האקטיבציה בכניסה. ראינו למשל שבמקרה של רגרסיה ליניארית דרשנו מהפונקציה הזאת להיות דומה לאותה פונקציה ממנה היינו דוגמים, לו יכולנו, את קבוצת האימון. במקרה הכללי רשת הנוירונים נדרשת לתאר פונקציה מורכבת הרבה יותר, דבר שהופך להיות קשה ברשת שטוחה בעלת שתי שכבות בלבד. בדומה ניתן להראות כי רשת בעלת שתי שכבות לא יכולה לתאר מעגל לוגי כמו XOR, דבר שמקשה על כתיבת מעגלים לוגים רקורסיביים.[29] במהלך הזמן, הלך ונעשה ברור יותר ויותר כי יש להתייחס לרשתות נוירונים כארכיטקטורת חישוב שונה באופן מהותי מארכיטקטורת המחשבים המקובלת (וון ניומן) ועל כן אין טעם בניסיון לבנות באמצעות רשתות נוירונים שרשור של מעגלים לוגיים. מכל מקום, באמצעות הוספת שכבה אחת בלבד, בין שכבת הכניסה ושכבת היציאה, ניתן להראות כי הרשת יכולה לקרב משפחה רחבה מאוד של פונקציות.[30]

רשתות עמוקות - Deep Neural Network

הרשת שראינו למעלה מורכבת משתי שכבות בלבד שכבה אחת משמשת ככניסה למערכת ושכבה שניה שהיא שכבת המוצא. רשתות עמוקות מורכבות ממספר שכבות ביניים נוספות. רשתות עמוקות מאפשרות לתאר מערכות מורכבות יותר, מערכות לא ליניאריות, מערכות לזיהוי תבניות בזמן, ועוד (ראו איור א14). שכבות הביניים נקראות גם שכבות חבויות, Hidden layers, מכיוון שאינן גלויות לעין כמו שכבות הכניסה והמוצא.

הגילוי הראשון של יתרונותיהן של רשתות כאלו היה בשנות ה־80. במאמר של הינטון, Hinton,‏[31] הופיעה רשת נוירונים עמוקה אשר שימשה ללימוד עצי משפחה של שתי משפחות, האחת אנגלוסקסית והשנייה ממוצא איטלקי. הרשת למדה לזהות יחסים בתוך עצי המשפחה. הלימוד היה לימוד מונחה. בהינתן שם ויחס משפחתי (פרדיקט עם שני ארגומנטים) הרשת נדרשה לציין את האדם המתאים ליחס, לדוגמה בהינתן השם א' והיחס "אח של" הרשת נדרשה לציין את השם ב' כך שא' הוא אחיו של ב'. עם סיום שלב הלימוד, הינטון בחן את מצב הנוירונים בשכבות הביניים וגילה עובדה מפתיעה. שכבות הביניים הכילו חתכים של אינפורמציה שהרשת למדה בעצמה. נראה היה שחתכי האינפורמציה הללו נדרשו לרשת תוך כדי הליך הלימוד. לדוגמה, הרשת ידעה להבדיל בין שני עצי המשפחה, ידעה להפריד בין דורות שונים ועוד. חתכי האינפורמציה האלו לא היו חלק מפורש מדרישות הלימוד המונחה, אלא התקבלו כתוצרי לוואי. בשפה מקצועית, הרשת לימדה את עצמה Features‏[32] חדשים שלא הוכנסו באופן מפורש לשכבת הכניסה ואף עשתה בהם שימוש ללימוד המונחה.

כאשר יש לנו מספר שכבות, עולה מיד השאלה כיצד נלמד את הרשת, אילו משקלות נשנה, באילו שכבות, ובאיזו מידה נשנה אותם?

חלחול אחורנית, Back Propagation, של טעויות

נניח שרשת עמוקה מאומנת על קבוצת נתונים וערכה הנוכחי של פונקציית הטעות גבוה.[33] כיצד נתקן את משקלות הרשת בכדי לתאם אותם לתוצאה הרצויה במוצא? כיצד נדע מהם השינויים הדרושים במשקלות המצויים בכל אחת משכבות הביניים? יש לנו אוסף גדול של משקלות, נצטרך אלגוריתם הקובע כיצד שינוי של משקל במקום כלשהו ברשת משנה את פונקציית הטעות. ידיעה כזאת הייתה מאפשרת לנו לשנות את המשקל באותו מקום בכדי להקטין את הטעות. זהו אלגוריתם ה־ Gradient Descent שהוזכר לעיל.

איור א15 מתאר מבנה סכימטי של רשת.

נתבונן בשכבה האחרונה (המוצא) והאחת לפני האחרונה. הטעות שקיבלנו (שנסמן אותה ב־) היא ההפרש בין מה שרצינו לקבל לבין מה שקיבלנו בפועל. הטעות ניתנת לתיקון על ידי שינוי של המשקלות מהשכבה האחת לפני האחרונה לשכבת המוצא ואו על ידי שינוי המוצא של השכבה האחת לפני האחרונה. ברור ששינוי של כל אחד מהגורמים ישפיע על מוצא הרשת. נניח לרגע שמוצא השכבה שלפני האחרונה קבוע, אזי ברור שכל שינוי במשקלות ישפיע מיד על המוצא . אם לחלופין נקבע את המשקלות אזי כל שינוי במוצא הרשת החלקית ישפיע על מוצא הרשת . כעת נשים לב ששינוי ב־ ניתן באותה דרך "לגלגל" אחורנית, לשינוי ב־ כאשר קבוע או לשינוי ב־ כאשר קבוע. כך נוכל להמשיך ו"לגלגל" (או לחלחל) אחורנית את הטעות. כך יוצא שהשינוי שאנו עושים ב־ (כאשר קבוע) יוכפל בערך הקבוע באותו זמן של (כך הנחנו כאשר שינינו את ערכו של ). מכאן ברור כי משקלות שונים ובפרט משקלות של שכבות שונות ישפיעו בצורה שונה על המוצא. התהליך כולו מאפשר לנו לקבוע עד כמה יש לשנות את כל אחד מהמשקלות ברשת כדי לקבל את השינוי הדרוש במוצא הרשת.

לכל השיקולים למעלה יש להוסיף גם את העובדה שמוצא כל רכיב ברשת תלוי גם בפונקציות האקטיבציה ובנגזרות שלהן, כלומר ה"רגישות" שלהן לשינויים בכניסה.

בשפה מתמטית יותר, חישבנו את הנגזרת (שיפוע) של פונקציית הטעות כפונקציה של כל אחד מהמשקלות, ואחר כך פעלנו על פי עקרון ה־Gradient Descent שראינו לעיל, כלומר כאשר השיפוע היה שלילי הגדלנו את ערך המשקל w וכאשר השיפוע היה חיובי הקטנו את ערך המשקל w.

אחת הבעיות החריפות של אלגוריתם ה"חלחול אחורנית" נובעת מהתאפסות הגרדיאנטים (Vanishing Gradients). ראינו שהשינויים הנדרשים במוצאים ובמשקלות שבין השכבות תלויים בין השאר בנגזרות ("רגישות"), הפונקציות f (פונקציות הסף) והמשקלות שבין אותה שכבה לשכבת המוצא. בסופו של דבר, השינויים הקטנים הנדרשים ברישא של הרשת, קרוב לכניסה יהיו תלויים במכפלה של הנגזרות של מספר גדול של פונקציות אקטיבציה. נגזרת של כל פונקציית אקטיבציה כזאת נקבעת על פי טיבה של הפונקציה. ברשתות עמוקות רבות נהוג היה להשתמש בפונקציית מדרגה. לפונקציה כזו ישנה מדרגה או קפיצה בדיוק בערך הסף (ראו איור א3). הנגזרת של פונקציה כזו גבוהה ליד הערך θ. במקרה הכללי עבור פונקציית אקטיבציה כלשהי, אם הנגזרת של הפונקציה קצת קטנה מ־1, הרי שמכפלת הנגזרות של מספר פונקציות כאלו יורדת מהר לאפס, התופעה נקראת vanishing gradient. במקרה כזה, השכבות הראשונות של הרשת (הצמודות למבוא) לא כל כך משפיעות על מוצא הרשת (שכן השינויים במשקלות שלהן יוכפלו בחזקה גבוהה של מספר הקטן מ־1) והשכבות האחרונות הופכות להיות דומיננטיות. במקרה ההפוך, שבו נגזרת פונקציית האקטיבציה גדולה מעט מ־1, תהיינה מכפלתן מספר גדול במיוחד, השכבות הראשונות (הצמודות למבוא) יהיו יותר מדי רגישות לשינויי משקלות, והאחרונות פחות, תופעה זאת תקרא Exploding Gradient. כך או כך אין הדבר רצוי ומהוה מגבלה על גודלה האפשרי של רשת כזו. את הבעיה אפשר יהיה לפתור אם נשתמש בפונקציות סף בעלות נגזרות קרובות ל־1, למשל פונקציות ליניאריות.[34]

אלגוריתם ה־Back Propagation מאפשר לנו לגלגל אחורנית את הטעות ולפרוס את תיקון הטעות על גבי שכבות רבות. לו היינו משחקים רק במשקלות השכבה האחרונה ומייצבים את שאר המשקולות על ערכים קבועים הייתה הרשת הופכת להיות מנוונת ודומה לרשת בעלת שתי שכבות בלבד. כל השכבות עד לשכבה האחת לפני האחרונה היו מייצגות שכבה אחת בלבד שכן המשקלות והאקטיבציות שם קבועות כולן. כך היינו מאבדים את היתרונות שמאפשרת לנו הרשת העמוקה. מצד שני השימוש באלגוריתם של חלחול אחורנית הינו מורכב מאוד מבחינת סיבוכיות החישוב[35] והופך את השימוש ברשתות עמוקות לקשה.

תהליך החלחול אחורנית מאפשר לנו "לראות" לוקלית כיצד ישפיע השינוי של המשקלות על תיקון פונקציית הטעות. הוא אינו מאפשר לנו לראות גלובלית את "נוף" פונקציית הטעות. לדוגמה, נוכל לראות שאנו נמצאים בנקודת מינימום של פונקציית הטעות אבל לא יהיה לנו ברור אם היא לוקלית או גלובלית. בכל נקודה שבה אנו נמצאים על גבי "נוף" פונקציית הטעות אנו מחשבים את הכיוון הרצוי לשינוי המשקלות, אבל עדיין לא מסוגלים לראות שום דבר מעבר לסביבה קטנה של אותה הנקודה.

כאנלוגיה טובה לאלגוריתם של "חלחול אחורנית" אפשר לחשוב על הירידה מהר גבוה. מכל נקודה שאנו נמצאים בה נחפש את הכיוון שבו השיפוע למטה הוא הגבוה ביותר. אנחנו יכולים לבדוק את השיפוע בכיוון מזרח מערב, ואת השיפוע בכיוון צפון דרום, ומתוכם לחשב את הכיוון שבו השיפוע הוא החזק ביותר. נרד אם כך בכיוון השיפוע החזק ביותר, נגיע לנקודה חדשה ונחשב שוב את השיפוע, וכך הלאה. כך נוכל לרדת מההר בדרך המהירה ביותר. חיפוש השיפועים בכיוונים שונים דומה לחישוב השיפוע של פונקציית הטעות לפי כל אחד מהמשקלות כאשר כל משקל מייצג כיוון. אפשר לרדת מההר בדרכים פחות יעילות כגון במסלול של כביש הסובב את ההר ויורד למטה. אם נבחר כל פעם לשנות את המשקלות בצורה רנדומלית ולקבל את השינוי אך ורק אם הוא מוריד את הטעות, נגיע בסופו של דבר לנקודה נמוכה של פונקציית הטעות ואולם דרך כזאת יכולה להיות הרבה פחות יעילה בדיוק כמו הכביש הסובב את ההר למטה.

הרשתות הקונבולוציוניות שאותן נתאר מיד נועדו לפתור את בעיית הסיבוכיות הגבוהה בלימוד רשתות עמוקות. הרעיון העומד מאחורי רשתות כאלו היה ידוע כבר שנים רבות, ואולם רק לאחרונה הבנה עמוקה יותר של רשתות כאלו יחד עם יכולת חישוב טובה של מעבדים גרפיים מניבה תוצאות מרשימות ומהווה פריצת דרך.

רשתות קונבולוציוניות[36] - Convolutional Neural Networks

ברשתות קונבולוציוניות אנו מצמצמים את מידת החיבוריות או קישוריות של רוב שכבות הרשת. אנו הופכים את הרשת בשלבים הראשונים לרשת לוקלית. הנוירונים בשכבות הראשונות מחוברים כל אחד לקבוצה קטנה של נוירונים בשכבה הקרובה להם ולא לכולם. כך נעשה בין כל שתי שכבות סמוכות עד לשכבות האחרונות של הרשת. כך נקבל אוסף של צמות לאורך כל הרשת. רק בשכבות האחרונות נשתמש בקישוריות מלאה. כך אפשר יהיה לצמצם את סיבוכיות אלגוריתם החלחול אחורנית. הטעות מחלחלת רק דרך אותן צמות של קישוריות, ולא יכולה לעבור בין הצמות. הורדנו את מידת הקישוריות של הרשת והקלנו על האימון. מאידך, נראה לכאורה ששילמנו מחיר גבוה מאוד ופגמנו ביכולת ההכללה של הרשת. ואולם מסתבר שרשתות כאלו מוכיחות את עצמן כיום במגוון רחב של יישומים.

נראה מיד כי רשת כזאת ניתנת להצגה כסדרה של מסננים. מסננים כאלו יכולים לזהות מאפיינים כלומר features בתמונה המוצגת. בשכבות הראשונות אנו מזהים באמצעות המסננים מאפיינים features בסיסיים של התמונה, ובשכבות המתקדמות יותר אנו מזהים features יותר מורכבים, העושים שימוש ב־features של השכבות הנמוכות יותר. כך אנו בונים שכבה על גבי שכבה באופן היררכי. רק בשכבות האחרונות (המקושרות באופן מלא) אנו משתמשים במאפיינים שרכשנו בכדי לבצע את הסיווג הנדרש. ננסה לצלול מעט פנימה.

ראשית נגדיר מהו מסנן או פילטר. נתאר כדוגמה פילטר פשוט המכונה פילטר "גאוסיאני".[37] נניח שנתונה לנו תמונה כלשהי. אנו נתייחס לתמונה כמטריצה של מספרים, לכל נקודה על גבי התמונה מיוחס מספר המייצג את הבהירות באותה נקודה, עבור תמונה בשחור לבן המספרים ינועו בין 0 ל־255. הפכנו אם כך את התמונה למטריצה של מספרים. כעת נגדיר את הפילטר. עבור כל נקודה נסתכל על כל השכנים לאותה נקודה. נחשב את ממוצע המספרים של כל השכנים לאותה נקודה. כעת נחליף את הערך המספרי של הנקודה בערך הממוצע שחישבנו. כך נעשה לכל נקודה על גבי התמונה. כך החלפנו את כל הערכים בנקודות התמונה בערכים ממוצעים של הסביבות לאותן נקודות. אם נמיר חזרה את המטריצה שקיבלנו לתמונה נראה שהתמונה הפכה להיות יותר מטושטשת, הפרטים הקטנים אבדו לטובת הממוצעים, ממוצע מטבעו מטשטש את הפרטים. ככל שנבחר בחלון סביבה גדול יותר כך תהיה התמונה מטושטשת יותר. אנו אומרים שהפעלנו על התמונה פילטר או מסנן גאוסיאני.

ננסה לתאר אלגוריתם להפעלה של מסנן כלשהו (ראו איור א16). גודל חלון הפילטר הנקרא גם מסכה (mask) קטן בהרבה מגודל התמונה כולה. אנו מעבירים את חלון הפילטר על גבי התמונה משמאל לימין בכל פעם צעד אחד ימינה, עד שהגענו לקצה הימני, ואחר כך אנו חוזרים שמאלה, עושים צעד אחד למטה ומתחילים שוב את אותו התהליך. בכל פעם שחלון הפילטר עומד אל מול חלון בגודל זהה בתמונה המקורית, ערך כל נקודה בחלון הפילטר מוכפל בהתאמה בערך הנקודה על גבי החלון שגזרנו בתמונה המקורית, וסכום המכפלות שקיבלנו הוא הערך החדש המיוחס לתמונה החדשה לאחר הפעלת המסנן. המסכה כוללת קבועים מספריים הקובעים את סוג הממוצע שקיבלנו או את המשקלות בהם יש להשתמש בחישוב.

בדוגמה למטה גודל המסנן שקבענו הוא 3x3. בשלב ראשון גזרנו בתמונה המקורית ריבוע בגודל 3x3 בצד שמאל למעלה, הכפלנו כל ערך המופיע בריבוע שגזרנו בערך המתאים לו במסנן. אחר כך סיכמנו את כל המכפלות וקיבלנו את הערך 7‎-. כעת נזיז את חלון המסנן על גבי התמונה המקורית כמו שתיארנו למעלה. כך קיבלנו תמונה חדשה בגודל 4x4. פעולה זו נקראת קונבולוציה convolution. שימו לב כי אנו משתמשים באותו חלון מסנן במעבר על פני כל האזורים על פני התמונה המקורית.

את מטריצת התמונה ניתן להרחיב על ידי הוספה של שולי ריפוד padding, המוגדרים כ־0. בדוגמה לעיל ניתן להוסיף עמודות עם ערכי 0 מצד ימין ומצד שמאל למטריצת התמונה. בדרך זו נוכל להחיל את פעולת הפילטר גם על קצוות התמונה.[38]

מהתבוננות בחלון הפילטר (המסכה) ניתן בקלות לקרוא את פעולתו. הפילטר באיור למעלה הוא סוג של edge detector. הוא מדגיש את המקרים בהם נקודות סמוכות הינן בעלות ערך מספרי שונה, ומנחית את המקרים שבהם הערך המספרי של נקודות סמוכות הוא דומה (בשל הערכים 1 ו־1‎-). פילטר כזה מדגיש את קווי המתאר או הגבולות בתוך התמונה על חשבון הכתמים הפנימיים. אם נפעיל על תמונה כלשהי פילטר כזה הוא יזהה את מיקומם של "קווי גבול". אם התמונה המקורית מכילה פס עמודות שחור ומימין לו פס עמודות לבן, הפעלה של פילטר כזה תיתן לנו תמונה שכולה שחורה פרט לעמודה אחת לבנה באמצע שהיא הגבול בין שני הפסים.

גודל החלון שבחרנו, הדרך שבו אנו מזיזים אותו על גבי התמונה המקורית כל פעם בצעד אחד, והשוליים שלו הן תכונות שמשתנות בין מסנן למסנן. בנוסף, במקרה שהתמונה המקורית מורכבת משלוש תמונות צבע, נוכל להגדיר מסנן לכל מטריצת צבע בנפרד.

כעת נחזור לרשתות נוירונים ונראה מה הקשר בין הדיון למעלה לבין הרשתות.

ברשתות נוירונים קונבולוציוניות אנו אוכפים על הרשת סדרה של פילטרים. המשקלות בין שכבה אחת לסמוכה לה המאוגדים בצורה של צמות מגדירים בדיוק פעולה של מסנן. אנחנו אוכפים על המערכת את התבנית הכללית של מסנן. לא נאכוף משקלות ספציפיים, את המשקלות הספציפיים המערכת תקבע בעצמה בשעת הלימוד המונחה. אנחנו נאכוף את העובדה שבכל מקום מוגדרת אותה תבנית מסנן, נאכוף את גודל תבנית המסנן ואת אופי התזוזה שלו על גבי התמונה. אפשר לאכוף על המערכת פילטרים רבים, שונים בגודל ואו בעלי מאפיינים אחרים. נדגיש שוב כי אנו אוכפים את התבנית בלבד. הרשת תלמד לבד את משקלות הפילטר שהם הקבועים שעל גבי חלון הפילטר, שהם גם המשקלות שבין השכבות. זוהי אחת התכונות החשובות של רשתות כאלו. הלימוד המונחה גורר בהכרח את מציאת המשקלות ועל כן את זיהוי המאפיינים ה־features, זוהי התוצאה החשובה של Lecun.‏[39] תכונה זו מזכירה את תכונת הרשתות העמוקות של הינטון.[40] גם שם המערכת למדה לבד לזהות מאפיינים של קבוצת הלימוד, מאפיינים שלא הוגדרו עבורה במפורש. אפשר לומר שאנו נותנים כאן בידי הרשת כלים והיא לומדת לעשות בהם שימוש.

ברשתות רבות סדרה של פילטרים כזו מופיעה אחת על גבי השנייה עד לשכבות האחרונות של הרשת, רק שם ישנה שכבה שהיא fully connected, כלומר בעלת קישוריות מקסימלית כלומר שכבה שבה כל אחד מהנוירונים מחובר לכל נוירון בשכבה הבאה אחריה (ראו איור א17).[41]

יש לשים לב גם לעובדה ש"עודדנו" את הרשת ללמוד ממאפיינים שהם אינווריאנטיים לשינוי מיקום, כלומר זהים בכל מקום על גבי התמונה. את זה השגנו על ידי כך שקבענו את אותה מסיכת פילטר על פני כל התמונה. כאן המקום להזכיר את קיומן של תוכנות ישנות של זיהוי תמונה (computer vision) אשר קדמו לשימוש ברשתות נוירונים.[42] זיהוי התמונה היה נעשה על ידי זיהוי קבוצה של מאפיינים בתמונה. לחתול יש מאפיינים שונים מאשר לכלב, כגון שפם ארוך, אוזניים בולטות, ואם נמצא בתמונה את אותם מאפיינים המגדירים את ה"חתוליות" נוכל לשער כי התמונה שבפנינו היא תמונה של חתול. תוכנות של computer vision ישנות עשו אם כן סוג כזה של תכנון מאפיינים, כלומר feature programming. בשונה, רשת נוירונים מחפשת בעצמה את המאפיינים. אנו מכניסים נתוני קלט ומאמנים את הרשת לקבל מוצא מסוים, כלומר אנו מתבוננים רק בקצוות הרשת, בכניסה לרשת וביציאה ממנה. הרשת דואגת בעצמה ללמוד את המאפיינים הדרושים לה כדי לעשות את הסיווג. שיטת עבודה כזאת נקראת בשפה המקצועית end to end שכן היא רואה רק את הקצוות, את הכניסה והיציאה. אלו שתי גישות שונות לתכנות ובין המחזיקים בהן קיים ויכוח נוקב בנוגע ליעילות ולחשיבות.

הרשת הקונבולוציונית מזהה בשלב ראשון תכונות בסיסיות שיש בתמונה ומעל גבי תכונות אלו היא מנסה לזהות תבניות מורכבות יותר. הרשת בונה תפיסה היררכית של התמונה, תבנית על גבי תבנית, עד לזיהוי הסופי. לדוגמה, במקרה של זיהוי פנים, לו ניתן היה לחבר מעין בחון הבודק אילו תכונות מזוהות בכל שלב, היינו מגלים כי בשלב הראשון הרשת מזהה מאפיינים כללים מאוד, בשלב הבא מאפיינים מורכבים יותר בתמונה, בשלבים יותר מתקדמים ולקראת מוצא הרשת היא מזהה חלקי פנים.[43]

רשתות משוב עצביות - Recurrent Neural Networks

רשתות משוב עצביות משמשות לזיהוי של מאפיינים התלויים בזמן, sequencing. הרשתות שהצגנו למעלה מזהות או מפרידות בין אובייקטים או תבניות שונות במרחב. כעת אנו רוצים לנסות ולזהות תבניות בזמן כמו שיר ואו סדרה של מילים או אותיות המופיעות אחת אחרי השנייה.[44] מובנה של מילה תלוי חזק בסדר האותיות שבה, מובנו של המשפט תלוי חזק בסדר הופעת המילים. תבניות כאלו ניתן גם לזהות על ידי מערכות כגון HMM,[45] כפי שנראה בפרק על מודלים גרפיים.

נתבונן כעת ברשת נוירונים עם שכבה אחת חבויה, נתבונן בחלק הימני של איור א18. מתוך השכבה החבויה נוציא שתי יציאות האחת לשכבת המוצא והאחרת חזרה לאותה שכבה החבויה. מכאן שלשכבה החבויה ישנן שתי כניסות, האחת מתוך שכבת הכניסה והאחרת מתוך השכבה החבויה עצמה. כעת נחשוב על סדר הפעולות מבחינת זמן: הכניסה בזמן כלשהו לשכבה החבויה תהיה מורכבת מערכי הקלט באותו זמן וערכי השכבה החבויה מן השלב הקודם בזמן. במילים אחרות, הקלט בזמן כלשהו נעשה בהקשר של כל מה שהיה לפני כן. בדרך זו אנו מעניקים למערכת תכונות של זיכרון.

צד שמאל של איור א18 מייצג פריסה בזמן של אותה המערכת. כל כניסה של נתונים למערכת נעשית כאשר יש לה הקשר (קונטקסט), כלומר המערכת זוכרת את כל מה שנכנס אליה קודם לכן. היא מעבדת את הנתונים שהתקבלו עכשיו בהתאם לכל מה שקרה בעבר. ננסה לבחון מספר שלבים כאלו.

אם a,‏ b,‏ c הם ערכי הקלט אשר נכנסים לשכבה החבויה, ו־A,‏ B,‏ C הם ערכי המוצא של שכבת הפלט (איור א18 צד שמאל) אזי בשלב הראשון הערך a מגיע לשכבה החבויה, מוצא השכבה החבויה יסומן ב־, ומוצא שכבת הפלט יהיה A. בשלב השני הכניסה לשכבה החבויה תהיה מורכבת מסכומם של שתי כניסות , כאשר b הוא הקלט החדש ו־, הוא מוצא השכבה החבויה מן השלב קודם. כלומר b מופיע ביחד עם הקונטקסט של השלב הקודם בזמן. מוצא שכבת הפלט יהיה B, ומוצא השכבה החבויה יהיה . בשלב השלישי הכניסה לשכבה החבויה תהיה מורכבת מסכום שתי כניסות (כאשר c הוא הקלט החדש) ומוצא שכבת הפלט יהיה C. כלומר c מופיע ביחד עם הקונטקסט כלומר ביחד עם כל העבר של הקלט, עם a ועם b ובסדר הנכון ab. כך אנו רואים שבכל שלב, בכניסה לשכבה החבויה מופיעה כל ההיסטוריה של המצבים הקודמים בתוספת המצב החדש, ומוצא המערכת נותן מצב פלט חדש (ראו סיכום של הדיון באיור א18).

ישנן אם כך שתי צורות הצגה של השרשור, אפשר להציגן על אותו גרף כמו בצד ימין של איור א18, ואפשר לפרוש את הגרף (unfold) על פני זמן כך שכל שכבה (משמאל לימין) מתארת חתך זמן שונה, כמו בצד שמאל של איור א18. באיור א18 לא סימנו את המשקלות בין כל שכבה לשכבה בכדי לפשט את ההסבר. כל המשקלות מפורטים באיור א19.

כיצד נגדיר את פונקציית הטעות? ניקח לדוגמה רשת אשר אומנה לייצג את השפה. נתונה לנו קבוצה גדולה של משפטים כקבוצת האימון. עבור כל מילה אנו מאמנים את הרשת לנבא את המילה הבאה במשפט. זהו אחד השימושים האפשריים ברשת כזו.

אם x מייצג מילה כלשהי במשפט ואם מייצג את המילה הבאה במשפט, על הרשת מוטל לנבא את אותה מילה, כאן הוא המטרה target. נסמן את מוצא הרשת באות y. כדי ש־y ינבא נכון את על y להיות מיוצג באמצעות פונקציית התפלגות שכן עצמה יכולה לקבל מספר ערכים, כל אחד בהסתברות שונה. עלינו, אם כך, להגדיר פונקציית הפסד המשווה בין שתי התפלגויות, זו האמיתית המייצגת את ההסתברות לקבל כל מילה לאחר המילה x וזו הניתנת לנו על ידי הרשת, בדיוק מה שעשינו במקרה הכללי אלא שהפעם במקום ערכים קבועים יש לנו התפלגויות. פונקציית הטעות אמורה לקבל ערך מינימלי כאשר y מייצג את ההתפלגות האמיתית של המילים אחרי המילה x. לדוגמה, אם x מייצגת את המילה "נסע" ואחריה מופיעה המילה "מהר" בשני שליש מהמשפטים בשפה והמילה "לאט" בשליש מהמשפטים בשפה, מוצא הרשת y אמור לתת את אותן הסתברויות, שני שליש למילה "מהר" ושליש למילה "לאט". ישנן מספר פונקציות טעות מתאימות, לדוגמה cross entropy.‏[46] מיד ניתן דוגמה פשוטה לאחת מהן.

ועוד הערה חשובה, את המילים אנו מייצגים באמצעות וקטורים, ייצוג כזה נקרא word embedding. נניח שהמילה "הביתה" מיוצגת על ידי הווקטור (1,0,0,0), המילה "לעבודה" מיוצגת על ידי הווקטור (0,1,0,0), המילה "לאוניברסיטה" מיוצגת על ידי הווקטור (0,0,1,0) והצירוף "לבית הספר" מיוצג על ידי הווקטור (0,0,0,1). נניח שיש משפחה של n משפטים המתחילים במילה "הלך" ומתוכם משפטים הממשיכים עם המילה "הביתה", משפטים הממשיכים עם המילה "לעבודה", משפטים עם המילה "לאוניברסיטה", ו־ משפטים הממשיכים עם הצירוף "לבית הספר" כאשר . אנו רוצים לאמן את הרשת כך שעבור המילה "הלך" בקלט, הרשת תיתן לנו במוצא את הווקטור עם איברים בין 0 ל־1, כך ש־ יהיה ההסתברות לקבל את המילה "הביתה" כלומר , יהיה ההסתברות לקבל את המילה "לעבודה" כלומר , ובדומה וכן . כך הפכנו את תדירויות הופעת המילים במשפטים לאמפליטודות של אברי וקטור המוצא של הרשת. כעת ברור לנו איזה וקטור מוצא אנו מחפשים. פונקציית הטעות צריכה להיות מוגדרת כך שיתקבל מינימום בדיוק בערכי y הנדרשים. במקרה שיש רק שני ערכים ו־ כך ש־ קל לראות שהביטוי - יכול לשמש כפונקציית טעות שכן הוא מקבל מינימום כאשר ו־.

באותו אופן נגדיר את וקטור המטרה עבור מילה אחרת בקלט כגון "רץ", עבור המילה "רץ" ההסתברויות כמובן תהיינה שונות ונצטרך להוסיף עוד איברים לפונקציית הטעות כדי להבטיח שגם על הקלט הזה נקבל את האמפליטודות הנכונות. בנוסף נעשה דבר דומה עבור צירופים של מילים בקלט. עבור מילה אחת בדקנו את מוצא הרשת באותו זמן t, עבור צירוף של שתי מילים פונקציית הטעות תהיה מחושבת על מוצא הרשת בשלב הבא t+1. פונקציית הטעות הכללית תהיה, אם כך, סכום פונקציות הטעויות בכל הזמנים.

כדי לאמן את הרשת לא נצטרך לחשב מראש הסתברויות של צירופי מילים, אנו פשוט נכניס את המשפטים (של קבוצת האימון) למבוא הרשת ובמוצא הרשת נכניס את אותם משפטים עם הזחה שמאלה צעד אחד כדי "להציג" בפני המערכת בכל נקודת זמן (ובהינתן מילה כלשהי) את אוסף המילים הבאות האפשריות (ראו דוגמה בסעיף הבא). הגדרה נכונה של פונקציית הטעות כפי שראינו למעלה תביא לכך שמוצא הרשת ילמד את ההתפלגות (המותנית) המתאימה למילה הבאה. כמובן, בכל פעם שאנו אומרים "הסתברויות" אלו הן ההסתברויות המתקבלות מאוסף המשפטים שהכנסנו ולא ההסתברויות הכלליות לצירופים בשפה. אם אוסף המשפטים גדול מספיק ההסתברויות יהיו דומות לאלו שבשפה.

למעלה הגדרנו את פונקציית הטעות וראינו מתי היא מקבלת מינימום, כעת נוכל לנסות להקטין את הטעות ולהגיע לאותו מינימום באמצעות שינוי המשקלות של הרשת. כיצד ניתן לגלגל אחורנית כלומר אחורנית בזמן את הטעות? עלינו להתבונן ברשת כאילו היא פרוסה בזמן ולחשב את השינויים הנדרשים במשקלות בכדי לתקן הפרשים במוצא. נעקוב אחרי הצעדים שעשינו עבור רשתות עמוקות רגילות (פרושות במרחב), ונעשה את אותם צעדים בזמן, אלגוריתם כזה קרוי Back Propagation Through Time.

יש לנו שלוש מערכות של משקלות עליהן יש לעבור בכדי לחלחל את הטעות אחורנית (ראו איור א19), המשקלות בין השכבה החבויה h לעצמה, המשקלות בין השכבה החבויה למוצא, והמשקלות בין הקלט לשכבה החבויה. בכל פעם שאנו מנסים לתקן את המשקלות של מערכת כזאת יש לשים לב לכך שאותם משקלות מופיעים גם בזמנים קודמים ולכן שינוי שלהם ישפיע על כל הזמנים כמובן בצורה שונה בגלל התלות בגורמים נוספים.

ראינו בחישוב למעלה (עבור רשתות עמוקות רגילות) כי השינויים במשקלות בשלבים הראשונים של הרשת מוכפלים בכל המשקלות של השלבים הבאים ובנגזרות של פונקציות האקטיבציה הבאות. ככל שנרחיק אחורנית בזמן יוכפלו השינויים הנדרשים במשקלות של שכבה כלשהי בזמן במשקלות ובנגזרות של כל השכבות הבאות בזמן, ומאחר שמדובר באותן משקלות ואותן נגזרות נקבל הכפלה בחזקות של אותם הביטויים. כפי שראינו ברשתות עמוקות, גם ברשתות RNN קיימת בעיה של התאפסות או התפוצצות הגרדיאנטים ואפילו באופן קיצוני יותר. ברשת רגילה הנגזרות והמשקלות יכולים לעיתים להיות גדולים מ־1 ולעיתים קטנים מ־1 מאחר שאין הם תלויים אלו באלו, ברשת מסוג RNN מדובר הרי באותם משקלות ואותן נגזרות ולפיכך הבעיה חריפה יותר. התאפסות או התפוצצות של הגראדיינטים לא תאפשר לרשתות כאלו לבנות זיכרון ארוך טווח.

שימושים של רשתות משוב בעיבוד שפה

לרשתות משוב שימושים רבים הנוגעים לשפה. למשל, המערכת יכולה לתרגם שמע ישירות לטקסט, היא תזהה צירופים של פונמות כמילים. המערכת יכולה לזהות תהליך של כתיבה בזמן אמיתי ולתרגם אותו לטקסט כתוב, המערכת יכולה לזהות שיר ולהצמיד לו שם ופרטים. אין צורך בהפיכה של סדרת האותות לסדרה במרחב, אפשר להשאיר את הנתונים פרוסים בזמן.

נוכל להזין בכניסה לרשת כזו סדרה של צלילים ולאמן את הרשת כך שבמוצא שלה היא תפריד למשל בין מוזיקה מזרחית למוזיקה מערבית. הרשת לומדת להפריד בין סדרות של צלילים, כפי שהרשתות שראינו למעלה מפרידות בין תמונות או נתונים סטטיים בזמן.

ננסה כעת לתאר שימוש של רשת משוב עצבית בעיבוד שפה. נעסוק בעיקר ברמה של מילים, דיון דומה ניתן לעשות ברמה של אותיות.

איור א20 מדגים פעולה של רשת RNN שאומנה על קורפוס של משפטים. בהינתן מילה בכניסה לרשת היא מנבאת את המילה הבאה. אנו רואים במוצא הרשת בכל זמן שהוא כמה מילים אפשריות, כל פעם תחת צירוף אחר. מוצא הרשת נותן לנו את ההסתברות לקבלת מילה מסוימת (אחרי הרישא בקלט) ולאו דווקא מילה מסוימת. לעיתים נסמן מוצא הסתברותי כזה במלבן במקום בעיגול. מכאן שהרשת לומדת התפלגויות של מילים המותנות במילים ראשוניות או בתת־סדרות של מילים, אלו נקראות התפלגויות מותנות.

רשת שאומנה כך, נוכל לומר כי היא "מכירה" את ההסתברויות לרצפי מילים. במקרה כזה, נאמר כי הרשת למדה מודל של שפה, Language Model. אפשר למשל להשתמש ברשת כזאת במערכות של זיהוי דיבור אוטומטי (המרת דיבור לטקסט Automatic speech recognition) כדי לוודא שביטוי אקוסטי כלשהו אשר נשמע כמילה מסוימת אכן הוא הגיוני על פי ההסתברויות בשפה או לבחור בין כמה מילים אפשריות (אקוסטית) במילה בעלת ההסתברות הגבוהה ביותר.

לאחר שהרשת למדה מודל של שפה ניתן לעשות בה שימוש לצורך יצירה של סדרות של מילים, כלומר משפטים. במקרה כזה, הרשת תוכל לייצר צירופי מילים, כלומר טקסט. טקסט כזה יהיה נכון מבחינה תחבירית אבל בדרך כלל חסר משמעות. לצורך הפעלה כזו של הרשת נצטרך לחבר את מוצא הרשת למבואה. מיד נראה מדוע. הרשת מאותחלת על ידי מילה ראשונה,[47] מוצא הרשת ינבא מילה כלשהי אשר מופיעה בשפה בהסתברות גבוהה אחרי המילה הראשונה. מאחר שמוצא הרשת מחובר לכניסה, הרי שהמילה שנבחרה תופיע גם כמילה הבאה ברצף בכניסה. עבור הרצף הנוכחי הרשת תנבא את המילה הבאה אחרי אותו רצף על פי ההסתברויות שלמדה, וכך הלאה. ברור שהמשפט יהיה נכון תחבירית, אבל בדרך כלל חסר מובן. בדוגמה כאן, באיור א21 ייצרנו את המשפט: "הוא הלך בשדות מאת משה [שמיר]".

רשתות כאלו יכולות ליצור טקסטים שנראים לכאורה אמיתיים, אחת הדוגמאות היפות שניתנו בשנים האחרונות היא יצירה של טקסט שנראה כמו מתוך ספר גיאומטריה אלגברית הכולל הכרזה לכאורה על תיאורמות, הוכחות שלהן, משפטי עזר, דיאגרמות ועוד, וכולם חסרי משמעות אמיתית.[48]

את רכיב ה־ RNN ניתן להרכיב במספר ארכיטקטורות בסיסיות (ראו איור א22). אפשר שמספר כניסות משורשרות מייצרות יציאה התלויה בכולן. שיטת עבודה כזאת נקראת many to one, הנועדה, לדוגמה, לצורך sentiment analysis, שהוא אלגוריתם המייצר ערך כללי, חיובי או שלילי, למשפט על ידי זיהוי קבוצת מילים בתוכו.[49]

להלן נראה דוגמאות של שימוש ב־RNN לצורכי תרגום. כאן הקלט יהיה רצף של מילים וגם הפלט יהיה רצף כזה, כלומר many to many. אפשר גם להשתמש ברשת RNN בכדי לתת כותרת לתמונה (caption). במקרה כזה התמונה היא הקלט והטקסט הוא הפלט, זהו שימוש מסוג one to many.[50] לא ניכנס כאן לפרטים הנוגעים לאימון הרשת בכל אחד מהמקרים האלו, מכיוון שהם עדינים מדי ויוציאו אותנו מהדיון הכללי.

רשת LSTM - Long Short Term Memory‏[51]

רשתות RNN סובלות מבעיה של התאפסות או התפוצצות הגרדיאנטים, כפי שראינו לעיל. לפיכך יהיה קשה לאמן רשתות כאלו על סדרה ארוכה של נתונים. נצטרך למצוא פתרון לבעיה זו. אחד הפתרונות שנמצא עוד בשנת 97 הוא ה־LSTM - Long Short Term Memory.‏[52]

אם נפעיל רשת RNN מרובת שכבות (Deep RNN)[53] נגלה להפתעתנו כי שכבות ביניים של הרשת זוכרות חלקים שונים של האינפורמציה. למשל, אם נאמן את הרשת לזהות טקסט כלשהו נגלה כי שכבות מסוימות רגישות לרכיבי טקסט שונים. נוירונים בתוך שכבה כזו יכולים להיות מופעלים ומכובים למשל על ידי הופעה של פיסוק מסוים במשפט, כגון נוירון אשר ערכו עולה בהדרגה במשך המשפט עד להופעתה של נקודה ואז הוא מתאפס. בדומה למה שראינו בדיון על רשתות עמוקות, הפעם הזיהוי הוא של תבניות זמן time features. זיהוי של פיסוק במשפט הוא זיהוי של תבנית זמן.

האם קיימת דרך לבנות רשת נוירונים כך שנעניק לה את האפשרות לזהות תבניות זמן גם אם הן ארוכות? למשל, דרך שבה הרשת תזכור את הריבוי של נושא המשפט ותשתמש בו גם אם בתוך המשפט הופיע משפט לוואי ארוך? היינו רוצים לאפשר לרשת "לכתוב" משהו בצד ולזכור אותו אחר כך, אולי להתעלם מכל מה שקורה באמצע, כלומר "למחוק" אינפורמציה לא רלוונטית באמצע. פעולות כאלו יאפשרו לרשת טווח זיכרון ארוך יותר. בדומה מאוד למה שאנו עושים, למשל, כאשר אנו נדרשים להכפיל שני מספרים גדולים. אנו רושמים תוצאות ביניים על נייר בצד ואחר כך מצרפים אותם לחישוב. אלו הפעולות שנכניס לתוך מעגל ה־LSTM.

כעת נניח שיש לנו נייר טיוטה (מעין זיכרון ארוך טווח) שעליו ניתן לכתוב ולמחוק. נניח עוד שאנו יכולים להמשיך ולהשתמש באותו נייר במשך מספר גדול של צעדים. בכל צעד אנו כותבים ומוחקים אינפורמציה. פעולות הכתיבה והמחיקה תלויות בקלט שמגיע אלינו מבחוץ ובמצב הנוכחי של הזיכרון.

הרכיב שאנו מתארים כאן יודע לעשות פעולות כאלו.

והנה דוגמה לפעולה של מערכת כזאת. נתבונן בשני המשפטים הבאים:

איסמעיל אוהב לאכול פלאפל, הוא אוכל פלאפל כמעט כל יום, ברור שהמטבח המועדף עליו הוא המטבח הישראלי. דניאל אוהב לאכול גפילטע פיש, הוא אוכל גפילטע פיש כמעט כל יום, ברור שהמטבח המועדף עליו הוא המטבח ה...

המערכת נדרשת לנבא את המילה האחרונה. כמובן, קבוצת האימון הכילה משפטים רבים מאותו סגנון.

אם נתבונן במשפט למעלה, המילה "פלאפל" היא כמעט כל מה שאנו צריכים לזכור בשביל לנבא את העובדה שהמטבח שאיסמעיל מעדיף הוא המטבח הישראלי. בדומה המילה "גפילטע פיש" היא המילה היחידה הנדרשת בשביל לנבא את העובדה שדניאל מעדיף את המטבח הפולני. לפיכך מספיק שנרשום את המילה "פלאפל" בזיכרון ארוך טווח, ולא נשנה אותה עד שנגיע לצירוף "גפילטע פיש". שם נמחק את המילה "פלאפל" מהזיכרון ונרשום את המילים "גפילטע פיש". כל מה שמתרחש בין המילים "פלאפל" ל"גפילטע פיש", לפניהן או אחריהן פחות חשוב לצורך הניבוי. אנו צריכים, אם כך, זיכרון ארוך טווח, עם אפשרות למחוק ממנו ולכתוב בתוכו מילה חדשה וזאת בהתאם למילה שהמערכת קוראת עכשיו.

נעבור כעת לתיאור של ה־LSTM, נראה כיצד הוא מבצע פעולות כאלו. התבוננו באיור א23.

הרכיב C משמש כזיכרון ארוך טווח או "נייר עבודה" שעליו נרשום את המילים שאותן אנו רוצים לזכור לאורך התהליך כולו או לאורך מספר רב של צעדים. הרכיב h משמש כזיכרון קצר טווח, הוא יעביר אינפורמציה בין שלב אחד לבא אחריו.

בכדי למחוק רכיב (קואורדינטה) של וקטור כלשהו נוכל להכפיל את אותו רכיב ב־0. בכדי לכתוב במקום כלשהו בווקטור נוסיף לאותו רכיב את הקלט החדש. מכאן שמחיקה או כתיבה נעשות על ידי מעגלים של כפל וחיבור הפועלים על כל רכיב של הווקטור בנפרד.

המערכת מורכבת ממספר שערים, כל שער כזה מייצג פעולה שהרשת לומדת לבצע, יש לנו שלשה שערים: שער מחיקה - forget gate, שער כתיבה או כניסה - input gate, ושער יציאה - output gate, שאותם נתאר מיד. על גבי הרכיב C אנו רואים באיור פעולה של מכפלה ולאחריה פעולה של חיבור. המכפלה נועדה למחיקה של אינפורמציה ופעולת החיבור נועדה להוספה של אינפורמציה.

נתבונן קודם כול בשער המחיקה. המלבן הקטן המסומן ב־σ מציין שער (gate). אפשר לחשוב על שער כזה כרשת נוירונים קטנה. אל תוך השער נכנס הקלט החדש (המילה הבאה) וכן פלט השכבה החבויה של השלב הקודם , עם משקלות מתאימים. הפונקציה σ ‏(sigmoid) היא פונקציית אקטיבציה של השער (איור א24), המוצא שלה הוא בין 0 ל־1. אם σ מתאפסת היא כופלת את ערכו של באפס, במילים אחרות גורמת לו למחוק את הנתון שהיה שם.[54] בשער הזה נשתמש כאשר אנו רוצים למחוק פריט שכתוב בזיכרון ארוך הטווח של המערכת.

מימין לשער השכחה נמצא שער הכתיבה - input gate. זהו שער הדואג לכתיבה של אינפורמציה אל תוך . הרכיב σ הוא רכיב בקרה השולט על כתיבת האינפורמציה, אם σ קרובה ל־1 האינפורמציה החדשה תעבור ואם σ קרובה ל־0 האינפורמציה תיחסם. רכיב הטנגנס ההיפרבולי tanh הוא פונקציית אקטיבציה של רשת נוירונים קטנה המקבלת כקלט את ואת ומחשבת רכיב המועמד (candidate) להיכתב לתוך . פונקציית הטנגנס ההיפרבולי קרובה להיות ליניארית עבור ערכי x קטנים מאוד והיא דוחסת את כל האינפורמציה בין 1‎- ל־1, דבר שמבטיח לנו טווחי עבודה נכונים (איור א24). בשער הזה נשתמש כאשר אנו רוצים לכתוב משהו חדש לתוך הזיכרון בתלות במילה חדשה בכניסה.

נעבור לשער האחרון והוא שער המוצא - output gate. הרכיב σ הימני ביותר שולט על האינפורמציה שיוצאת החוצה מ־ דרך הטנגנס ההיפרבולי אל עבר השכבה החבויה של השלב הבא - . בשער הזה אנו משתמשים כדי להעביר זיכרון קצר טווח לשלב הבא. גם בשער המחיקה וגם בשער הכתיבה אנו מתבוננים בחלק מהזיכרון ארוך הטווח שהגיע המשלב הקודם דרך השכבה החבויה h לפני ההחלטה אם למחוק או לרשום משהו חדש.

היציאות ו־ מחוברות כמובן לכניסות המתאימות של השלב הבא בדיוק כמו בכל רשת נוירונים מסוג RNN. רשת כזאת מאומנת בדיוק כמו רשת RNN. אנו מפעילים Back Propagation Through Time בכדי לתקן את כל המשתנים החופשיים כלומר את המשקלות.

הדבר המפתיע הוא שהרשת לומדת בעצמה להפעיל את הארכיטקטורה הקטנה הזאת שאפשרנו לה ליישם, כל זאת בכדי לאפשר זיהוי טוב יותר של תבניות ארוכות בזמן. אנו דורשים מהמערכת לזהות תבניות ארוכות טווח, נותנים לה כלים חדשים, והמערכת לומדת בעצמה לעשות בהם שימוש בכדי לספק את הדרישה.

נותר לנו להסביר עוד מדוע מעגל כזה סובל פחות מבעיה של התאפסות הגרדיאנטים. ננסה לעקוב אחרי הטעות החוזרת אחורנית בזמן. טעות במוצא (איור א23) מחלחלת אחורנית דרך מעגל הטנגנס ההיפרבולי אל עבר C. אכן מצדו של הטנגנס ההיפרבולי הקרוב ל־C ישנם משקלות ותנאי סף חופשיים שאותם יש לתקן, אולם משחלחלה הטעות לתוך C ייתכן שהיא תישאר לכודה שם מספר רב של צעדים. כל עוד אין תוספת אינפורמציה ואו מחיקה, הטעות נשארת שם בדיוק באותו הערך. היא יכולה לחלחל אחורנית והחוצה אל עבר השערים, כך הרי אנו יוצרים תיקון של הטעות, ומשם דרך השכבה h, שוב אחרי מעבר נוסף דרך טנגנס היפרבולי אל עבר C. כדי להראות התאפסות של נגזרות צריך להראות שבכל מסלול מקביל של חלחול, הנגזרות מתאפסות, ואולם כאן ייתכנו מסלולים של חלחול בהם הטעות מבלה זמן רב יותר בערוץ C ופחות זמן בין המשקלות, כך שהנגזרת מתאפסת לאט יותר. יש עוד לציין כי פונקציית האקטיבציה מסוג טנגנס היפרבולי היא בעלת נגזרת קרובה ל־1 עבור משקלות קטנים הקרובים ל־0, כלומר אם בחרנו בתחום העבודה הנכון (עבור המשקלות) הדבר יסייע לנו לשמור על גרדיאנטים יציבים (ראו איור א24).

איור א24, פונקציית אקטיבציה σ - sigmoid ופונקציית אקטיבציה - tanh

מודל של Attention

אחד המודלים החשובים ביותר כאשר באים ליישם רשתות נוירונים עבור שפה הוא מודל של attention,‏[55] כלומר מיקוד או תשומת לב.

נניח שאנו מנסים ליישם אפליקציה של תרגום משפה לשפה באמצעות מערכת של רשתות מסוג RNN. ראינו למעלה מערכת כזאת המורכבת משתי רשתות RNN. הראשונה, המקודד encoder, מקבלת את משפט המקור ובונה וקטור של נתונים המורכב מסדרת המילים במשפט. וקטור זה מוכנס כקלט לרכיב השני של המערכת הוא המפענח decoder, יחד עם הפלט הנדרש, כלומר התרגום. כל אחד מהרכיבים מורכב מרשת RNN.

כעת עלינו לשים לב לנקודה חשובה הקשורה בהבנה שלנו את השפה. נשים לב כי כאשר אנו מדברים עם חבר, לא בשפת האם, נבחין הרבה פעמים בכך שיש חלקים במשפט שאנו מבינים מתוך הקונטקסט הכללי, או רק כשהושלם המשפט. לעיתים מילה מסוימת מקבלת משמעות רק לאחר ששמענו מילה אחרת שהופיעה מאוחר יותר או לחלופין מילה שנאמרה כבר מקבלת משמעות שונה בהמשך המשפט. תרגום, אם כך, איננו מילה כנגד מילה. בבואנו לתרגם מילה מסוימת אנו צריכים "להסתכל" על כל הסביבה שלה גם בשפת המקור וגם בשפת היעד ולעיתים על כל המשפט בכדי לקבל תרגום מדויק.

מודל ה־attention מיישם רעיון זה. אם נתבונן באיור א25 נוכל להבחין בשני הרכיבים, המקודד encoder, והמפענח decoder. השכבות החבויות של המקודד מסומנות ב־h והשכבות החבויות של המפענח מסומנות ב־s. משלב של המפענח ישנה יציאה לעבר המקודד. המקודד מחזיר ערך שהוא קונטקסט המוכנס לשלב הבא של המפענח יחד עם המילה הבאה במבוא המפענח, כלומר הערך נכנס לתוך המפענח עם קונטקסט שנותן לו המקודד. וקטור הקונטקסט מורכב מסכום של ערכי עם אמפליטודות על כל ערכי i. האמפליטודות מציינות את המשקל שיש לתת ל־ בזמן t. בזמן t הקלט למפענח מורכב מהמילה הבאה , מרצף המילים הקודמות , ומהקונטקסט שמורכב מכל חלקי המשפט המקורי (באנגלית) עם משקלות . המצב הבא של המפענח יהיה תלוי בכל אלו.

לדוגמה, בהינתן המילה "הולך", אני רוצה לאמן את המערכת לתת לי את המילה "הביתה". אני מכניס את המילה "הולך" לקלט של המפענח בשלב הנוכחי t. במבוא לשכבה החבויה של השלב הנוכחי במפענח מופיעה המילה "אני" וכל רצף קודם אם היה. יחד עם המילה "הולך" נכנס גם וקטור הקונטקסט המכיל את המשקלות שיש להעניק לכל אחת מהמילים שמופיעות במשפט המקורי באנגלית. בהינתן כל הרצף הקודם "אני", והמילה "הולך" המערכת אמורה לנבא את המילה "הביתה". המערכת מתבוננת בכל המשפט באנגלית ורק אחר כך מגיעה למסקנה שיש להוסיף את המילה "הביתה".

המערכת לומדת בעצמה את המשקלות שהן הבסיס לווקטור הקונטקסט, וזו כוחה של המערכת. אנו מאמנים אותה בצורה מונחית, משפטים (באנגלית) בכניסה למקודד ומשפטים (בעברית) בכניסה ובמוצא המפענח, ומאפשרים לרשת לבנות בעצמה וקטור של attention. במילים אחרות, אנחנו נותנים לרשת את הכלים לבנות וקטור של attention, ומצפים ממנה לבנות וקטור כזה בשעת האימון. בסיום האימון, משקלות אלו יעזרו לנו בתרגום איכותי יותר של משפטים שהמערכת לא ראתה. בדוגמה כאן ה־attention מגיע רק מכיוון ה־encoder. מודלים מתוחכמים יותר בונים attention התלוי גם ב־decoder. אם נחשוב על תרגום אזי מה שהצגנו כאן בונה את המילה הבאה בתרגום תוך כדי התבוננות בכל הטקסט בשפה שיצאנו ממנה. תרגום טוב יותר "מתבונן" גם בכל רכיבי טקסט המטרה לפני תרגום המילה הבאה.

לכאורה, גם אם לא היינו משתמשים במודל כזה, הרי הרשת הייתה אמורה ללמוד את כל ההקשרים מתוך אוסף הנתונים שניתנו לה בקלט. למידה כזאת דומה ללמידה על ידי שינון וחזרה, מאידך במודל ה־attention הרשת "מפנימה" את ההקשרים לתוך המשקלות. במובן הזה הלימוד הוא "עמוק" יותר, והוא מוכיח את עצמו בתרגומים טובים הרבה יותר. במערכות של בינה מלאכותית המייצרות מוזיקה, הכנסה של מודל כזה מראה שיפור דרמטי באיכות, בעומק המוזיקה, ועד כדי דמיון ליצירה אנושית.

רשתות גנרטיביות

רשתות גנרטיביות הינן רשתות אשר ניתן באמצעותן לייצר תבניות, תמונות, סדרות מילים, או סדרות צלילים. עד עכשיו השתמשנו ברשתות בעיקר לצורך עיבוד נתונים כגון סיווג או רגרסיה. כעת נראה שרשתות נוירונים יכולות גם לייצר נתונים.

רשתות גנרטיביות אדוורסריות - Generative Adversary Networks או GANs

רשת אדוורסרית[56] היא רשת המורכבת משני מחשבים המתחרים ביניהם על אותנטיות של תמונה או טקסט או שמע. רשת אחת G (Generator)‎ מנסה "לזייף" תמונה ורשת שנייה D (Discriminator) ‎מנסה לאתר את הזיוף כלומר להפריד בין תמונות אמיתיות למזויפות.

נתאר כעת את התהליך (ראו איור א26): הגנרטור G לוקח רעש סתמי והופך אותו ל"תמונה". הרכיב G הוא רשת, במבוא ניתן להכניס רעש רנדומלי, אנו מלמדים את הגנרטור G לבנות מהרעש משהו שנראה כמו תמונה, הוא צריך "לשכנע" את המאבחן D להתייחס למוצא שהוא מציג כתמונה. נניח שמוצא D הוא בעל נוירון אחד המיועד להיות 1 עבור תמונה אמיתית ו־0 עבור תמונה שאיננה אמיתית. משימתו של G היא להטעות את D ולהציג מוצא ש־D יזהה כ־1 כלומר כתמונה אמיתית. משימתו של D היא הפוכה, להפריד בין המוצא ש־G מציג לבין התמונות האמיתיות.

בשלב ראשון נשנה את המשקלות של G (מבלי לגעת במשקלות של הרשת D) וכך ניצור "תמונה" משתנה עד אשר הפלט של G ייתן 1 במוצא של D, כלומר עד אשר D לא יהיה מסוגל להפריד בין ה"תמונה" ש־G פולט לבין התמונות האמיתיות. כעת נכנס לתפקיד המאבחן D. אנו מרפים מהמשקלות של G ועוברים למשקלות של D. אנו משנים את המשקלות של D עד אשר הוא לומד להבחין בין המוצא שניתן לו מ־G ובין התמונות האמיתיות, אנו למעשה מאמנים את D להבדיל בין המוצא של G לבין התמונות האמיתיות, בדיוק כפי שמלמדים כל רשת להפריד בין קבוצות של תמונות. כאשר D למד להבחין בהבדל בין התמונה המזויפת ש־G פולט לסדרת התמונות האמיתיות נוכל להרפות מ־D ולחזור ל־G. כעת G יצטרך לעבוד קשה יותר, הוא יצטרך להציג "תמונה" דומה עוד יותר לאוסף התמונות האמיתיות. הדבר קשה יותר כי D מאומן להבדיל בין מה ש־ G הציג מקודם לבין הנתונים הנכונים. דומה הדבר ללימוד ברמה שהולכת ונעשית גבוהה יותר ויותר. כך נעבור בין G ל־D שוב ושוב, כל פעם רמת ה"זיוף" תהיה טובה יותר ויותר. התהליך נעצר כאשר G מייצר "תמונה" טובה מספיק ככה ש־D לא יכול עוד להבדיל בינה לבין אוסף התמונות האמיתי.

פונקציות ההפסד תורכב משתי פונקציות, האחת עבור G והשנייה עבור D. הרשתות משחקות ביניהן מעין משחק, עד הגעה לשיווי משקל, מצב שבו אף אחת מהן לא יכולה לשפר יותר את מצבה. כל מה שתיארנו למעלה נעשה כמובן באמצעות הגדרה נכונה של פונקציית הטעות. לא נרחיב כאן על תיאור של פונקציית הטעות שכן הדבר חורג מרמת הדיון הנוכחי. באיור א27 מופיעה פונקציית הטעות בתור חתימת היוצר.

התהליך מסתיים במצב שבו G מסוגל לייצר דוגמאות חדשות, אלו אינן לקוחות מתוך מאגר הנתונים המקורי, שכן אלו הן יצירות "מקוריות" חדשות. אם מדובר בתמונות של פנים של אנשים, G מייצר לנו תמונות חדשות של אנשים שלא קיימים ואולם אלו יהיו תמונות כל כך טובות שלא נוכל לדעת שהן פרי יצירה מלאכותית. אם מדובר בציורים, G מסוגל לצייר לנו יצירת אמנות חדשה, בדיוק בסגנון של אותו צייר, ואולם זו תמונה שלא צוירה מעולם, אם מדובר במוזיקה, G יוכל לייצר קטע מוזיקלי חדש בסגנון מדויק של מבחר קטעי מוזיקה של יוצר מסוים.

איור א27 הוא פרי יצירה של מערכת GAN אשר אומנה על כ־15000 תמונות אמיתיות (המאגר של D).

מקודד עצמי ניתן לכיוונון Variational AutoEncoder - VAE

נתחיל בתיאור של מערכת "מקודד עצמי" - Auto-Encoder. נתבונן באיור א28. במבוא ובמוצא לרשת הכנסנו את אותם הנתונים, בכניסה ובמוצא מופיעה אותה התמונה. כביכול אנו מאמנים את הרשת לזהות ואו להבדיל בין נתונים על פי אותם הנתונים עצמם. מה התועלת שנוכל להפיק מרשת כזאת?

דבר אחד שניתן להבחין בו הוא שהמערכת מורכבת משני חלקים, הראשון נקרא מקודד encoder והשני נקרא מפענח decoder (השתמשנו גם במושגים האלו ברשתות משוב עצביות), שניהם משורשרים כלומר מוצא המקודד הוא מבוא המפענח. מספר הנוירונים במוצא המקודד קטן יותר ממספרם במבוא, כלומר אנו מצמצמים את ממד המרחב המייצג את האינפורמציה. זהו אחד היתרונות שנוכל להשיג ממערכת כזאת, אם הצלחנו לאמן את הרשת הרי שהצלחנו גם לייצג את האינפורמציה באמצעות ממד נמוך יותר במרכז. לו חתכנו את המערכת בדיוק במרכז והזנו את הערכים שקיבלנו שם לתוך המפענח, הינו יכולים לשחזר את כל האינפורמציה במוצא המפענח. צמצום של ממד המרחב המייצג את האינפורמציה מאפשר דחיסה שלה ודומה לאלגוריתם של לימוד מכונה הידוע בשם Principle Component Analysis. צמצום כזה מקל רבות על עיבוד האינפורמציה.

תכונה טובה אחרת שנוכל להשיג באמצעות מערכת כזאת היא האפשרות לנקות תמונה מרעש, de-noising. נוכל לאמן רשת כזאת באמצעות הצגת תמונות עם רעש בכניסה ואותן תמונות ללא הרעש ביציאה, המערכת תלמד להכליל את התכונה הזאת ולנקות גם תמונות שלא ראתה (איור א29).

מקודד עצמי ניתן לכוונון הוא מקודד עצמי עם תכונה נוספת של רציפות. האותות בכניסה מקודדים לתוך מרחב חבוי רציף. בהינתן אות בכניסה, המקודד מייצג אותו בשכבת האמצע החבויה באמצעות רצף של ערכים בצורת התפלגות (בדרך כלל נורמלית) סביב מרכז מסוים ועם שונות מסוימת (איור א30). לאחר שלב האימון ניתן יהיה לחתוך את הרשת במרכז, ולדגום את המרחב החבוי. המרחב החבוי יתנהג כאילו הוא מורכב מאוסף של גאוסיאנים סביב מספר מרכזים.[57]

המטרה של מקודד כזה היא ליצור מרחב חבוי שעליו ניתן לייצג את האינפורמציה בצורה רציפה. דגימה אשר מייצגת את המקור (אחד מאברי קבוצת האימון) תשחזר במוצא המפענח את המקור ואולם דגימה אשר קרובה פחות למקור תיתן במוצא וריאציה שלו (איור א30). כך נוכל לקבל רצף של ערכי ביניים!

מקודד עצמי כזה יוכל ליצור ערכי ביניים שלא הופיעו בקבוצת האימון המקורית. הוא יוכל לייצר כלי נגינה חדשים שהם על הרצף בין כלי אחד לשני, הוא יוכל לייצר תמונות על הרצף בין תמונה אחת לשנייה ועוד. מקודדים כאלו כבר משמשים כיום באמנות.

המרחב החבוי אמור לקיים שני תנאים עיקריים, האחד הוא האפשרות לשחזר את אות המקור, כלומר כאשר נדגום את המרחב החבוי הפנימי קרוב לנקודה המייצגת את אות המקור אנו רוצים לקבל במוצא אות קרוב למקור, כלומר "טעות שחזור" נמוכה.

התנאי השני הוא הדרישה שהמרחב החבוי יתפלג על פי פונקציית התפלגות נתונה מראש, נניח התפלגות נורמלית סביב הנקודות המייצגות את אותות המקור (ראו איור א31).

עלינו לשים לב לעובדה החשובה שברשת נוירונים רגילה, במרחב החבוי, לא מובטחות לנו מלכתחילה תכונות טובות כלשהן. רשת נוירונים איננה ליניארית והיא יכולה לפזר את הנקודות על המרחב החבוי בדרך כלשהי, ייצוג הנקודות במרחב החבוי עלול לגרום לשיבוש של חלק מהאינפורמציה, נקודות הקרובות זו לזו במקור עלולות לעבור לנקודות הרחוקות זו מזו במרחב החבוי. נצטרך להתאמץ בכדי לאכוף על המרחב החבוי התנהגות "סבירה".

את התכונות הנדרשות מהמרחב החבוי אנו משיגים באמצעות הגדרות של פונקציית הטעות. פונקציית הטעות תהיה מורכבת משני הרכיבים שהזכרנו, האחד דואג לטעות השחזור והשני דואג להתפלגות (נניח נורמלית) של הנתונים סביב מרכז מסוים. אימון רשת VAE והגדרת פונקציית הטעות חורג מרמת הדיון בספר זה.

לימוד לא מונחה - Unsupervised Learning

עד עתה עסקנו בלימוד מונחה, קבוצת האימון שלנו הכילה נתונים מסומנים annotated. האם אפשר לבנות רשת אשר תקבל נתונים שאינם מסומנים ושתלמד להפריד בין קבוצות שונות של נתונים כאלו? הדבר נשמע לכאורה בלתי אפשרי ואולם מיד נראה דוגמה לרשת כזו.

נתבונן באוסף הנקודות שבאיור א32, נוכל בקלות להבחין בכך שיש כאן שלוש קבוצות נפרדות של נקודות. אפילו נוכל לצייר קו המפריד ביניהן, עיגול או אליפסה המקיפה את כל אחת מהקבוצות. אנו יודעים להפריד בקלות בין הקבוצות מבלי שמישהו הנחה אותנו, כלומר מבלי שמישהו "צבע" את הקבוצות בצבעים שונים. כיצד אנו עושים זאת? אנו מזהים כי הנקודות בכל קבוצה קרובות זו לזו יותר מאשר לנקודות בקבוצה הסמוכה. את ההבחנה הזאת אנו רוצים להעניק לרשת הנוירונים.

באלגוריתמים ישנים של לימוד מכונה ידוע אלגוריתם בשם k-means, האלגוריתם הזה יודע למצוא את המרכזים של קבוצות הנקודות, זיהוי המרכזים קרוב מאוד לזיהוי הקבוצות. הרעיון בבסיס האלגוריתם מאוד פשוט, מלכתחילה נבחר באופן רנדומלי בשלוש נקודות להיות מרכזי הצבירים. כעת נעבור על כל הנקודות באוסף שלנו (זו קבוצת האימון), כל נקודה נייחס אותה לאחד מהצבירים על פי מרחקה מאותן שלוש נקודות שבחרנו להיות "מרכזי הצבירים". כך קיבלנו חלוקה של כל הנקודות לשלוש קבוצות. כעת ניקח כל קבוצה ונבחר עבורה נקודה שתהווה את ה"מרכז" החדש, למשל על ידי ממוצע. קיבלנו שלוש נקודות חדשות המועמדות להיות שלושת המרכזים החדשים. אלו נקודות שונות ממה שהחזקנו קודם לכן. כעת נעבור שוב על כל הנקודות ונחלק אותן מחדש לפי המרחק של כל אחת מהן מכל אחד מהמרכזים החדשים. כך נמשיך שוב ושוב, באיטרציות של חישוב מרכזים חדשים וחלוקה של הנקודות ביחס לאותם מרכזים חדשים, עד שנגיע למצב שבו המרכזים שאנו מחשבים כבר לא משתנים יותר. המרכזים שנקבל בסופו של התהליך יהיו מרכזי הצבירים.

נתבונן ברשת שבאיור א33. רשת הנוירונים מתוכננת לפעול בדומה לאלגוריתם של k-means. זוהי רשת תחרותית, Competitive Network. במוצא הרשת נשווה בין ערכי הפלטים, הרשת מתוכננת כך שהנוירון עם הפלט הגבוה ביותר יחוזק ושאר הנוירונים במוצא יוחלשו. ניתן לעשות זאת על ידי הפעלה של משקלות שליליים בין הנוירונים לבין עצמם בשכבת המוצא, כך שכל נוירון מנחית את אות הכניסה לנוירונים האחרים. הנוירון במוצא אשר קיבל את הפלט הגבוה ביותר "ישתלט" על שאר הנוירונים ויחליש אותם.[58]

נניח לצורך הפשטות שמוצא הרשת כולל שני נוירונים בלבד. נניח שנתונה לנו קבוצת נקודות במרחב רב־ממדי, נניח ששתי הקבוצות מרוחקות מעט אחת מהשנייה, אוסף כל הנקודות האלו הוא קבוצת האימון. נראה להלן כי רשת הנוירונים מסוגלת להפריד בין הקבוצות והפעם ללא כל הנחייה, un-supervised learning. כאשר נציג לרשת את קבוצת האימון לא נצרף לנקודות את הסימון שלהם, "כחול" או "אדום", אנו משתמשים כאן בסימון רק לצורך הקלה על ההסבר.

נגדיר קודם כול את המושג "מכפלה סקלרית":

אם וקטור האקטיבציות של נקודה כלשהי הוא:

ווקטור המשקלות של הרשת הוא:

המכפלה הסקלרית של שני הווקטורים היא:

קל לראות שהמכפלה הסקלרית גדלה אם ערכי המשקלות מתקרבים לערכי האקטיבציות , במילים אחרות, כאשר וקטור המשקלות נעשה דומה לווקטור האקטיבציות. זוהי תכונה פשוטה של מכפלה סקלרית של שני ווקטורים. אבל רגע, אנחנו מכירים את הביטוי שבסכום האחרון, זהו בדיוק ערך הקלט שניתן לנוירון המתאים (ראו איור א4).

כעת נחזור לתיאור האלגוריתם (נתבונן באיור א33).

נתונים לנו שני וקטורים של משקלות ראשוניים, וקטור המשקלות לכיוון הנוירון העליון ווקטור המשקלות לכיוון הנוירון התחתון. וקטורי המשקלות הם נקודות במרחב רב־ממדי, המייצגות את מרכזי הצבירים הזמניים. כעת נבחר נקודה אחת מקבוצת האימון, נבדוק אם היא קרובה יותר לווקטור המשקלות העליון או התחתון. נניח שהיא קרובה יותר לווקטור העליון, כלומר המכפלה הסקלרית שלה עם וקטור המשקלות העליון גבוהה יותר. לפיכך הנוירון העליון יופעל בעצמה גדולה יותר מאשר התחתון ומאחר שהרשת היא קומפטטיבית הנוירון העליון "יכניע" את הנוירון התחתון. במוצא הרשת נקבל שהנוירון העליון פעיל והנוירון התחתון מושבת. נוכל לומר שהנקודה שבחרנו שייכת לצביר העליון (שמרכזו הוא וקטור המשקלות העליון).

כעת נשנה את מרכז הצביר הראשון ונזיז אותו מעט לכיוון הנקודה, אנו משנים מעט את וקטור המשקלות העליון ומסיטים מעט את המשקלות לכיוון האקטיבציות של הנקודה. זה שלב של בחירת מרכז חדש. וקטור המשקלות מיצג את מרכז הצביר הזמני ועכשיו אנו יודעים שהנקודה שבחרנו שייכת לאותו צביר ועל כן נתקן את מרכז הצביר ונקרב אותו מעט לנקודה. עד עתה בחרנו נקודה, ראינו לאיזה צביר היא שייכת והוזזנו את מרכז הצביר מעט לכיוונה. כעת נבחר נקודה חדשה נבדוק באותו אופן לאיזה מווקטור המשקלות היא קרובה יותר ואחר כך נשנה את וקטור המשקלות המתאים לכיוונה. כך נמשיך שוב ושוב ונעבור על כל קבוצת האימון עד שמרכזי הצבירים כלומר וקטורי המשקלות יתייצבו.

וקטורי המשקלות מייצגים את המרכזים של הצבירים הזמניים. בכל פעם שווקטור המשקלות זז הוא מייצג מרכז חדש ובאופן עקיף מגדיר את הצביר של כל הנקודות שקרובות אליו יותר מאשר למרכז השני. כך אנו בוחרים במשתמע קבוצה חדשה להיות "אדומה" או "כחולה".

בסופו של התהליך נקבל שני וקטורים של משקלות כאשר כל אחד מהם מייצג את מרכז הצביר שלו בהתאמה. זוג וקטורי המשקלות שקיבלנו הן הפלט של האלגוריתם, והן נלמדו ללא הנחיה כלשהי.

שימו לב כי הנחנו מראש שמספר הצבירים ידוע ועל כן בנינו רשת עם שני נוירונים במוצא.

הדמיון לאלגוריתם k-means מאוד ברור, שם עשינו איטרציות בין שני שלבים: שיוך כל נקודה לצביר המתאים לה (על פי קרבתן של הנקודות למרכזים הזמניים) ובחירה של מרכזים חדשים, כאשר כל שלב כזה הכיל את כל נקודות האימון. כאן אנו עושים איטרציות דומות, שיוך לצביר הנכון והוזזת מרכז הצביר, אלא שכאן כל שלב מכיל חישוב עם נקודה אחת בלבד.

תהליך האימון

בחלק זה נעסוק בכמה סוגיות עקרוניות הנוגעות לתהליך האימון ברשתות נוירונים. נדבר על Gradient Descent,

Stochastic Gradient Descent, התאמת יתר, התאמת חסר, רגולריזציה ועוד.

כזכור, בהינתן רשת נוירונים, אנו מאמנים אותה על קבוצת האימון. התהליך מורכב ממספר איטרציות. כל איטרציה כזו מתחילה בחישוב בכיוון קדימה, כלומר הצבת האקטיבציות בקלט עבור כל אחד מהפרטים בקבוצת האימון וחישוב כל הפלטים מהשכבה האחרונה. פונקציית הטעות מחושבת על ידי השוואה בין הערכים שנתנה לנו הרשת עבור כל פרט בקבוצת האימון לבין התוצאה הרצויה שהייתה אמורה להתקבל עבור אותו הפרט כלומר

כאשר הסכום (או הממוצע) עובר על כל אברי קבוצת האימון. עד כאן החישוב קדימה. השלב השני של האיטרציה הוא חלחול הטעות אחורנית. כפי שראינו למעלה, חלחול הטעות אחורנית נעשה על ידי גזירה של פונקציית הטעות. אנו מחשבים את הנגזרת של פונקציית הטעות לפי כל אחד מהמשקלות w, והולכים בצעדים קטנים במורד השיפוע, נגד כיוון הגרדיאנט. אחרי שעשינו את השינוי במשקלות נוכל להתחיל באיטרציה הבאה, נציב בקלט הרשת שוב את כל נקודות האימון, נחשב קדימה את הפלט, ונבדוק עד כמה קטנה הטעות. אם צריך, כלומר אם הטעות לא קטנה מספיק, נעשה איטרציות נוספות. תהליך כזה הוא תהליך ארוך יחסית שכן בכל איטרציה כזו אנו עוברים על כל קבוצת האימון.[59]

קיים תהליך קצת יותר יעיל הידוע כ־Stochastic Gradient Descent. בתהליך זה אנו קודם כול מערבבים את קבוצת האימון. כעת בוחרים את האיבר הראשון, מחשבים קדימה את הפלט עבור אותו איבר, ומחשבים את פונקציית הטעות עבורו. כעת אנו גוזרים את הפונקציה ומתקנים את המשקלות במטרה להקטין את הטעות. כביכול יש לנו רק איבר אחד בקבוצת האימון. באיטרציה הבאה נבחר את האיבר הבא בקבוצת האימון, נחשב קדימה את הפלט עבור איבר זה עם המשקלות החדשים שקיבלנו מהשלב הקודם, כלומר כדי לחשב את הטעות עבור האיבר הבא אנו משתמשים במשקלות שקיבלנו עבור האיבר הקודם. כך נמשיך עד שעברנו על כל אברי קבוצת האימון. אפשר לחשוב על התהליך כביכול בכל פעם שבה אנו מקרבים את פונקציית ההפסד על ידי איבר אחד מתוך הסכום כולו. אחרי שסיימנו לעבור על כל אברי קבוצת האימון, נוכל לערבב אותם שוב באופן רנדומלי ולהתחיל ב־epoch חדש.

ניתן להראות כי ההתקדמות בשיטה הסטוכסטית מהירה יותר, שכן כל איטרציה מכילה חישוב אחד בלבד. לעומת זאת, קירוב כזה פחות מדויק והוא נע בזיגזג לכיוון נקודת המינימום (איור א34).

קיים גם שילוב בין השיטות והוא נקרא Mini Batch Gradient Descent. נפעל כאן בדיוק כמו שפעלנו במקרה הסטוכסטי, אלא שהפעם נבחר בתת־קבוצות קטנות של אברי קבוצת האימון. "נערבב" את כל קבוצת האימון, נחלק אותה לתת־קבוצות ונפעיל חישוב קדימה לתת הקבוצה הראשונה, נתקן את המשקלות ונעבור לתת הקבוצה הבאה וכך עד לסיום ה־epoch. הפעם הקירוב למינימום של פונקציית ההפסד יהיה טוב יותר.

פונקציית הטעות על תת־קבוצה של אברי קבוצת האימון יכולה להיחשב כקירוב לפונקציית הטעות האמיתית, על כן Mini-Batch יהיה קירוב טוב יותר מאשר קירוב באמצעות איבר בודד, דבר שמסביר את ההתנהגות שרואים באיור א34.

נניח שנתונה לנו בעיה של רגרסיה לא ליניארית. נראה לכאורה כי ככל שיש לנו יותר ויותר אברים בקבוצת האימון כך מצבנו טוב יותר, ואולם לעיתים אין הדבר נכון. לעיתים הרשת, במיוחד אם היא עמוקה, מסוגלת לעקוב אחר כל שינוי קטן, כל "רעש", וכך היא מאבדת את יכולת ההכללה שלה. באיור א35 אנו מניחים שהנקודות של קבוצת האימון נדגמו מתוך תהליך המתואר על ידי פונקציה ריבועית או אולי ממעלה גבוהה יותר (ראו איור א35 במרכז). ננסה לבנות רשת אשר תתאר את אוסף נקודות האימון. הרשת אמורה לתת לנו תיאור הדומה לגרף המקורי ממנו נדגמו הנקודות. ואולם לעיתים יקרה דבר מוזר, הרשת תבנה קירוב טוב מאוד, ואפילו יותר מדי טוב לאוסף הנקודות אשר עוקב אחרי כל שינוי קטן. זו איננה ההכללה שרצינו. בהינתן אוסף נקודות אחר אשר נדגם אף הוא מאותו תהליך, נקבל קירוב שונה ממנו ואשר עוקב כעת אחרי הנקודות החדשות. בין הגרפים השונים נוצרה שונות. אמנם כל הגרפים "סובבים" את אותה פונקציה מקורית, ואולם אף לא אחד מהם מתאר אותה[60] ממש (ראו איור א35, צד ימין).

מצב כזה נקרא התאמת יתר, over fitting. האימון הוא טוב מדי, מיצג את נקודות האימון בצורה טובה מאוד אבל הרשת מוגבלת ביכולת ההכללה שלה.

מה מטריד אותנו בהתאמת יתר? לכאורה קיבלנו את מה שרצינו והרשת מתארת נאמנה את קבוצת האימון! באיזה מובן נפגמה יכולת ההכללה? בכדי להשיב נתבונן באיור א36. המערכת המתוארת באיור אמורה לעשות סיווג בין שני סוגי נקודות. הקו המפותל שהמערכת מייצרת הוא תוצאה של התאמת יתר. הקו המתון יותר מייצג את ההפרדה הרצויה, בין הנקודות שנמצאות מעליו לאלו שמתחתיו. יש לזכור כי הנקודות המופיעות כאן מייצגות את קבוצת האימון. כאשר ננסה להפעיל את הרשת על נקודות שלא ראתה ניתקל בקושי. נקודות חדשות שהן מתחת לקו המתון ולכודות בין הקו המפותל לקו המתון לא יסווגו נכון. בדומה, נקודות חדשות מעל לקו המתון ולכודות בינו לבין הקו המפותל אף הן לא יסווגו נכון.

כיצד נזהה התאמת יתר? אם נצליח לעקוב במקביל אחר טעות האימון וטעות ההכללה, נגלה את אותו שלב באימון שבו טעות האימון ממשיכה לרדת וטעות ההכללה מתחילה לעלות. ואולם כיצד נגלה את טעות ההכללה? נוכל לבחור קבוצה קטנה של אברי מבחן לעצור את האימון ולבדוק את טעות ההכללה. טעות ההכללה אמורה לרדת יחד עם טעות האימון ואולם במקרה של התאמת יתר טעות האימון ממשיכה לרדת, בעוד שטעות ההכללה מתחילה לעלות. זהו השלב שבו עלינו לעצור את האימון לפני שנגיע למצב של התאמת יתר, שיטת עבודה זו נקראת early stopping.

נגדיר כעת מצב הפוך של התאמת חסר under-fitting. התאמת חסר היא מצב שבו המערכת לא מסוגלת להוריד את טעות האימון. דבר כזה יכול למשל לקרות כאשר אנו מנסים לתאר קבוצת נקודות המתפלגת לא ליניארית באמצעות מערכת שהיא ליניארית (איור א35 צד שמאל) או כאשר אנו מנסים לתאר התפלגות לא ליניארית מממד גבוה באמצעות רשת המייצרת גרף לא ליניארי מממד יותר נמוך. עבור חלק מנקודות האימון תיווצר טעות אותה לא נצליח להוריד בהתחשב במערכת שברשותנו.[61]

כיצד נוכל לתקן התאמת חסר? אחת הדרכים לפתור בעיה של התאמת חסר הינה לעבור לרשת חזקה יותר, עמוקה יותר, ואו להשתמש בפונקציות אקטיבציה לא ליניאריות כדי לתת לרשת אפשרות להתקרב להתפלגויות מורכבות יותר.

רגולריזציה

רגולריזציה הינה אחת הדרכים להתמודד עם התאמת יתר. ישנן מספר שיטות רגולריזציה, נציג כאן את הפשוטה מבניהן.

דרך אחת להימנע מהתאמת יתר היא להתרחק מנקודת המינימום של פונקציית הטעות L באמצעות הוספת רכיב רגולריזציה R. איזה רכיב נוסיף לפונקציית הטעות? נניח שהרשת פשוטה מאוד, מרחב המשקלות הוא מממד 2, שני המשקלות הן ו־, ונקודת המינימום הגלובלית של L היא ( שונה מ־0 אחרת כל המערכת הופכת להיות טריוויאלית). נוסיף לפונקציית הטעות את אורך הווקטור של המשקלות, כלומר איבר מסוג

כעת קיבלנו פונקציית טעות חדשה . נקודת המינימום המקורית של פונקציית הטעות L כבר לא תהיה נקודת מינימום לפונקציה המתוקנת . בנקודה ערך הביטוי R יכול שיהיה גדול מאוד (בתלות בקבוע λ), ולכן גם ערכו של . אם נתרחק מ־ ונתקרב לראשית הצירים ייתכן בהחלט שנקטין את R הרבה יותר מאשר נגדיל את L ועל כן כל הביטוי יקטן. קרוב מדי לראשית הצירים, ייתכן שערך כל הביטוי יגדל שוב בשל הרכיב L. תהיה על כן נקודת מינימום חדשה עבור הפונקציה בין המינימום המקורי לבין הראשית (ראו איור א37).

כך נצליח בצורה מלאכותית להרחיק את המערכת כולה מנקודת המינימום המקורית. במובן מסוים פגענו בתפקודה של הרשת, או במילים אחרות ריסנו את התנהגותה.

שיטת רגולריזציה זו נקראת רגולריזציה מסוג , שכן הביטוי R למעלה מייצג את מרחק הנקודה מן הראשית במטריקה ריבועית (מסוג ), לעיתים נעשה שימוש גם במטריקה אחרת כגון .

[20] כדי לחשב את השיפוע של פונקציית הטעות במקום כלשהו, ניתן לגזור אותה (במובן של חשבון אינפיניטסימלי). הנגזרת במקום מסוים היא השיפוע של הפונקציה (איור א8). נגזרת שלילית משמעותה שהפונקציה יורדת ועל כן הגדלה של ערכי w יקטינו את פונקציית הטעות וזה הכיוון שבו עלינו ללכת. נגזרת חיובית משמעותה שהפונקציה עולה, כלומר אם נגדיל את ערכי w ערכי הטעות רק יגדלו ועל כן במקרה כזה עלינו להקטין את ערכי w. מכל זאת יוצא שעלינו ללכת בכיוון הפוך לכיוון הנגזרת, כלומר תוספת המשקלות

צריכה לקיים:

כאשר

מבטא את הנגזרת של פונקציית הטעות ביחס ל-w או השיפוע של L כפונקציה של w. הליכה בכיוון הפוך לכיוון הנגזרת תביא אותנו לנפילה לתוך נקודת המינימום, כפי שניתן לראות בבירור באיור א8. [חזרה]

[23] את הכלל במקרה של פרספטרון אפשר לסכם בנוסחה אחת פשוטה כך:

כאשר

מייצג את ערך נוירון j במטריצת הכניסה (נניח אחד הנוירונים המייצגים את הספרה 1),

הערך הנדרש עבור נוירון i ביציאה (t עבור target),

הערך שהתקבל במערכת עבור נוירון היציאה i, ו-

הוא השינוי הנדרש במשקל עבור החיבור בין נוירון j במטריצת הכניסה לנוירון i ביציאה. לדוגמה, אם ערך

הוא 1 והתקבל עבורו בנוירון יציאה i ערך של 1 כלומר

, ונניח עוד כי אמור היה להתקבל באותו נוירון i ערך של 0 כלומר

אנו רואים שהנוסחה למעלה אומרת כי התוספת למשקל

תהיה שלילית, כלומר יש להקטין את המשקל בין נוירון j במטריצת הכניסה לנוירון i ביציאה. כך נשתיק את הנוירון i ביציאה כאשר הספרה 1 מוצגת על גבי מטריצת הכניסה. הביטוי

הוא ההפרש בין הערך הרצוי לערך שהתקבל, אם ההפרש מתאפס, אין מה לתקן את המשקל באותו כיוון, אם ההפרש שלילי עלינו להקטין את המשקל ואם ההפרש חיובי עלינו להגדיל אותו. עלינו כמובן לחזור על אותה פעולה עבור כל הנוירונים במטריצת הכניסה ועבור כל עשרת הנוירונים ביציאה. כך נעשה גם עבור כל "קבוצת האימון" שלנו שהיא אוסף גדול של תמונות כתבי יד של ספרות. [חזרה]