Bagging (Bootstrap Aggregation) - סקירה כללית, איך זה עובד, יתרונות

ניתן לסווג למידת מכונה של אנסמבל בעיקר לשקית ולחיזוק. טכניקת התיקים שימושית הן לנסיגה והן לסיווג סטטיסטי. נעשה שימוש בשקית עם עצי החלטה, שם הוא מעלה משמעותית את יציבות המודלים בהפחתת השונות ושיפור הדיוק, מה שמבטל את אתגר ההתאמה.

מזוודות

איור 1. זרימת שקית (צבירת Bootstrap). מָקוֹר

התיקון בלמידת מכונות אנסמבל לוקח כמה מודלים חלשים, המאגדים את התחזיות כדי לבחור את התחזית הטובה ביותר. הדגמים החלשים מתמחים בקטעים נפרדים של חלל התכונות, המאפשרים תחזיות מינוף להשלים מכל דגם כדי להגיע למטרה המקסימלית.

מהיר Su mmary

  • Bagging and boosting הן שתי השיטות העיקריות של למידת מכונות אנסמבל.
  • Bagging היא שיטת אנסמבל שניתן להשתמש בה ברגרסיה ובסיווג.
  • זה ידוע גם בשם צבירת bootstrap, המהווה את שני הסיווגים של שקיות.

מה זה Bootstrapping?

Bagging מורכב משני חלקים: צבירה ו- bootstrapping. Bootstrapping היא שיטת דגימה, כאשר מדגם נבחר מתוך קבוצה, בשיטת ההחלפה. אלגוריתם הלמידה מופעל על הדגימות שנבחרו.

טכניקת האתחול משתמשת בדגימה עם תחליפים כדי להפוך את הליך הבחירה לאקראי לחלוטין. כאשר נבחר מדגם ללא החלפה, הבחירות הבאות של המשתנים תלויות תמיד בבחירות הקודמות, ומכאן שהקריטריונים אינם אקראיים.

מהי צבירה?

תחזיות מודל עוברות צבירה כדי לשלב אותן לחיזוי הסופי כדי לשקול את כל התוצאות האפשריות. הצבירה יכולה להיעשות על סמך המספר הכולל של התוצאות או על פי ההסתברות לחיזויים הנגזרים מהאתחול של כל מודל בהליך.

מהי שיטת אנסמבל?

הן שקיות והן הגברה מהווים את טכניקות ההרכב הבולטות ביותר. שיטת אנסמבל היא פלטפורמת למידת מכונה המסייעת למספר מודלים באימונים באמצעות אותו אלגוריתם למידה. שיטת האנסמבל היא משתתפת בקבוצה גדולה יותר של רב-סיווגים.

ריבוי סיווגים הם קבוצה של מספר רב של לומדים, הניתנים לאלפים, עם מטרה משותפת שיכולה להתמזג ולפתור בעיה נפוצה. קטגוריה נוספת של מסווגים מרובים היא שיטות היברידיות. השיטות ההיברידיות משתמשות במערך לומדים, אך בניגוד למספר רב-מסווגים, הם יכולים להשתמש בשיטות למידה מובחנות.

הלמידה עומדת בפני אתגרים מרובים, כגון שגיאות הנובעות בעיקר מהטיה, רעש ושונות. הדיוק והיציבות של למידת מכונה מובטחים על ידי שיטות אנסמבל כגון שקיות והגברה. שילובי סיווגים מרובים מפחיתים את השונות, במיוחד כאשר המסווגים אינם יציבים, והם חשובים בהצגת תוצאות אמינות יותר ממסווג יחיד.

היישום של שקיות או הגברה מחייב תחילה בחירת אלגוריתם לומד בסיס. לדוגמא, אם בוחרים עץ סיווג, הרי שתגדול ושקית יהיה מאגר עצים בגודל השווה להעדפת המשתמש.

יתרונות וחסרונות של שקית

יער אקראי יער אקראי יער אקראי הוא טכניקה המשמשת לחיזוי דוגמנות וניתוח התנהגות והיא בנויה על עצי החלטה. יער אקראי מכיל עצי החלטות רבים הוא אחד האלגוריתמים הפופולאריים ביותר. Bagging מציע את היתרון בכך שהוא מאפשר ללומדים חלשים רבים לשלב מאמצים לעלות על תלמיד חזק אחד. זה גם עוזר בהפחתת השונות, ומכאן ביטול ההתאמה המוגזמת יתר על המידה Overfitting Overfitting הוא מונח המשמש בסטטיסטיקה המתייחס לשגיאת דוגמנות המתרחשת כאשר פונקציה תואמת יותר מדי למערכת נתונים מסוימת של מודלים בהליך.

חסרון אחד של שקיות הוא בכך שהוא מביא לאובדן פרשנות של מודל. המודל שהתקבל יכול לחוות הטיה רבה כאשר מתעלמים מההליך המתאים. למרות שקיות מדויקות ביותר, זה יכול להיות יקר חישובית וזה עשוי להרתיע את השימוש בו במקרים מסוימים.

שקיות לעומת הגברה

הטכניקה הטובה ביותר לשימוש בין שקיות לחיזוק תלויה בנתונים הזמינים, בסימולציה ובכל הנסיבות הקיימות באותו זמן. השונות של הערכה מופחתת משמעותית על ידי טכניקות שקיות והגברה במהלך הליך השילוב, ובכך מגדילה את הדיוק. לכן, התוצאות שהתקבלו מדגימות יציבות גבוהה יותר מאשר התוצאות האישיות.

כאשר אירוע מציב את האתגר של ביצועים נמוכים, טכניקת המזוודות לא תביא להטיה טובה יותר. עם זאת, טכניקת ההעלאה מייצרת מודל מאוחד עם שגיאות נמוכות יותר מכיוון שהיא מתמקדת באופטימיזציה של היתרונות וצמצום החסרונות במודל יחיד.

כאשר האתגר במודל יחיד מתאים יותר מדי, שיטת המזוודות מתפקדת טוב יותר מטכניקת ההגברה. התגברות מתמודדת עם האתגר של טיפול בהתאמת יתר מכיוון שהוא מגיע עם התאמת יתר בפני עצמה.

קריאות קשורות

האוצר מציע את הסמכת ה- FMVA® ™ FMVA® Analyst for Modelling & Valuation Analyst. הצטרף ל -350,600 סטודנטים + עובדים שעובדים בחברות כמו אמזון, JP Morgan ותכנית הסמכה של פרארי למי שמעוניין לקחת את הקריירה שלהם לשלב הבא. כדי להמשיך ללמוד ולפתח את בסיס הידע שלך, אנא בדוק את משאבי האוצר הנוספים הרלוונטיים להלן:

  • דגימת אשכול דגימת אשכול בסטטיסטיקה, דגימת אשכול היא שיטת דגימה בה כל אוכלוסיית המחקר מחולקת להומוגנית חיצונית אך פנימית.
  • הטיה של עודף ביטחון עצמי הטיה של עודף ביטחון עצמי הינה הערכה שקרית ומטעה של כישורינו, האינטלקט או הכישרון שלנו. בקיצור, זו אמונה אגואיסטית שאנחנו טובים ממה שאנחנו באמת. זה יכול להיות הטיה מסוכנת ופורה מאוד בתחום מימון התנהגותי ושווקי הון.
  • ניתוח רגרסיה ניתוח רגרסיה ניתוח רגרסיה הוא קבוצה של שיטות סטטיסטיות המשמשות לאמידת היחסים בין משתנה תלוי למשתנה עצמאי אחד או יותר. ניתן להשתמש בו כדי להעריך את חוזק הקשר בין משתנים ולמודל את הקשר העתידי ביניהם.
  • ניתוח נתוני סדרות זמן ניתוח סדרות זמן ניתוח נתוני סדרות זמן הוא ניתוח מערכי הנתונים המשתנים על פני תקופת זמן. מערכי נתונים של סדרות זמן מתעדים תצפיות של אותו משתנה לאורך נקודות זמן שונות. אנליסטים פיננסיים משתמשים בנתוני סדרות זמן כגון תנועות מחירי המניות, או מכירות של חברה לאורך זמן