راهنمای کوتاه نکات و ترفندهای یادگیری عمیق
متن اصلی از افشین عمیدی و شروین عمیدی
ترجمه شده توسط الیستر. بازبینی شده توسط عرفان نوری.
پردازش داده
دادهافزایی مدلهای یادگیری عمیق معمولا به دادههای زیادی نیاز دارند تا بتوانند به خوبی آموزش ببینند. اغلب، استفاده از روشهای دادهافزایی برای گرفتن دادهی بیشتر از دادههای موجود، مفید است. اصلیترین آنها در جدول زیر به اختصار آمدهاند. به عبارت دقیقتر، با در نظر گرفتن تصویر ورودی زیر، روشهایی که میتوان اعمال کرد بدین شرح هستند:
تصویر اصلی | قرینه | چرخش | برش تصادفی |
• تصویر (آغازین) بدون هیچگونه تغییری | • قرینهشده نسبت به محوری که معنای (محتوای) تصویر را حفظ میکند | • چرخش با زاویهی اندک • خط افق نادرست را شبیهسازی میکند |
• روی ناحیهای تصادفی از تصویر متمرکز میشود • چندین برش تصادفی را میتوان پشتسرهم انجام داد |
تغییر رنگ | اضافهکردن نویز | هدررفت اطلاعات | تغییر تباین(کُنتراست) |
• عناصر RGB کمی تغییر کرده است • نویزی که در هنگام مواجه شدن با نور رخ میدهد را شبیهسازی میکند |
• افزودگی نویز • مقاومت بیشتر نسبت به تغییر کیفیت تصاویر ورودی |
• بخشهایی از تصویر نادیده گرفته میشوند • تقلید (شبیه سازی) هدررفت بالقوه بخشهایی از تصویر |
• تغییر درخشندگی • با توجه به زمان روز تفاوت نمایش (تصویر) را کنترل میکند |
نکته: دادهها معمولا در فرآیند آموزش (به صورت درجا) افزایش پیدا میکنند.
نرمالسازی دستهای یک مرحله از فراسنجهای $\gamma, \beta$ که دستهی $\{x_i\}$ را نرمال میکند. نماد $\mu_B, \sigma_B^2$ به میانگین و وردایی دستهای که میخواهیم آن را اصلاح کنیم اشاره دارد که به صورت زیر است:
آموزش یک شبکهی عصبی
تعاریف
تکرار (epoch) در مضمون آموزش یک مدل، تکرار اصطلاحی است که مدل در یک دوره تکرار تمامی نمونههای آموزشی را برای بهروزرسانی وزنها میبیند.
گرادیان نزولی دستهیکوچک در فاز آموزش، بهروزرسانی وزنها معمولا بر مبنای تمامی مجموعه آموزش به علت پیچیدگیهای محاسباتی، یا یک نمونه داده به علت مشکل نویز، نیست. در عوض، گام بهروزرسانی بر روی دستههای کوچک انجام می شود، که تعداد نمونههای داده در یک دسته یک ابرفراسنج است که میتوان آن را تنظیم کرد.
تابع خطا به منظور سنجش کارایی یک مدل مفروض، معمولا از تابع خطای $L$ برای ارزیابی اینکه تا چه حد خروجی حقیقی $y$ به شکل صحیح توسط خروجی $z$ مدل پیشبینی شدهاند، استفاده میشود.
خطای آنتروپی متقاطع در مضمون دستهبندی دودویی در شبکههای عصبی، عموما از تابع خطای آنتروپی متقاطع $L(z,y)$ استفاده و به صورت زیر تعریف میشود:
یافتن وزنهای بهینه
انتشار معکوس انتشار معکوس روشی برای بهروزرسانی وزنها با توجه به خروجی واقعی و خروجی مورد انتظار در شبکهی عصبی است. مشتق نسبت به هر وزن $w$ توسط قاعدهی زنجیری محاسبه میشود.
با استفاده از این روش، هر وزن با قانون زیر بهروزرسانی میشود:
بهروزرسانی وزنها در یک شبکهی عصبی، وزنها به شکل زیر بهروزرسانی میشوند:
• گام 1: یک دسته از دادههای آموزشی گرفته شده و با استفاده از انتشار مستقیم خطا محاسبه میشود
• گام 2: با استفاده از انتشار معکوس مشتق خطا نسبت به هر وزن محاسبه میشود
• گام 3: با استفاده از مشتقات، وزنهای شبکه بهروزرسانی میشوند
تنظیم فراسنج
مقداردهی اولیهی وزنها
مقداردهی اولیه Xavier بهجای مقداردهی اولیهی وزنها به شیوهی کاملا تصادفی، مقداردهی اولیه Xavier این امکان را فراهم میسازد تا وزنهای اولیهای داشته باشیم که ویژگیهای منحصر به فرد معماری را به حساب میآورند.
یادگیری انتقالی آموزش یک مدل یادگیری عمیق به دادههای زیاد و مهمتر از آن به زمان زیادی احتیاج دارد. اغلب بهتر است که از وزنهای پیشآموخته روی پایگاه دادههای عظیم که آموزش بر روی آنها روزها یا هفتهها طول میکشند استفاده کرد، و آنها را برای موارد استفادهی خود به کار برد. بسته به میزان دادههایی که در اختیار داریم، در زیر روشهای مختلفی که میتوان از آنها بهره جست آورده شدهاند:
تعداد دادههای آموزش | نگاره | توضیح |
کوچک | منجمد کردن تمامی لایهها، آموزش وزنها در بیشینهی هموار | |
متوسط | منجمد کردن اکثر لایهها، آموزش وزنها در لایههای آخر و بیشینهی هموار | |
بزرگ | آموزش وزنها در (تمامی) لایهها و بیشینهی هموار با مقداردهیاولیهی وزنها بر طبق مقادیر پیشآموخته |
بهینهسازی همگرایی
نرخ یادگیری نرخ یادگیری اغلب با نماد $\alpha$ و گاهی اوقات با نماد $\eta$ نمایش داده میشود و بیانگر سرعت (گام) بهروزرسانی وزنها است که میتواند مقداری ثابت داشته باشد یا به صورت سازگارشونده تغییر کند. محبوبترین روش حال حاضر Adam نام دارد، روشی است که نرخ یادگیری را در حین فرآیند آموزش تنظیم میکند.
نرخهای یادگیری سازگارشونده داشتن نرخ یادگیری متغیر در فرآیند آموزش یک مدل، میتواند زمان آموزش را کاهش دهد و راهحل بهینه عددی را بهبود ببخشد. با آنکه بهینهساز Adam محبوبترین روش مورد استفاده است، دیگر روشها نیز میتوانند مفید باشند. این روشها در جدول زیر به اختصار آمدهاند:
روش | توضیح | بهروزرسانی $w$ | بهروزرسانی $b$ |
تکانه | • نوسانات را تعدیل میدهد • بهبود SGD • دو فراسنج که نیاز به تنظیم دارند |
$\displaystyle w-\alpha v_{dw}$ | $\displaystyle b-\alpha v_{db}$ |
RMSprop | • انتشار جذر میانگین مربعات • سرعت بخشیدن به الگوریتم یادگیری با کنترل نوسانات |
$\displaystyle w-\alpha\frac{dw}{\sqrt{s_{dw}}}$ | $\displaystyle b\longleftarrow b-\alpha\frac{db}{\sqrt{s_{db}}}$ |
Adam | • تخمین سازگارشونده ممان • محبوبترین روش • چهار فراسنج که نیاز به تنظیم دارند |
$\displaystyle w-\alpha\frac{v_{dw}}{\sqrt{s_{dw}}+\epsilon}$ | $\displaystyle b\longleftarrow b-\alpha\frac{v_{db}}{\sqrt{s_{db}}+\epsilon}$ |
نکته: سایر متدها شامل Adadelta، Adagrad و SGD هستند.
نظامبخشی
بروناندازی بروناندازی روشی است که در شبکههای عصبی برای جلوگیری از بیشبرارزش بر روی دادههای آموزشی با حذف تصادفی نورونها با احتمال $p >0$ استفاده میشود. این روش مدل را مجبور میکند تا از تکیه کردن بیشازحد بر روی مجموعه خاصی از ویژگیها خودداری کند.
نکته: بیشتر کتابخانههای یادگیری عمیق بروناندازی را با استفاده از فراسنج 'نگهداشتن' $1-p$ کنترل میکنند.
نظامبخشی وزن برای اطمینان از اینکه (مقادیر) وزنها بیشازحد بزرگ نیستند و مدل به مجموعهی آموزش بیشبرارزش نمیکند، روشهای نظامبخشی معمولا بر روی وزنهای مدل اجرا میشوند. اصلیترین آنها در جدول زیر به اختصار آمدهاند:
LASSO | Ridge | Elastic Net |
• ضرایب را تا صفر کاهش میدهد • برای انتخاب متغیر مناسب است |
ضرایب را کوچکتر میکند | بین انتخاب متغیر و ضرایب کوچک مصالحه میکند |
$...+\lambda||\theta||_1$ $\lambda\in\mathbb{R}$ |
$...+\lambda||\theta||_2^2$ $\lambda\in\mathbb{R}$ |
$...+\lambda\Big[(1-\alpha)||\theta||_1+\alpha||\theta||_2^2\Big]$ $\lambda\in\mathbb{R},\alpha\in[0,1]$ |
توقف زودهنگام این روش نظامبخشی، فرآیند آموزش را به محض اینکه خطای اعتبارسنجی ثابت میشود یا شروع به افزایش پیدا کند، متوقف میکند.
عادتهای خوب
بیشبرارزش روی دستهی کوچک هنگام اشکالزدایی یک مدل، اغلب مفید است که یک سری آزمایشهای سریع برای اطمینان از اینکه هیچ مشکل عمدهای در معماری مدل وجود ندارد، انجام شود. به طورخاص، برای اطمینان از اینکه مدل میتواند به شکل صحیح آموزش ببیند، یک دستهی کوچک (از دادهها) به شبکه داده میشود تا دریابیم که مدل میتواند به آنها بیشبرارزش کند. اگر نتواند، بدین معناست که مدل از پیچیدگی بالایی برخوردار است یا پیچیدگی کافی برای بیشبرارزش شدن روی دستهی کوچک ندارد، چه برسد به یک مجموعه آموزشی با اندازه عادی.
وارسی گرادیان وارسی گرادیان روشی است که در طول پیادهسازی گذر روبهعقبِ یک شبکهی عصبی استفاده میشود. این روش مقدار گرادیان تحلیلی را با گرادیان عددی در نقطههای مفروض مقایسه میکند و نقش بررسی درستی را ایفا میکند.
نوع | گرادیان عددی | گرادیان تحلیلی |
فرمول | $\displaystyle\frac{df}{dx}(x) \approx \frac{f(x+h) - f(x-h)}{2h}$ | $\displaystyle\frac{df}{dx}(x) = f'(x)$ |
توضیحات | • پرهزینه (از نظر محاسباتی)، خطا باید دو بار برای هر بُعد محاسبه شود • برای تایید صحت پیادهسازی تحلیلی استفاده میشود • مصالحه در انتخاب $h$: نه بسیار کوچک (ناپایداری عددی) و نه خیلی بزرگ (تخمین گرادیان ضعیف) باشد |
• نتیجه 'عینی' • محاسبه مستقیم • در پیادهسازی نهایی استفاده میشود |