راهنمای کوتاه یادگیری عمیق
متن اصلی از افشین عمیدی و شروین عمیدی
ترجمه شده توسط الیستر. بازبینی شده توسط محمد کریمی و عرفان نوری.
شبکههای عصبی
شبکههای عصبی دستهای از مدلهایی هستند که با لایهبندی ساخته میشوند (ساختاری چند لایه دارند). شبکههای عصبی پیچشی ( کانولوشنی (CNN)) و شبکههای عصبی بازگشتی (RNN) انواع رایج شبکههای عصبی هستند.
معماری واژه معماری در شبکههای عصبی در شکل زیر توصیف شده است:
![Illustration](teaching/cs-229/illustrations/neural-network-fa.png?82e13328527b4cd07f2d545da22198d6)
با نمایش $i$ به عنوان لایه $i$ام و $j$ به عنوان واحد $j$ام پنهان آن لایه، داریم:
که به ترتیب $w$، $b$، و $z$ وزن، پیشقدر، و خروجی لایه هستند.
تابع فعالسازی توابع فعالسازی (Activation function) در انتهای واحد پنهان برای معرفی پیچیدگی غیر خطی به مدل استفاده میشوند. در اینجا رایجترین آنها نمایش داده شده است:
سیگموئید | تانژانت هذلولوی | یکسو ساز | یکسو ساز نشتیدار |
$g(z)=\displaystyle\frac{1}{1+e^{-z}}$ | $g(z)=\displaystyle\frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}$ | $g(z)=\textrm{max}(0,z)$ | $g(z)=\textrm{max}(\epsilon z,z)$ $\epsilon\ll1$ و |
![]() |
![]() |
![]() |
![]() |
خطای آنتروپی متقاطع در مضمون شبکههای عصبی، عموما از تابع خطای آنتروپی متقاطع (Cross-entropy loss) $L(z, y)$ استفاده میشود که به صورت زیر تعریف میشود:
نرخ یادگیری نرخ یادگیری (Learning rate) اغلب با نماد $\alpha$ و گاهی اوقات با نماد $\eta$ نمایش داده میشود و بیانگر سرعت (گام) بروزرسانی وزنها است که میتواند مقداری ثابت یا به سازگارشونده تغییر کند. محبوبترین روش حال حاضر Adam نام دارد، متدی است که نرخ یادگیری را در حین فرآیند آموزش تنظیم میکند.
انتشار معکوس انتشار معکوس (Backpropagation) روشی برای بروزرسانی وزنها با توجه به خروجی واقعی و خروجی مورد انتظار در شبکهی عصبی است. مشتق نسبت به وزن $W$ توسط قاعدهی زنجیری محاسبه میشود و به شکل زیر است:
در نتیجه، وزن به صورت زیر بروزرسانی میشود:
بروزرسانی وزنها در یک شبکهی عصبی، وزنها به صورت زیر بروزرسانی میشوند:
• گام ۱: یک دسته از دادههای آموزشی را تهیه میکنیم.
• گام ۲: الگوریتم انتشار مستقیم را برای بدست آوردن خطای مربوطه اجرا میکنیم.
• گام ۳: خطا را انتشار معکوس میدهیم تا گرادیانها به دست بیایند.
• گام ۴: از گرادیانها برای بروزرسانی وزنهای شبکه استفاده میکنیم.
بروناندازی بروناندازی (Dropout) یک روش برای جلوگیری از بیشبرازش بر روی دادههای آموزشی با حذف تصادفی واحدها در یک شبکهی عصبی است. در عمل، واحدها با احتمال $p$ حذف یا با احتمال $1-p$ حفظ میشوند.
شبکههای عصبی پیچشی (کانولوشنی)
الزامات لایه کانولوشنی با نمایش $W$ اندازه تودهی ورودی، $F$ اندازه نورونهای لایهی کانولوشنی، $P$ اندازهی حاشیهی صفر، تعداد نورونهای $N$ که در تودهی داده شده قرار میگیرند برابر است با:
نرمالسازی دستهای (Batch normalization) یک مرحله از فراعاملهای $\gamma$ و $\beta$ که دستهی $\{x_i\}$ را نرمال میکند در زیر آمده است.نماد $\mu_B$ و $\sigma^2_B$ به میانگین و واریانس دستهای که میخواهیم آن را اصلاح کنیم اشاره دارد که به صورت زیر است:
شبکههای عصبی بازگشتی
انواع دروازهها انواع مختلف دروازههایی که در یک شبکهی عصبی بازگشتی معمولی به آنها برمیخوریم در زیر آمدهاند:
دروازهی ورودی | دروازهی فراموشی | دروازه | دروازهی خروجی |
در سلول بنویسد یا خیر؟ | سلول را پاک کند یا خیر؟ | چه مقدار در سلول بنویسد؟ | چه مقدار برای سلول آشکار کند؟ |
LSTM یک شبکهی حافظهی کوتاه-مدت طولانی (LSTM) یک نوع از مدلهای RNN است که مشکل ناپدید شدن (صفر شدن) گرادیان را با اضافه کردن «دروازهی فراموشی» حل میکند.
یادگیری تقویتی و کنترل
هدف یادگیری تقویتی برای یک عامل این است که یاد بگیرد در یک محیط چگونه تکامل یابد.
تعاریف
فرایندهای تصمیمگیری مارکوف یک فرآیند تصمیمگیری مارکوف (به اختصار MDP) شامل پنجتایی $(\mathcal{S}, \mathcal{A}, \{P_{s, a}\}, \gamma, R)$ است به طوری که:
• $\mathcal{S}$ مجموعهی حالات است
• $\mathcal{A}$ مجموعهای از کنشها است
• $\{P_{s, a}\}$ احتمالات انتقال وضعیت برای هر $a\in\mathcal{A}$ و $s\in\mathcal{S}$ هستند.
• $\gamma \in [0, 1[$ ضریب تخفیف است.
• $R:\mathcal{S}\times\mathcal{A}\longrightarrow\mathbb{R}$ یا $R:\mathcal{S}\longrightarrow\mathbb{R}$ تابع پاداشی است که الگوریتم سعی دارد آن را بیشینه بکند.
خطمشی یک خطمشی $\pi$ تابعی است $\pi:\mathcal{S}\longrightarrow\mathcal{A}$ که حالات را به کنشها نگاشت میکند.
نکته: میگوییم ما در حال اجرای خطمشی $\pi$ هستیم اگر به ازای وضعیت $s$ کنش $a = \pi(s)$ را اجرا کنیم.
تابع ارزش برای سیاست $\pi$ و وضعیت $s$، تابع ارزش $V^{\pi}$ را به صورت زیر تعریف میکنیم:
معادلهی بلمن معادلهی بلمن بهینهی تابع ارزش $V^{\pi^*}$ مربوط به خطمشی بهینهی $\pi^*$ را مشخص میکند:
نکته: سیاست بهینهی $\pi^*$ برای وضعیت $s$ به این صورت است که:
الگوریتم تکرار ارزش الگوریتم تکرار ارزش دو گام دارد:
۱) ارزش را مقداردهی اولیه میکنیم:
۲) ارزش را با توجه به ارزشهای قبلی تکرار میکنیم:
یادگیری $Q$ یادگیری $Q$ نوعی از یادگیری تقویتی بدون مدل برای تخمین $Q$ است که به صورت زیر انجام میشود: