CS ۲۲۹

Star

بواسطة افشین عمیدی و شروین عمیدی

تمت الترجمة بواسطة امجد الخطابي

تمت المراجعة بواسطة زيد اليافعي

الشبكة العصبونية الاصطناعية

الشبكة العصبونية الاصطناعيةهي عبارة عن نوع من النماذج يبنى من عدة طبقات , اكثر هذة الانواع استخداما هي الشبكات الالتفافية و الشبكات العصبونية المتكرره

البنية المصطلحات حول بنية الشبكة العصبونية موضح في الشكل ادناة

Illustration

عبر تدوين $i$ كالطبقة رقم $i$ ve $j$ للدلالة على رقم الوحده الخفية في تلك الطبقة , نحصل على:

\[\boxed{z_j^{[i]}={w_j^{[i]}}^Tx+b_j^{[i]}}\]

حيث نعرف $w, b, z$ كالوزن , و معامل التعديل , و الناتج حسب الترتيب.

دالة التفعيل دالة التفعيل تستخدم في نهاية الوحده الخفية لتضمن المكونات الغير خطية للنموذج. هنا بعض دوال التفعيل الشائعة

SigmoidTanhReLULeaky ReLU
$g(z)=\displaystyle\frac{1}{1+e^{-z}}$$g(z)=\displaystyle\frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}$$g(z)=\textrm{max}(0,z)$$g(z)=\textrm{max}(\epsilon z,z)$
و $\epsilon\ll1$
IllustrationIllustrationIllustrationIllustration

دالة الانتروبيا التقاطعية للخسارة في سياق الشبكات العصبونية, دالة الأنتروبيا $L(z,y)$ تستخدم و تعرف كالاتي:

\[\boxed{L(z,y)=-\Big[y\log(z)+(1-y)\log(1-z)\Big]}\]

معدل التعلم معدل التعلم, يرمز $\alpha$ او $\eta$ ب , و هو مؤشر في اي تجاة يتم تحديث الاوزان. يمكن تثبيت هذا المعامل او تحديثة بشكل تأقلمي . حاليا اكثر النسب شيوعا تدعى Adam , وهي طريقة تجعل هذه النسبة سرعة التعلم بشكل تأقلمي.

التغذية الخلفية التغذية الخلفية هي طريقة لتحديث الاوزان في الشبكة العصبونية عبر اعتبار القيم الحقيقة للناتج مع القيمة المطلوبة للخرج. المشتقة بالنسبة للوزن $w$ يتم حسابها باستخدام قاعدة التسلسل و تكون عبر الشكل الاتي:

\[\boxed{\frac{\partial L(z,y)}{\partial w}=\frac{\partial L(z,y)}{\partial a}\times\frac{\partial a}{\partial z}\times\frac{\partial z}{\partial w}}\]

كنتيجة , الوزن سيتم تحديثة كالتالي:

\[\boxed{w\longleftarrow w-\alpha\frac{\partial L(z,y)}{\partial w}}\]

تحديث الاوزان في الشبكات العصبونية , يتم تحديث الاوزان كما يلي:

الاسقاط الاسقاط هي طريقة الغرض منها منع التكيف الزائد للنموذج في بيانات التدريب عبر اسقاط بعض الواحدات في الشبكة العصبونية, العصبونات يتم اما اسقاطها باحتمالية $p$ او الحفاظ عليها باحتمالية $1-p$.

الشبكات العصبونية الالتفافية

احتياج الطبقة الالتفافية عبر رمز $W$ لحجم المدخل , $F$ حجم العصبونات للطبقة الالتفافية , $P$ عدد الحشوات الصفرية , فأن $N$ عدد العصبونات لكل حجم معطى يحسب عبر الاتي:

\[\boxed{N=\frac{W-F+2P}{S}+1}\]

تنظيم الحزمة هي خطوه من قيم التحسين الخاصة $\gamma, \beta$ والتي تعدل الحزمة $\{x_i\}$. لنجعل $\mu_B, \sigma_B^2$ المتوسط و الانحراف للحزمة المعنية و نريد تصحيح هذه الحزمة, يتم ذلك كالتالي:

\[\boxed{x_i\longleftarrow\gamma\frac{x_i-\mu_B}{\sqrt{\sigma_B^2+\epsilon}}+\beta}\]

في الغالب تتم بعد الطبقة الالتفافية أو المتصلة كليا و قبل طبقة التغيرات الغير خطية و تهدف للسماح للسرعات التعليم العالية للتقليل من الاعتمادية القوية للقيم الاولية.

الشبكات العصبونية التكرارية

انواع البوابات هنا الانواع المختلفة التي ممكن مواجهتها في الشبكة العصبونية الاعتيادية:

بوابة ادخالبوابة نسيانبوابة منفذبوابة اخراج
كتابة ام عدم كتابة الى الخلية؟مسح ام عدم مسح الخلية؟كمية الكتابة الى الخلية ؟مدى الافصاح عن الخلية ؟

LSTM ذاكرة طويلة قصير الامد (long short-term memory) هي نوع من نموذج ال RNN تستخدم لتجنب مشكلة اختفاء الانحدار عبر اضافة بوابات النسيان.

التعلم و التحكم المعزز

الهدف من التعلم المعزز للعميل الذكي هو التعلم لكيفية التأقلم في اي بيئة.

تعريفات

عملية ماركوف لاتخاذ القرار عملية ماركوف لاتخاذ القرار هي سلسلة خماسية $(\mathcal{S},\mathcal{A},\{P_{sa}\},\gamma,R)$ حيث

دالة القواعد دالة القواعد $\pi:\mathcal{S}\longrightarrow\mathcal{A}$ هي التي تقوم بترجمة الحالات الى اجراءات.

ملاحظة: نقول ان النموذج ينفذ القاعدة المعينه $\pi$ للحالة المعطاة $s$ ان نتخذ الاجراء$a=\pi(s)$.

دالة القاعدة لاي قاعدة معطاة $\pi$ و حالة $s$, نقوم بتعريف دالة القيمة $V^{\pi}$ كما يلي:

\[\boxed{V^\pi(s)=E\Big[R(s_0)+\gamma R(s_1)+\gamma^2 R(s_2)+...|s_0=s,\pi\Big]}\]

معادلة بيلمان معادلات بيلمان المثلى تشخص دالة القيمة دالة القيمة $V^{\pi^<em>}$ للقاعدة المثلى $\pi^</em>$:

\[\boxed{V^{\pi^*}(s)=R(s)+\max_{a\in\mathcal{A}}\gamma\sum_{s'\in S}P_{sa}(s')V^{\pi^*}(s')}\]

ملاحظة: نلاحظ ان القاعدة المثلى $\pi^*$ للحالة المعطاه $s$ تعطى كاالتالي:

\[\boxed{\pi^*(s)=\underset{a\in\mathcal{A}}{\textrm{argmax}}\sum_{s'\in\mathcal{S}}P_{sa}(s')V^*(s')}\]

خوارزمية تكرار القيمة خوارزمية تكرار القيمة تكون في خطوتين:

1) نقوم بوضع قيمة اولية:

\[\boxed{V_0(s)=0}\]

2) نقوم بتكرير القيمة حسب القيم السابقة:

\[\boxed{V_{i+1}(s)=R(s)+\max_{a\in\mathcal{A}}\left[\sum_{s'\in\mathcal{S}}\gamma P_{sa}(s')V_i(s')\right]}\]

تقدير الامكانية القصوى تقديرات الامكانية القصوى (تقدير الاحتمال الأرجح) لحتماليات انتقال الحالة تكون كما يلي :

\[\boxed{P_{sa}(s')=\frac{\#\textrm{اوقات تنفيذ الاجراء $a$ في الحالة $s$ و انتقلت الى $s'$}}{\#\textrm{اوقات تنفيذ الاجراء $a$ في الحالة $s$}}}\]

التعلم-Q هي طريقة غير منمذجة لتقدير $Q$, و تتم كالاتي:

\[\boxed{Q(s,a)\leftarrow Q(s,a)+\alpha\Big[R(s,a,s')+\gamma\max_{a'}Q(s',a')-Q(s,a)\Big]}\]