تعلم آلي - CS ۲۲۹

مرجع سريع لنصائح وحيل تعلّم الآلة

Star

النص الأصلي بواسطة افشین عمیدی و شروین عمیدی
تمت الترجمة بواسطة فارس القنيعير. تمت المراجعة بواسطة زيد اليافعي.

مقاييس التصنيف

في سياق التصنيف الثنائي، هذه المقاييس (metrics) المهمة التي يجدر مراقبتها من أجل تقييم آداء النموذج.

مصفوفة الدقّة (confusion matrix) تستخدم مصفوفة الدقّة لأخذ تصور شامل عند تقييم أداء النموذج. وهي تعرّف كالتالي:

التصنيف المتوقع
+ -
التصنيف الفعلي+ TP
True Positives
FN
False Negatives
Type II error
- FP
False Positives
Type I error
TN
True Negatives

المقاييس الأساسية المقاييس التالية تستخدم في العادة لتقييم أداء نماذج التصنيف:

المقياس المعادلة التفسير
الضبط (accuracy) $\displaystyle\frac{\textrm{TP}+\textrm{TN}}{\textrm{TP}+\textrm{TN}+\textrm{FP}+\textrm{FN}}$ الأداء العام للنموذج
الدقة (precision) $\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FP}}$ دقّة التوقعات الإيجابية (positive)
الاستدعاء (recall, sensitivity) $\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$ تغطية عينات التوقعات الإيجابية الفعلية
Specificity $\displaystyle\frac{\textrm{TN}}{\textrm{TN}+\textrm{FP}}$ تغطية عينات التوقعات السلبية الفعلية
درجة F1 $\displaystyle\frac{2\textrm{TP}}{2\textrm{TP}+\textrm{FP}+\textrm{FN}}$ مقياس هجين مفيد للأصناف غير المتوازنة (unbalanced)

منحنى دقّة الأداء (ROC) منحنى دقّة الآداء، ويطلق عليه ROC، هو رسمة لمعدل التصنيفات الإيجابية الصحيحة (TPR) مقابل معدل التصنيفات الإيجابية الخاطئة (FPR) باستخدام قيم حد (threshold) متغيرة. هذه المقاييس ملخصة في الجدول التالي:

المقياس المعادلة مرادف
True Positive Rate
TPR
$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$ Recall, sensitivity
False Positive Rate
FPR
$\displaystyle\frac{\textrm{FP}}{\textrm{TN}+\textrm{FP}}$ 1-specificity

المساحة تحت منحنى دقة الأداء (المساحة تحت المنحنى) (AUC) المساحة تحت منحنى دقة الأداء (المساحة تحت المنحنى)، ويطلق عليها AUC أو AUROC، هي المساحة تحت ROC كما هو موضح في الرسمة التالية:


ROC AUC

مقاييس الانحدار

المقاييس الأساسية إذا كان لدينا نموذج الانحدار $f$، فإن المقاييس التالية غالباً ما تستخدم لتقييم أداء النموذج:

المجموع الكلي للمربعات مجموع المربعات المُفسَّر مجموع المربعات المتبقي
$\displaystyle\textrm{SS}_{\textrm{tot}}=\sum_{i=1}^m(y_i-\overline{y})^2$ $\displaystyle\textrm{SS}_{\textrm{reg}}=\sum_{i=1}^m(f(x_i)-\overline{y})^2$ $\displaystyle\textrm{SS}_{\textrm{res}}=\sum_{i=1}^m(y_i-f(x_i))^2$

مُعامل التحديد (coefficient of determination) مُعامل التحديد، وغالباً يرمز له بـ $R^2$ أو $r^2$، يعطي قياس لمدى مطابقة النموذج للنتائج الملحوظة، ويعرف كما يلي:

\[\boxed{R^2=1-\frac{\textrm{SS}_\textrm{res}}{\textrm{SS}_\textrm{tot}}}\]

المقاييس الرئيسية المقاييس التالية تستخدم غالباً لتقييم أداء نماذج الانحدار، وذلك بأن يتم الأخذ في الحسبان عدد المتغيرات $n$ المستخدمة فيها:

معيار معامل مالوس (Mallow's) AIC BIC Adjusted $R^2$
$\displaystyle\frac{\textrm{SS}_{\textrm{res}}+2(n+1)\widehat{\sigma}^2}{m}$ $\displaystyle2\Big[(n+2)-\log(L)\Big]$ $\displaystyle\log(m)(n+2)-2\log(L)$ $\displaystyle1-\frac{(1-R^2)(m-1)}{m-n-1}$

حيث $L$ هو الأرجحية، و $\widehat{\sigma}^2$ تقدير التباين الخاص بكل نتيجة.


اختيار النموذج

مفردات عند اختيار النموذج، نفرق بين 3 أجزاء من البيانات التي لدينا كالتالي:

مجموعة تدريب مجموعة تحقق مجموعة اختبار
• يتم تدريب النموذج
• غالباً 80% من مجموعة البيانات
• يتم تقييم النموذج
• غالباً 20% من مجموعة البيانات
• يطلق عليها كذلك المجموعة المُجنّبة أو مجموعة التطوير
• النموذج يعطي التوقعات
• بيانات لم يسبق رؤيتها من قبل

بمجرد اختيار النموذج، يتم تدريبه على مجموعة البيانات بالكامل ثم يتم اختباره على مجموعة اختبار لم يسبق رؤيتها من قبل. كما هو موضح في الشكل التالي:

Partition of the dataset

التحقق المتقاطع (cross-validation) التحقق المتقاطع، وكذلك يختصر بـ CV، هو طريقة تستخدم لاختيار نموذج بحيث لا يعتمد بشكل كبير على مجموعة بيانات التدريب المبدأية. أنواع التحقق المتقاطع المختلفة ملخصة في الجدول التالي:

k-fold Leave-p-out
• التدريب على $k-1$ جزء والتقييم باستخدام الجزء الباقي
• بشكل عام $k=5$ أو 10
• التدريب على $n-p$ عينة والتقييم باستخدام الـ $p$ عينات المتبقية
• الحالة $p=1$ يطلق عليها الإبقاء على واحد (leave-one-out)

الطريقة الأكثر استخداماً يطلق عليها التحقق المتقاطع س جزء/أجزاء ($k$-fold)، ويتم فيها تقسيم البيانات إلى $k$ جزء، بحيث يتم تدريب النموذج باستخدام $k-1$ والتحقق باستخدام الجزء المتبقي، ويتم تكرار ذلك $k$ مرة. يتم بعد ذلك حساب معدل الأخطاء في الأجزاء $k$ ويسمى خطأ التحقق المتقاطع.

Cross-validation

ضبط (regularization) عمليه الضبط تهدف إلى تفادي فرط التخصيص (overfit) للنموذج، وهو بذلك يتعامل مع مشاكل التباين العالي. الجدول التالي يلخص أنواع وطرق الضبط الأكثر استخداماً:

LASSO Ridge Elastic Net
• يقلص المُعاملات إلى 0
• جيد لاختيار المتغيرات
يجعل المُعاملات أصغر المفاضلة بين اختيار المتغيرات والمُعاملات الصغيرة
Lasso Ridge Elastic Net
$...+\lambda||\theta||_1$
$\lambda\in\mathbb{R}$
$...+\lambda||\theta||_2^2$
$\lambda\in\mathbb{R}$
$...+\lambda\Big[(1-\alpha)||\theta||_1+\alpha||\theta||_2^2\Big]$
$\lambda\in\mathbb{R},\alpha\in[0,1]$

التشخيصات

الانحياز (bias) الانحياز للنموذج هو الفرق بين التنبؤ المتوقع والنموذج الحقيقي الذي نحاول تنبؤه للبيانات المعطاة.


التباين (variance) تباين النموذج هو مقدار التغير في تنبؤ النموذج لنقاط البيانات المعطاة.


موازنة الانحياز/التباين (bias/variance tradeoff) كلما زادت بساطة النموذج، زاد الانحياز، وكلما زاد تعقيد النموذج، زاد التباين.


Underfitting Just right Overfitting
الأعراض • خطأ التدريب عالي
• خطأ التدريب قريب من خطأ الاختبار
• انحياز عالي
• خطأ التدريب أقل بقليل من خطأ الاختبار • خطأ التدريب منخفض جداً
• خطأ التدريب أقل بكثير من خطأ الاختبار
• تباين عالي
توضيح الانحدار Underfit in regression Right fit in regression Overfit in regression
توضيح التصنيف Underfit in classification Right fit in classification Overfit in classification
توضيح التعلم العميق Underfit in deep learning Right fit in deep learning Overfit in deep learning
العلاجات الممكنة • زيادة تعقيد النموذج
• إضافة المزيد من الخصائص
• تدريب لمدة أطول
• إجراء الضبط (regularization)
• الحصول على المزيد من البيانات

تحليل الخطأ تحليل الخطأ هو تحليل السبب الرئيسي للفرق في الأداء بين النماذج الحالية والنماذج المثالية.


تحليل استئصالي (ablative analysis) التحليل الاستئصالي هو تحليل السبب الرئيسي للفرق في الأداء بين النماذج الحالية والنماذج المبدئية (baseline).