مرجع سريع لنصائح وحيل تعلّم الآلة
النص الأصلي بواسطة افشین عمیدی و شروین عمیدی
تمت الترجمة بواسطة فارس القنيعير. تمت المراجعة بواسطة زيد اليافعي.
مقاييس التصنيف
في سياق التصنيف الثنائي، هذه المقاييس (metrics) المهمة التي يجدر مراقبتها من أجل تقييم آداء النموذج.
مصفوفة الدقّة (confusion matrix) تستخدم مصفوفة الدقّة لأخذ تصور شامل عند تقييم أداء النموذج. وهي تعرّف كالتالي:
التصنيف المتوقع | |||
+ | - | ||
التصنيف الفعلي | + | TP True Positives |
FN False Negatives Type II error |
- | FP False Positives Type I error |
TN True Negatives |
المقاييس الأساسية المقاييس التالية تستخدم في العادة لتقييم أداء نماذج التصنيف:
المقياس | المعادلة | التفسير |
الضبط (accuracy) | $\displaystyle\frac{\textrm{TP}+\textrm{TN}}{\textrm{TP}+\textrm{TN}+\textrm{FP}+\textrm{FN}}$ | الأداء العام للنموذج |
الدقة (precision) | $\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FP}}$ | دقّة التوقعات الإيجابية (positive) |
الاستدعاء (recall, sensitivity) | $\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$ | تغطية عينات التوقعات الإيجابية الفعلية |
Specificity | $\displaystyle\frac{\textrm{TN}}{\textrm{TN}+\textrm{FP}}$ | تغطية عينات التوقعات السلبية الفعلية |
درجة F1 | $\displaystyle\frac{2\textrm{TP}}{2\textrm{TP}+\textrm{FP}+\textrm{FN}}$ | مقياس هجين مفيد للأصناف غير المتوازنة (unbalanced) |
منحنى دقّة الأداء (ROC) منحنى دقّة الآداء، ويطلق عليه ROC، هو رسمة لمعدل التصنيفات الإيجابية الصحيحة (TPR) مقابل معدل التصنيفات الإيجابية الخاطئة (FPR) باستخدام قيم حد (threshold) متغيرة. هذه المقاييس ملخصة في الجدول التالي:
المقياس | المعادلة | مرادف |
True Positive Rate TPR |
$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$ | Recall, sensitivity |
False Positive Rate FPR |
$\displaystyle\frac{\textrm{FP}}{\textrm{TN}+\textrm{FP}}$ | 1-specificity |
المساحة تحت منحنى دقة الأداء (المساحة تحت المنحنى) (AUC) المساحة تحت منحنى دقة الأداء (المساحة تحت المنحنى)، ويطلق عليها AUC أو AUROC، هي المساحة تحت ROC كما هو موضح في الرسمة التالية:
مقاييس الانحدار
المقاييس الأساسية إذا كان لدينا نموذج الانحدار $f$، فإن المقاييس التالية غالباً ما تستخدم لتقييم أداء النموذج:
المجموع الكلي للمربعات | مجموع المربعات المُفسَّر | مجموع المربعات المتبقي |
$\displaystyle\textrm{SS}_{\textrm{tot}}=\sum_{i=1}^m(y_i-\overline{y})^2$ | $\displaystyle\textrm{SS}_{\textrm{reg}}=\sum_{i=1}^m(f(x_i)-\overline{y})^2$ | $\displaystyle\textrm{SS}_{\textrm{res}}=\sum_{i=1}^m(y_i-f(x_i))^2$ |
مُعامل التحديد (coefficient of determination) مُعامل التحديد، وغالباً يرمز له بـ $R^2$ أو $r^2$، يعطي قياس لمدى مطابقة النموذج للنتائج الملحوظة، ويعرف كما يلي:
المقاييس الرئيسية المقاييس التالية تستخدم غالباً لتقييم أداء نماذج الانحدار، وذلك بأن يتم الأخذ في الحسبان عدد المتغيرات $n$ المستخدمة فيها:
معيار معامل مالوس (Mallow's) | AIC | BIC | Adjusted $R^2$ |
$\displaystyle\frac{\textrm{SS}_{\textrm{res}}+2(n+1)\widehat{\sigma}^2}{m}$ | $\displaystyle2\Big[(n+2)-\log(L)\Big]$ | $\displaystyle\log(m)(n+2)-2\log(L)$ | $\displaystyle1-\frac{(1-R^2)(m-1)}{m-n-1}$ |
حيث $L$ هو الأرجحية، و $\widehat{\sigma}^2$ تقدير التباين الخاص بكل نتيجة.
اختيار النموذج
مفردات عند اختيار النموذج، نفرق بين 3 أجزاء من البيانات التي لدينا كالتالي:
مجموعة تدريب | مجموعة تحقق | مجموعة اختبار |
• يتم تدريب النموذج • غالباً 80% من مجموعة البيانات |
• يتم تقييم النموذج • غالباً 20% من مجموعة البيانات • يطلق عليها كذلك المجموعة المُجنّبة أو مجموعة التطوير |
• النموذج يعطي التوقعات • بيانات لم يسبق رؤيتها من قبل |
بمجرد اختيار النموذج، يتم تدريبه على مجموعة البيانات بالكامل ثم يتم اختباره على مجموعة اختبار لم يسبق رؤيتها من قبل. كما هو موضح في الشكل التالي:
التحقق المتقاطع (cross-validation) التحقق المتقاطع، وكذلك يختصر بـ CV، هو طريقة تستخدم لاختيار نموذج بحيث لا يعتمد بشكل كبير على مجموعة بيانات التدريب المبدأية. أنواع التحقق المتقاطع المختلفة ملخصة في الجدول التالي:
k-fold | Leave-p-out |
• التدريب على $k-1$ جزء والتقييم باستخدام الجزء الباقي • بشكل عام $k=5$ أو 10 |
• التدريب على $n-p$ عينة والتقييم باستخدام الـ $p$ عينات المتبقية • الحالة $p=1$ يطلق عليها الإبقاء على واحد (leave-one-out) |
الطريقة الأكثر استخداماً يطلق عليها التحقق المتقاطع س جزء/أجزاء ($k$-fold)، ويتم فيها تقسيم البيانات إلى $k$ جزء، بحيث يتم تدريب النموذج باستخدام $k-1$ والتحقق باستخدام الجزء المتبقي، ويتم تكرار ذلك $k$ مرة. يتم بعد ذلك حساب معدل الأخطاء في الأجزاء $k$ ويسمى خطأ التحقق المتقاطع.
ضبط (regularization) عمليه الضبط تهدف إلى تفادي فرط التخصيص (overfit) للنموذج، وهو بذلك يتعامل مع مشاكل التباين العالي. الجدول التالي يلخص أنواع وطرق الضبط الأكثر استخداماً:
LASSO | Ridge | Elastic Net |
• يقلص المُعاملات إلى 0 • جيد لاختيار المتغيرات |
يجعل المُعاملات أصغر | المفاضلة بين اختيار المتغيرات والمُعاملات الصغيرة |
$...+\lambda||\theta||_1$ $\lambda\in\mathbb{R}$ |
$...+\lambda||\theta||_2^2$ $\lambda\in\mathbb{R}$ |
$...+\lambda\Big[(1-\alpha)||\theta||_1+\alpha||\theta||_2^2\Big]$ $\lambda\in\mathbb{R},\alpha\in[0,1]$ |
التشخيصات
الانحياز (bias) الانحياز للنموذج هو الفرق بين التنبؤ المتوقع والنموذج الحقيقي الذي نحاول تنبؤه للبيانات المعطاة.
التباين (variance) تباين النموذج هو مقدار التغير في تنبؤ النموذج لنقاط البيانات المعطاة.
موازنة الانحياز/التباين (bias/variance tradeoff) كلما زادت بساطة النموذج، زاد الانحياز، وكلما زاد تعقيد النموذج، زاد التباين.
Underfitting | Just right | Overfitting | |
الأعراض | • خطأ التدريب عالي • خطأ التدريب قريب من خطأ الاختبار • انحياز عالي |
• خطأ التدريب أقل بقليل من خطأ الاختبار | • خطأ التدريب منخفض جداً • خطأ التدريب أقل بكثير من خطأ الاختبار • تباين عالي |
توضيح الانحدار | |||
توضيح التصنيف | |||
توضيح التعلم العميق | |||
العلاجات الممكنة | • زيادة تعقيد النموذج • إضافة المزيد من الخصائص • تدريب لمدة أطول |
• إجراء الضبط (regularization) • الحصول على المزيد من البيانات |
تحليل الخطأ تحليل الخطأ هو تحليل السبب الرئيسي للفرق في الأداء بين النماذج الحالية والنماذج المثالية.
تحليل استئصالي (ablative analysis) التحليل الاستئصالي هو تحليل السبب الرئيسي للفرق في الأداء بين النماذج الحالية والنماذج المبدئية (baseline).