CS ۲۲۹

Star

بواسطة افشین عمیدی و شروین عمیدی

تمت الترجمة بواسطة فارس القنيعير

تمت المراجعة بواسطة زيد اليافعي

مقاييس التصنيف

في سياق التصنيف الثنائي، هذه المقاييس (metrics) المهمة التي يجدر مراقبتها من أجل تقييم آداء النموذج.

مصفوفة الدقّة تستخدم مصفوفة الدقّة لأخذ تصور شامل عند تقييم أداء النموذج. وهي تعرّف كالتالي:

التصنيف المتوقع
+-
التصنيف الفعلي+TP
True Positives
FN
False Negatives
Type II error
-FP
False Positives
Type I error
TN
True Negatives

المقاييس الأساسية المقاييس التالية تستخدم في العادة لتقييم أداء نماذج التصنيف:

المقياسالمعادلةالتفسير
الضبط (accuracy)$\displaystyle\frac{\textrm{TP}+\textrm{TN}}{\textrm{TP}+\textrm{TN}+\textrm{FP}+\textrm{FN}}$الأداء العام للنموذج
الدقة (precision)$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FP}}$دقّة التوقعات الإيجابية (positive)
الاستدعاء
Sensitivity
$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$تغطية عينات التوقعات الإيجابية الفعلية
Specificity$\displaystyle\frac{\textrm{TN}}{\textrm{TN}+\textrm{FP}}$تغطية عينات التوقعات السلبية الفعلية
درجة F1$\displaystyle\frac{2\textrm{TP}}{2\textrm{TP}+\textrm{FP}+\textrm{FN}}$مقياس هجين مفيد للأصناف غير المتوازنة (unbalanced)

ROC منحنى دقّة الآداء، ويطلق عليه ROC، هو رسمة لمعدل التصنيفات الإيجابية الصحيحة (TPR) مقابل معدل التصنيفات الإيجابية الخاطئة (FPR) باستخدام قيم حد (threshold) متغيرة. هذه المقاييس ملخصة في الجدول التالي:

المقياسالمعادلةمرادف
True Positive Rate
TPR
$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$Recall, sensitivity
False Positive Rate
FPR
$\displaystyle\frac{\textrm{FP}}{\textrm{TN}+\textrm{FP}}$1-specificity

AUC المساحة تحت منحنى دقة الأداء (المساحة تحت المنحنى)، ويطلق عليها AUC أو AUROC، هي المساحة تحت ROC كما هو موضح في الرسمة التالية:

ROC AUC

مقاييس الانحدار

المقاييس الأساسية إذا كان لدينا نموذج الانحدار $f$، فإن المقاييس التالية غالباً ما تستخدم لتقييم أداء النموذج:

المجموع الكلي للمربعاتمجموع المربعات المُفسَّرمجموع المربعات المتبقي
$\displaystyle\textrm{SS}_{\textrm{tot}}=\sum_{i=1}^m(y_i-\overline{y})^2$$\displaystyle\textrm{SS}_{\textrm{reg}}=\sum_{i=1}^m(f(x_i)-\overline{y})^2$$\displaystyle\textrm{SS}_{\textrm{res}}=\sum_{i=1}^m(y_i-f(x_i))^2$

مُعامل التحديد مُعامل التحديد، وغالباً يرمز له بـ $R^2$ أو $r^2$، يعطي قياس لمدى مطابقة النموذج للنتائج الملحوظة، ويعرف كما يلي:

\[\boxed{R^2=1-\frac{\textrm{SS}_\textrm{res}}{\textrm{SS}_\textrm{tot}}}\]

المقاييس الرئيسية المقاييس التالية تستخدم غالباً لتقييم أداء نماذج الانحدار، وذلك بأن يتم الأخذ في الحسبان عدد المتغيرات $n$ المستخدمة فيها:

معيار معامل مالوس (Mallow's)AICBICAdjusted $R^2$
$\displaystyle\frac{\textrm{SS}_{\textrm{res}}+2(n+1)\widehat{\sigma}^2}{m}$$\displaystyle2\Big[(n+2)-\log(L)\Big]$$\displaystyle\log(m)(n+2)-2\log(L)$$\displaystyle1-\frac{(1-R^2)(m-1)}{m-n-1}$

حيث $L$ هو الأرجحية، و $\widehat{\sigma}^2$ تقدير التباين الخاص بكل نتيجة.

اختيار النموذج

مفردات عند اختيار النموذج، نفرق بين 3 أجزاء من البيانات التي لدينا كالتالي:

مجموعة تدريبمجموعة تحققمجموعة اختبار
• يتم تدريب النموذج
• غالباً 80% من مجموعة البيانات
• يتم تقييم النموذج
• غالباً 20% من مجموعة البيانات
• يطلق عليها كذلك المجموعة المُجنّبة أو مجموعة التطوير
• النموذج يعطي التوقعات
• بيانات لم يسبق رؤيتها من قبل

بمجرد اختيار النموذج، يتم تدريبه على مجموعة البيانات بالكامل ثم يتم اختباره على مجموعة اختبار لم يسبق رؤيتها من قبل. كما هو موضح في الشكل التالي:

Partition of the dataset

التحقق المتقاطع التحقق المتقاطع، وكذلك يختصر بـ CV، هو طريقة تستخدم لاختيار نموذج بحيث لا يعتمد بشكل كبير على مجموعة بيانات التدريب المبدأية. أنواع التحقق المتقاطع المختلفة ملخصة في الجدول التالي:

k-foldLeave-p-out
• التدريب على $k-1$ جزء والتقييم باستخدام الجزء الباقي
• بشكل عام $k=5$ أو 10
• التدريب على $n-p$ عينة والتقييم باستخدام الـ $p$ عينات المتبقية
• الحالة $p=1$ يطلق عليها الإبقاء على واحد (leave-one-out)

الطريقة الأكثر استخداماً يطلق عليها التحقق المتقاطع س جزء/أجزاء ($k$-fold)، ويتم فيها تقسيم البيانات إلى $k$ جزء، بحيث يتم تدريب النموذج باستخدام $k-1$ والتحقق باستخدام الجزء المتبقي، ويتم تكرار ذلك $k$ مرة. يتم بعد ذلك حساب معدل الأخطاء في الأجزاء $k$ ويسمى خطأ التحقق المتقاطع.

Cross-validation

ضبط عمليه الضبط تهدف إلى تفادي فرط التخصيص (overfit) للنموذج، وهو بذلك يتعامل مع مشاكل التباين العالي. الجدول التالي يلخص أنواع وطرق الضبط الأكثر استخداماً:

LASSORidgeElastic Net
• يقلص المُعاملات إلى 0
• جيد لاختيار المتغيرات
يجعل المُعاملات أصغرالمفاضلة بين اختيار المتغيرات والمُعاملات الصغيرة
LassoRidgeElastic Net
$...+\lambda||\theta||_1$
$\lambda\in\mathbb{R}$
$...+\lambda||\theta||_2^2$
$\lambda\in\mathbb{R}$
$...+\lambda\Big[(1-\alpha)||\theta||_1+\alpha||\theta||_2^2\Big]$
$\lambda\in\mathbb{R},\alpha\in[0,1]$

التشخيصات

الانحياز الانحياز للنموذج هو الفرق بين التنبؤ المتوقع والنموذج الحقيقي الذي نحاول تنبؤه للبيانات المعطاة.

التباين تباين النموذج هو مقدار التغير في تنبؤ النموذج لنقاط البيانات المعطاة.

موازنة الانحياز/التباين كلما زادت بساطة النموذج، زاد الانحياز، وكلما زاد تعقيد النموذج، زاد التباين.


UnderfittingJust rightOverfitting
الأعراض• خطأ التدريب عالي
• خطأ التدريب قريب من خطأ الاختبار
• انحياز عالي
• خطأ التدريب أقل بقليل من خطأ الاختبار• خطأ التدريب منخفض جداً
• خطأ التدريب أقل بكثير من خطأ الاختبار
• تباين عالي
توضيح الانحدارUnderfit in regressionRight fit in regressionOverfit in regression
توضيح التصنيفUnderfit in classificationRight fit in classificationOverfit in classification
توضيح التعلم العميقUnderfit in deep learningRight fit in deep learningOverfit in deep learning
العلاجات الممكنة• زيادة تعقيد النموذج
• إضافة المزيد من الخصائص
• تدريب لمدة أطول
• إجراء الضبط (regularization)
• الحصول على المزيد من البيانات

تحليل الخطأ تحليل الخطأ هو تحليل السبب الرئيسي للفرق في الأداء بين النماذج الحالية والنماذج المثالية.

تحليل استئصالي التحليل الاستئصالي هو تحليل السبب الرئيسي للفرق في الأداء بين النماذج الحالية والنماذج المبدئية (baseline).