Makine Öğrenmesi ipuçları ve püf noktaları El Kitabı

Star

Yazar: Afshine Amidi ve Shervine Amidi

Çeviren: Seray Beşer, Ayyüce Kızrak ve Yavuz Kömeçoğlu

Sınıflandırma metrikleri

İkili bir sınıflandırma durumunda, modelin performansını değerlendirmek için gerekli olan ana metrikler aşağıda verilmiştir.

Karışıklık matrisi Karışıklık matrisi, bir modelin performansını değerlendirirken daha eksiksiz bir sonuca sahip olmak için kullanılır. Aşağıdaki şekilde tanımlanmıştır:

Tahmini sınıf
+-
Gerçek sınıf+TP
True Positives
FN
False Negatives
Type II error
-FP
False Positives
Type I error
TN
True Negatives

Ana metrikler Sınıflandırma modellerinin performansını değerlendirmek için aşağıda verilen metrikler yaygın olarak kullanılmaktadır:

MetrikFormülAçıklama
Doğruluk$\displaystyle\frac{\textrm{TP}+\textrm{TN}}{\textrm{TP}+\textrm{TN}+\textrm{FP}+\textrm{FN}}$Modelin genel performansı
Kesinlik$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FP}}$Doğru tahminlerin ne kadar kesin olduğu
Geri çağırma$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$Gerçek pozitif örneklerin oranı
Specificity$\displaystyle\frac{\textrm{TN}}{\textrm{TN}+\textrm{FP}}$Gerçek negatif örneklerin oranı
F1 skoru$\displaystyle\frac{2\textrm{TP}}{2\textrm{TP}+\textrm{FP}+\textrm{FN}}$Dengesiz sınıflar için yararlı hibrit metrik

İşlem Karakteristik Eğrisi (ROC) İşlem Karakteristik Eğrisi (receiver operating curve), eşik değeri değiştirilerek Doğru Pozitif Oranı-Yanlış Pozitif Oranı grafiğidir. Bu metrikler aşağıdaki tabloda özetlenmiştir:

MetrikFormülEşdeğer
True Positive Rate
TPR
$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$Geri çağırma
False Positive Rate
FPR
$\displaystyle\frac{\textrm{FP}}{\textrm{TN}+\textrm{FP}}$1-specificity

Eğri Altında Kalan Alan (AUC) Aynı zamanda AUC veya AUROC olarak belirtilen işlem karakteristik eğrisi altındaki alan, aşağıdaki şekilde gösterildiği gibi İşlem Karakteristik Eğrisi (ROC)'nin altındaki alandır:

ROC AUC

Regresyon metrikleri

Temel metrikler Bir $f$ regresyon modeli verildiğinde aşağıdaki metrikler genellikle modelin performansını değerlendirmek için kullanılır:

Toplam karelerinin toplamıKarelerinin toplamının açıklamasıKarelerinin toplamından artanlar
$\displaystyle\textrm{SS}_{\textrm{tot}}=\sum_{i=1}^m(y_i-\overline{y})^2$$\displaystyle\textrm{SS}_{\textrm{reg}}=\sum_{i=1}^m(f(x_i)-\overline{y})^2$$\displaystyle\textrm{SS}_{\textrm{res}}=\sum_{i=1}^m(y_i-f(x_i))^2$

Belirleme katsayısı Genellikle $R^2$ veya $r^2$ olarak belirtilen belirleme katsayısı, gözlemlenen sonuçların model tarafından ne kadar iyi kopyalandığının bir ölçütüdür ve aşağıdaki gibi tanımlanır:

[\boxed{R^2=1-\frac{\textrm{SS}\textrm{res}}{\textrm{SS}\textrm{tot}}}]

Ana metrikler Aşağıdaki metrikler, göz önüne aldıkları değişken sayısını dikkate alarak regresyon modellerinin performansını değerlendirmek için yaygın olarak kullanılır:

Mallow's CpAICBICAdjusted $R^2$
$\displaystyle\frac{\textrm{SS}_{\textrm{res}}+2(n+1)\widehat{\sigma}^2}{m}$$\displaystyle2\Big[(n+2)-\log(L)\Big]$$\displaystyle\log(m)(n+2)-2\log(L)$$\displaystyle1-\frac{(1-R^2)(m-1)}{m-n-1}$

burada $L$ olabilirlik ve $\widehat{\sigma}^2$, her bir yanıtla ilişkili varyansın bir tahminidir.

Model seçimi

Kelime Bilgisi Bir model seçerken, aşağıdaki gibi sahip olduğumuz verileri 3 farklı parçaya ayırırız:

Eğitim setiDoğrulama setiTest seti
• Model eğitildi
• Genelde veri kümesinin %80'i
• Model değerlendirildi
• Genelde veri kümesinin %20'si
•Ayrıca doğrulama için bir kısmını bekletme veya geliştirme seti olarak da bilinir
• Model tahminleri gerçekleştiriyor
• Görülmemiş veri

Model bir kere seçildikten sonra, tüm veri seti üzerinde eğitilir ve görünmeyen test setinde test edilir. Bunlar aşağıdaki şekilde gösterilmiştir:

Partition of the dataset

Çapraz doğrulama Çapraz doğrulama, başlangıçtaki eğitim setine çok fazla güvenmeyen bir modeli seçmek için kullanılan bir yöntemdir. Farklı tipleri aşağıdaki tabloda özetlenmiştir:

k-foldLeave-p-out
• $k-1$ katı üzerinde eğitim ve geriye kalanlar üzerinde değerlendirme
• Genel olarak $k=5$ veya $10$
• $n-p$ gözlemleri üzerine eğitim ve kalan $p$ üzerinde değerlendirme
• Durum $p=1$'e bir tanesini dışarıda bırak denir

En yaygın olarak kullanılan yöntem $k$-kat çapraz doğrulama olarak adlandırılır ve $k-1$ diğer katlarda olmak üzere, bu $k$ sürelerinin hepsinde model eğitimi yapılırken, modeli bir kat üzerinde doğrulamak için eğitim verilerini $k$ katlarına ayırır. Hata için daha sonra $k$-katlar üzerinden ortalama alınır ve çapraz doğrulama hatası olarak adlandırılır.

Cross-validation

Düzenlileştirme (Regularization) Düzenlileştirme prosedürü, modelin verileri aşırı öğrenmesinden kaçınılmasını ve dolayısıyla yüksek varyans sorunları ile ilgilenmeyi amaçlamaktadır. Aşağıdaki tablo, yaygın olarak kullanılan düzenlileştirme tekniklerinin farklı türlerini özetlemektedir:

LASSORidgeElastic Net
• Değişkenleri 0'a kadra küçült
• Değişken seçimi için iyi
Katsayıları daha küçük yapDeğişken seçimi ile küçük katsayılar arasındaki çelişki
LassoRidgeElastic Net
$...+\lambda||\theta||_1$
$\lambda\in\mathbb{R}$
$...+\lambda||\theta||_2^2$
$\lambda\in\mathbb{R}$
$...+\lambda\Big[(1-\alpha)||\theta||_1+\alpha||\theta||_2^2\Big]$
$\lambda\in\mathbb{R},\alpha\in[0,1]$

Tanı

Önyargı/varyans çelişkisi Daha basit model, daha yüksek önyargı, ve daha karmaşık model, daha yüksek varyans.


UnderfittingJust rightOverfitting
Belirtiler• Yüksek eğitim hatası
• Test hatasına yakın eğitim hatası
• Yüksek önyargı
• Eğitim hatasından biraz daha düşük eğitim hatası• Çok düşük eğitim hatası
• Eğitim hatası test hatasının çok altında
• Yüksek varyans
Regresyon illüstrasyonuUnderfit in regressionRight fit in regressionOverfit in regression
Sınıflandırma illüstrasyonuUnderfit in classificationRight fit in classificationOverfit in classification
Derin öğrenme illüstrasyonuUnderfit in deep learningRight fit in deep learningOverfit in deep learning
Olası çareler• Model karmaşıklaştığında
• Daha fazla özellik ekle
• Daha uzun eğitim süresi ile eğit
• Düzenlileştirme gerçekleştir
• Daha fazla bilgi edin

Hata/ablatif analiz