CS 229 - Makine Öğrenimi

Makine Öğrenmesi ipuçları ve püf noktaları el kitabı
Star

Afshine Amidi ve Shervine Amidi tarafından


Seray Beşer, Ayyüce Kızrak ve Yavuz Kömeçoğlu tarafından çevrilmiştir

Sınıflandırma metrikleri

İkili bir sınıflandırma durumunda, modelin performansını değerlendirmek için gerekli olan ana metrikler aşağıda verilmiştir.

Karışıklık matrisi Karışıklık matrisi, bir modelin performansını değerlendirirken daha eksiksiz bir sonuca sahip olmak için kullanılır. Aşağıdaki şekilde tanımlanmıştır:

Tahmini sınıf
+ -
Gerçek sınıf + TP
True Positives
FN
False Negatives
Type II error
- FP
False Positives
Type I error
TN
True Negatives

Ana metrikler Sınıflandırma modellerinin performansını değerlendirmek için aşağıda verilen metrikler yaygın olarak kullanılmaktadır:

Metrik Formül Açıklama
Doğruluk $\displaystyle\frac{\textrm{TP}+\textrm{TN}}{\textrm{TP}+\textrm{TN}+\textrm{FP}+\textrm{FN}}$ Modelin genel performansı
Kesinlik $\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FP}}$ Doğru tahminlerin ne kadar kesin olduğu
Geri çağırma $\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$ Gerçek pozitif örneklerin oranı
Specificity $\displaystyle\frac{\textrm{TN}}{\textrm{TN}+\textrm{FP}}$ Gerçek negatif örneklerin oranı
F1 skoru $\displaystyle\frac{2\textrm{TP}}{2\textrm{TP}+\textrm{FP}+\textrm{FN}}$ Dengesiz sınıflar için yararlı hibrit metrik

İşlem Karakteristik Eğrisi (ROC) İşlem Karakteristik Eğrisi (receiver operating curve), eşik değeri değiştirilerek Doğru Pozitif Oranı-Yanlış Pozitif Oranı grafiğidir. Bu metrikler aşağıdaki tabloda özetlenmiştir:

Metrik Formül Eşdeğer
True Positive Rate
TPR
$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$ Geri çağırma
False Positive Rate
FPR
$\displaystyle\frac{\textrm{FP}}{\textrm{TN}+\textrm{FP}}$ 1-specificity

Eğri Altında Kalan Alan (AUC) Aynı zamanda AUC veya AUROC olarak belirtilen işlem karakteristik eğrisi altındaki alan, aşağıdaki şekilde gösterildiği gibi İşlem Karakteristik Eğrisi (ROC)'nin altındaki alandır:


ROC AUC

Regresyon metrikleri

Temel metrikler Bir $f$ regresyon modeli verildiğinde aşağıdaki metrikler genellikle modelin performansını değerlendirmek için kullanılır:

Toplam karelerinin toplamı Karelerinin toplamının açıklaması Karelerinin toplamından artanlar
$\displaystyle\textrm{SS}_{\textrm{tot}}=\sum_{i=1}^m(y_i-\overline{y})^2$ $\displaystyle\textrm{SS}_{\textrm{reg}}=\sum_{i=1}^m(f(x_i)-\overline{y})^2$ $\displaystyle\textrm{SS}_{\textrm{res}}=\sum_{i=1}^m(y_i-f(x_i))^2$

Belirleme katsayısı Genellikle $R^2$ veya $r^2$ olarak belirtilen belirleme katsayısı, gözlemlenen sonuçların model tarafından ne kadar iyi kopyalandığının bir ölçütüdür ve aşağıdaki gibi tanımlanır:

\[\boxed{R^2=1-\frac{\textrm{SS}_\textrm{res}}{\textrm{SS}_\textrm{tot}}}\]

Ana metrikler Aşağıdaki metrikler, göz önüne aldıkları değişken sayısını dikkate alarak regresyon modellerinin performansını değerlendirmek için yaygın olarak kullanılır:

Mallow's Cp AIC BIC Adjusted $R^2$
$\displaystyle\frac{\textrm{SS}_{\textrm{res}}+2(n+1)\widehat{\sigma}^2}{m}$ $\displaystyle2\Big[(n+2)-\log(L)\Big]$ $\displaystyle\log(m)(n+2)-2\log(L)$ $\displaystyle1-\frac{(1-R^2)(m-1)}{m-n-1}$

burada $L$ olabilirlik ve $\widehat{\sigma}^2$, her bir yanıtla ilişkili varyansın bir tahminidir.


Model seçimi

Kelime Bilgisi Bir model seçerken, aşağıdaki gibi sahip olduğumuz verileri 3 farklı parçaya ayırırız:

Eğitim seti Doğrulama seti Test seti
• Model eğitildi
• Genelde veri kümesinin %80'i
• Model değerlendirildi
• Genelde veri kümesinin %20'si
•Ayrıca doğrulama için bir kısmını bekletme veya geliştirme seti olarak da bilinir
• Model tahminleri gerçekleştiriyor
• Görülmemiş veri

Model bir kere seçildikten sonra, tüm veri seti üzerinde eğitilir ve görünmeyen test setinde test edilir. Bunlar aşağıdaki şekilde gösterilmiştir:

Partition of the dataset

Çapraz doğrulama Çapraz doğrulama, başlangıçtaki eğitim setine çok fazla güvenmeyen bir modeli seçmek için kullanılan bir yöntemdir. Farklı tipleri aşağıdaki tabloda özetlenmiştir:

k-fold Leave-p-out
• $k-1$ katı üzerinde eğitim ve geriye kalanlar üzerinde değerlendirme
• Genel olarak $k=5$ veya $10$
• $n-p$ gözlemleri üzerine eğitim ve kalan $p$ üzerinde değerlendirme
• Durum $p=1$'e bir tanesini dışarıda bırak denir

En yaygın olarak kullanılan yöntem $k$-kat çapraz doğrulama olarak adlandırılır ve $k-1$ diğer katlarda olmak üzere, bu $k$ sürelerinin hepsinde model eğitimi yapılırken, modeli bir kat üzerinde doğrulamak için eğitim verilerini $k$ katlarına ayırır. Hata için daha sonra $k$-katlar üzerinden ortalama alınır ve çapraz doğrulama hatası olarak adlandırılır.

Cross-validation

Düzenlileştirme (Regularization) Düzenlileştirme prosedürü, modelin verileri aşırı öğrenmesinden kaçınılmasını ve dolayısıyla yüksek varyans sorunları ile ilgilenmeyi amaçlamaktadır. Aşağıdaki tablo, yaygın olarak kullanılan düzenlileştirme tekniklerinin farklı türlerini özetlemektedir:

LASSO Ridge Elastic Net
• Değişkenleri 0'a kadra küçült
• Değişken seçimi için iyi
Katsayıları daha küçük yap Değişken seçimi ile küçük katsayılar arasındaki çelişki
Lasso Ridge Elastic Net
$...+\lambda||\theta||_1$
$\lambda\in\mathbb{R}$
$...+\lambda||\theta||_2^2$
$\lambda\in\mathbb{R}$
$...+\lambda\Big[(1-\alpha)||\theta||_1+\alpha||\theta||_2^2\Big]$
$\lambda\in\mathbb{R},\alpha\in[0,1]$

Tanı

Önyargı Bir modelin önyargısı, beklenen tahmin ve verilen veri noktaları için tahmin etmeye çalıştığımız doğru model arasındaki farktır.


Varyans Bir modelin varyansı, belirli veri noktaları için model tahmininin değişkenliğidir.


Önyargı/varyans çelişkisi Daha basit model, daha yüksek önyargı, ve daha karmaşık model, daha yüksek varyans.


Underfitting Just right Overfitting
Belirtiler • Yüksek eğitim hatası
• Test hatasına yakın eğitim hatası
• Yüksek önyargı
• Eğitim hatasından biraz daha düşük eğitim hatası • Çok düşük eğitim hatası
• Eğitim hatası test hatasının çok altında
• Yüksek varyans
Regresyon illüstrasyonu Underfit in regression Right fit in regression Overfit in regression
Sınıflandırma illüstrasyonu Underfit in classification Right fit in classification Overfit in classification
Derin öğrenme illüstrasyonu Underfit in deep learning Right fit in deep learning Overfit in deep learning
Olası çareler • Model karmaşıklaştığında
• Daha fazla özellik ekle
• Daha uzun eğitim süresi ile eğit
• Düzenlileştirme gerçekleştir
• Daha fazla bilgi edin

Hata analizi Hata analizinde mevcut ve mükemmel modeller arasındaki performans farkının temel nedeni analiz edilir.


Ablatif analiz Ablatif analizde mevcut ve başlangıç modelleri arasındaki performans farkının temel nedeni analiz edilir.