Makine Öğrenmesi ipuçları ve püf noktaları el kitabı
Afshine Amidi ve Shervine Amidi tarafından
Seray Beşer, Ayyüce Kızrak ve Yavuz Kömeçoğlu tarafından çevrilmiştir
Sınıflandırma metrikleri
İkili bir sınıflandırma durumunda, modelin performansını değerlendirmek için gerekli olan ana metrikler aşağıda verilmiştir.
Karışıklık matrisi Karışıklık matrisi, bir modelin performansını değerlendirirken daha eksiksiz bir sonuca sahip olmak için kullanılır. Aşağıdaki şekilde tanımlanmıştır:
Tahmini sınıf | |||
+ | - | ||
Gerçek sınıf | + | TP True Positives |
FN False Negatives Type II error |
- | FP False Positives Type I error |
TN True Negatives |
Ana metrikler Sınıflandırma modellerinin performansını değerlendirmek için aşağıda verilen metrikler yaygın olarak kullanılmaktadır:
Metrik | Formül | Açıklama |
Doğruluk | $\displaystyle\frac{\textrm{TP}+\textrm{TN}}{\textrm{TP}+\textrm{TN}+\textrm{FP}+\textrm{FN}}$ | Modelin genel performansı |
Kesinlik | $\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FP}}$ | Doğru tahminlerin ne kadar kesin olduğu |
Geri çağırma | $\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$ | Gerçek pozitif örneklerin oranı |
Specificity | $\displaystyle\frac{\textrm{TN}}{\textrm{TN}+\textrm{FP}}$ | Gerçek negatif örneklerin oranı |
F1 skoru | $\displaystyle\frac{2\textrm{TP}}{2\textrm{TP}+\textrm{FP}+\textrm{FN}}$ | Dengesiz sınıflar için yararlı hibrit metrik |
İşlem Karakteristik Eğrisi (ROC) İşlem Karakteristik Eğrisi (receiver operating curve), eşik değeri değiştirilerek Doğru Pozitif Oranı-Yanlış Pozitif Oranı grafiğidir. Bu metrikler aşağıdaki tabloda özetlenmiştir:
Metrik | Formül | Eşdeğer |
True Positive Rate TPR |
$\displaystyle\frac{\textrm{TP}}{\textrm{TP}+\textrm{FN}}$ | Geri çağırma |
False Positive Rate FPR |
$\displaystyle\frac{\textrm{FP}}{\textrm{TN}+\textrm{FP}}$ | 1-specificity |
Eğri Altında Kalan Alan (AUC) Aynı zamanda AUC veya AUROC olarak belirtilen işlem karakteristik eğrisi altındaki alan, aşağıdaki şekilde gösterildiği gibi İşlem Karakteristik Eğrisi (ROC)'nin altındaki alandır:
Regresyon metrikleri
Temel metrikler Bir $f$ regresyon modeli verildiğinde aşağıdaki metrikler genellikle modelin performansını değerlendirmek için kullanılır:
Toplam karelerinin toplamı | Karelerinin toplamının açıklaması | Karelerinin toplamından artanlar |
$\displaystyle\textrm{SS}_{\textrm{tot}}=\sum_{i=1}^m(y_i-\overline{y})^2$ | $\displaystyle\textrm{SS}_{\textrm{reg}}=\sum_{i=1}^m(f(x_i)-\overline{y})^2$ | $\displaystyle\textrm{SS}_{\textrm{res}}=\sum_{i=1}^m(y_i-f(x_i))^2$ |
Belirleme katsayısı Genellikle $R^2$ veya $r^2$ olarak belirtilen belirleme katsayısı, gözlemlenen sonuçların model tarafından ne kadar iyi kopyalandığının bir ölçütüdür ve aşağıdaki gibi tanımlanır:
\[\boxed{R^2=1-\frac{\textrm{SS}_\textrm{res}}{\textrm{SS}_\textrm{tot}}}\]Ana metrikler Aşağıdaki metrikler, göz önüne aldıkları değişken sayısını dikkate alarak regresyon modellerinin performansını değerlendirmek için yaygın olarak kullanılır:
Mallow's Cp | AIC | BIC | Adjusted $R^2$ |
$\displaystyle\frac{\textrm{SS}_{\textrm{res}}+2(n+1)\widehat{\sigma}^2}{m}$ | $\displaystyle2\Big[(n+2)-\log(L)\Big]$ | $\displaystyle\log(m)(n+2)-2\log(L)$ | $\displaystyle1-\frac{(1-R^2)(m-1)}{m-n-1}$ |
burada $L$ olabilirlik ve $\widehat{\sigma}^2$, her bir yanıtla ilişkili varyansın bir tahminidir.
Model seçimi
Kelime Bilgisi Bir model seçerken, aşağıdaki gibi sahip olduğumuz verileri 3 farklı parçaya ayırırız:
Eğitim seti | Doğrulama seti | Test seti |
• Model eğitildi • Genelde veri kümesinin %80'i |
• Model değerlendirildi • Genelde veri kümesinin %20'si •Ayrıca doğrulama için bir kısmını bekletme veya geliştirme seti olarak da bilinir |
• Model tahminleri gerçekleştiriyor • Görülmemiş veri |
Model bir kere seçildikten sonra, tüm veri seti üzerinde eğitilir ve görünmeyen test setinde test edilir. Bunlar aşağıdaki şekilde gösterilmiştir:
Çapraz doğrulama Çapraz doğrulama, başlangıçtaki eğitim setine çok fazla güvenmeyen bir modeli seçmek için kullanılan bir yöntemdir. Farklı tipleri aşağıdaki tabloda özetlenmiştir:
k-fold | Leave-p-out |
• $k-1$ katı üzerinde eğitim ve geriye kalanlar üzerinde değerlendirme • Genel olarak $k=5$ veya $10$ |
• $n-p$ gözlemleri üzerine eğitim ve kalan $p$ üzerinde değerlendirme • Durum $p=1$'e bir tanesini dışarıda bırak denir |
En yaygın olarak kullanılan yöntem $k$-kat çapraz doğrulama olarak adlandırılır ve $k-1$ diğer katlarda olmak üzere, bu $k$ sürelerinin hepsinde model eğitimi yapılırken, modeli bir kat üzerinde doğrulamak için eğitim verilerini $k$ katlarına ayırır. Hata için daha sonra $k$-katlar üzerinden ortalama alınır ve çapraz doğrulama hatası olarak adlandırılır.
Düzenlileştirme (Regularization) Düzenlileştirme prosedürü, modelin verileri aşırı öğrenmesinden kaçınılmasını ve dolayısıyla yüksek varyans sorunları ile ilgilenmeyi amaçlamaktadır. Aşağıdaki tablo, yaygın olarak kullanılan düzenlileştirme tekniklerinin farklı türlerini özetlemektedir:
LASSO | Ridge | Elastic Net |
• Değişkenleri 0'a kadra küçült • Değişken seçimi için iyi |
Katsayıları daha küçük yap | Değişken seçimi ile küçük katsayılar arasındaki çelişki |
$...+\lambda||\theta||_1$ $\lambda\in\mathbb{R}$ |
$...+\lambda||\theta||_2^2$ $\lambda\in\mathbb{R}$ |
$...+\lambda\Big[(1-\alpha)||\theta||_1+\alpha||\theta||_2^2\Big]$ $\lambda\in\mathbb{R},\alpha\in[0,1]$ |
Tanı
Önyargı Bir modelin önyargısı, beklenen tahmin ve verilen veri noktaları için tahmin etmeye çalıştığımız doğru model arasındaki farktır.
Varyans Bir modelin varyansı, belirli veri noktaları için model tahmininin değişkenliğidir.
Önyargı/varyans çelişkisi Daha basit model, daha yüksek önyargı, ve daha karmaşık model, daha yüksek varyans.
Underfitting | Just right | Overfitting | |
Belirtiler | • Yüksek eğitim hatası • Test hatasına yakın eğitim hatası • Yüksek önyargı |
• Eğitim hatasından biraz daha düşük eğitim hatası | • Çok düşük eğitim hatası • Eğitim hatası test hatasının çok altında • Yüksek varyans |
Regresyon illüstrasyonu | |||
Sınıflandırma illüstrasyonu | |||
Derin öğrenme illüstrasyonu | |||
Olası çareler | • Model karmaşıklaştığında • Daha fazla özellik ekle • Daha uzun eğitim süresi ile eğit |
• Düzenlileştirme gerçekleştir • Daha fazla bilgi edin |
Hata analizi Hata analizinde mevcut ve mükemmel modeller arasındaki performans farkının temel nedeni analiz edilir.
Ablatif analiz Ablatif analizde mevcut ve başlangıç modelleri arasındaki performans farkının temel nedeni analiz edilir.