Gözetimli Öğrenme El Kitabı
Afshine Amidi ve Shervine Amidi tarafından
Başak Buluz ve Ayyüce Kızrak tarafından çevrilmiştir
Gözetimli Öğrenmeye Giriş
$\{y^{(1)}, ..., y^{(m)}\}$ çıktı kümesi ile ilişkili olan $\{x^{(1)}, ..., x^{(m)}\}$ veri noktalarının kümesi göz önüne alındığında, $y$'den $x$'i nasıl tahmin edebileceğimizi öğrenen bir sınıflandırıcı tasarlamak istiyoruz.
Tahmin türü Farklı tahmin modelleri aşağıdaki tabloda özetlenmiştir:
Regresyon | Sınıflandırıcı | |
Çıktı | Sürekli | Sınıf |
Örnekler | Lineer regresyon (bağlanım) | Lojistik regresyon (bağlanım), Destek Vektör Makineleri (DVM), Naive Bayes |
Model türleri Farklı modeller aşağıdaki tabloda özetlenmiştir:
Ayırt edici model | Üretici model | |
Amaç | Doğrudan tahmin $P(y|x)$ | $P(y|x)$'i tahmin etmek için $P(x|y)$'i tahmin etme |
Öğrenilenler | Karar Sınırı | Verilerin olasılık dağılımı |
Örnekleme | ||
Örnekler | Regresyon, Destek Vektör Makineleri | Gauss Diskriminant Analizi, Naive Bayes |
Gösterimler ve genel konsept
Hipotez Hipotez $h_\theta$ olarak belirtilmiştir ve bu bizim seçtiğimiz modeldir. Verilen $x^{(i)}$ verisi için modelin tahminlediği çıktı $h_\theta(x^{(i)})$'dir.
Kayıp fonksiyonu $L:(z,y)\in\mathbb{R}\times Y\longmapsto L(z,y)\in\mathbb{R}$ şeklinde tanımlanan bir kayıp fonksiyonu $y$ gerçek değerine karşılık geleceği öngörülen $z$ değerini girdi olarak alan ve ne kadar farklı olduklarını gösteren bir fonksiyondur. Yaygın kayıp fonksiyonları aşağıdaki tabloda özetlenmiştir:
En küçük kareler hatası | Lojistik yitimi (kaybı) | Menteşe yitimi (kaybı) | Çapraz entropi |
$\displaystyle\frac{1}{2}(y-z)^2$ | $\displaystyle\log(1+\exp(-yz))$ | $\displaystyle\max(0,1-yz)$ | $\displaystyle-\Big[y\log(z)+(1-y)\log(1-z)\Big]$ |
Lineer regresyon (bağlanım) | Lojistik regresyon (bağlanım) | Destek Vektör Makineleri | Sinir Ağı |
Maliyet fonksiyonu $J$ maliyet fonksiyonu genellikle bir modelin performansını değerlendirmek için kullanılır ve $L$ kayıp fonksiyonu aşağıdaki gibi tanımlanır:
Bayır inişi $\alpha\in\mathbb{R}$ öğrenme oranı olmak üzere, bayır inişi için güncelleme kuralı olarak ifade edilen öğrenme oranı ve $J$ maliyet fonksiyonu aşağıdaki gibi ifade edilir:
Not: Stokastik bayır inişi her eğitim örneğine bağlı olarak parametreyi günceller, ve yığın bayır inişi bir dizi eğitim örneği üzerindedir.
Olabilirlik $\theta$ parametreleri verilen bir $L(\theta)$ modelinin olabilirliğini, olabilirliği maksimize ederek en uygun $\theta$ parametrelerini bulmak için kullanılır. bulmak için kullanılır. Uygulamada, optimize edilmesi daha kolay olan log-olabilirlik $\ell(\theta)=\log(L(\theta))$'i kullanıyoruz. Sahip olduklarımız:
Newton'un algoritması $\ell'(\theta)=0$ olacak şekilde bir $\theta$ bulan nümerik bir yöntemdir. Güncelleme kuralı aşağıdaki gibidir:
Not: Newton-Raphson yöntemi olarak da bilinen çok boyutlu genelleme aşağıdaki güncelleme kuralına sahiptir:
Lineer modeller
Lineer regresyon
$y|x;\theta\sim\mathcal{N}(\mu,\sigma^2)$ olduğunu varsayıyoruz
Normal denklemler $X$ matris tasarımı olmak üzere, maliyet fonksiyonunu en aza indiren $\theta$ değeri $X$'in matris tasarımını not ederek, maliyet fonksiyonunu en aza indiren $\theta$ değeri kapalı formlu bir çözümdür:
En Küçük Ortalama Kareler algoritması (Least Mean Squares-LMS) $\alpha$ öğrenme oranı olmak üzere, $m$ veri noktasını içeren eğitim kümesi için Widrow-Hoff öğrenme oranı olarak bilinen En Küçük Ortalama Kareler Algoritmasının güncelleme kuralı aşağıdaki gibidir:
Not: güncelleme kuralı, bayır yükselişinin özel bir halidir.
Yerel Ağırlıklı Regresyon (Locally Weighted Regression-LWR) LWR olarak da bilinen Yerel Ağırlıklı Regresyon ağırlıkları her eğitim örneğini maliyet fonksiyonunda $w^{(i)}(x)$ ile ölçen doğrusal regresyonun bir çeşididir.
Sınıflandırma ve lojistik regresyon
Sigmoid fonksiyonu Lojistik fonksiyonu olarak da bilinen sigmoid fonksiyonu $g$, aşağıdaki gibi tanımlanır:
Lojistik regresyon $y|x;\theta\sim\textrm{Bernoulli}(\phi)$ olduğunu varsayıyoruz. Aşağıdaki forma sahibiz:
Not: Lojistik regresyon durumunda kapalı form çözümü yoktur.
Softmax regresyonu Çok sınıflı lojistik regresyon olarak da adlandırılan Softmax regresyonu 2'den fazla sınıf olduğunda lojistik regresyonu genelleştirmek için kullanılır. Genel kabul olarak, her $i$ sınıfı için Bernoulli parametresi $\phi_i$'nin eşit olmasını sağlaması için $\theta_K=0$ olarak ayarlanır.
Genelleştirilmiş Lineer Modeller
Üstel aile Eğer kanonik parametre veya bağlantı fonksiyonu olarak adlandırılan doğal bir parametre $\eta$, yeterli bir istatistik $T(y)$ ve aşağıdaki gibi bir log-partition fonksiyonu $a(\eta)$ şeklinde yazılabilirse, dağılım sınıfının üstel ailede olduğu söylenir:
Not: Sık sık $T(y)=y$ olur. Ayrıca, $\exp(-a(\eta))$, olasılıkların birleştiğinden emin olan normalleştirme parametresi olarak görülebilir.
Aşağıdaki tabloda özetlenen en yaygın üstel dağılımlar:
Dağılım | $\eta$ | $T(y)$ | $a(\eta)$ | $b(y)$ |
Bernoulli | $\log\left(\frac{\phi}{1-\phi}\right)$ | $y$ | $\log(1+\exp(\eta))$ | $1$ |
Gauss | $\mu$ | $y$ | $\frac{\eta^2}{2}$ | $\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{y^2}{2}\right)$ |
Poisson | $\log(\lambda)$ | $y$ | $e^{\eta}$ | $\displaystyle\frac{1}{y!}$ |
Geometrik | $\log(1-\phi)$ | $y$ | $\log\left(\frac{e^\eta}{1-e^\eta}\right)$ | $1$ |
Genelleştirilmiş Lineer Modellerin (Generalized Linear Models-GLM) Yaklaşımları Genelleştirilmiş Lineer Modeller $x\in\mathbb{R}^{n+1}$ için rastgele bir $y$ değişkenini tahminlemeyi hedeflen ve aşağıdaki 3 varsayıma dayanan bir fonksiyondur:
Not: sıradan en küçük kareler ve lojistik regresyon, genelleştirilmiş doğrusal modellerin özel durumlarıdır.
Destek Vektör Makineleri
Destek Vektör Makinelerinin amacı minimum mesafeyi maksimuma çıkaran doğruyu bulmaktır.
Optimal marj sınıflandırıcısı $h$ optimal marj sınıflandırıcısı şöyledir:
burada $(w, b)\in\mathbb{R}^n\times\mathbb{R}$, aşağıdaki optimizasyon probleminin çözümüdür:
Not: doğru $\boxed{w^Tx-b=0}$ şeklinde tanımlanır.
Menteşe yitimi (kaybı) Menteşe yitimi Destek Vektör Makinelerinin ayarlarında kullanılır ve aşağıdaki gibi tanımlanır:
Çekirdek $\phi$ gibi bir özellik haritası verildiğinde, $K$ olarak tanımlanacak çekirdeği tanımlarız:
Uygulamada, $K(x,z)=\exp\left(-\frac{||x-z||^2}{2\sigma^2}\right)$ tarafından tanımlanan çekirdek $K$, Gauss çekirdeği olarak adlandırılır ve yaygın olarak kullanılır.
Not: Çekirdeği kullanarak maliyet fonksiyonunu hesaplamak için "çekirdek numarası" nı kullandığımızı söylüyoruz çünkü genellikle çok karmaşık olan $\phi$ açık haritalamasını bilmeye gerek yok. Bunun yerine, yalnızca $K(x,z)$ değerlerine ihtiyacımız vardır.
Lagranj Lagranj $\mathcal{L}(w,b)$ şeklinde şöyle tanımlanır:
Not: $\beta_i$ katsayılarına Lagranj çarpanları denir.
Üretici Öğrenme
Üretken bir model, önce Bayes kuralını kullanarak $P(y|x)$ değerini tahmin etmek için kullanabileceğimiz $P(x|y)$ değerini tahmin ederek verilerin nasıl üretildiğini öğrenmeye çalışır.
Gauss Diskriminant (Ayırtaç) Analizi
Yöntem Gauss Diskriminant Analizi $y$ ve $x|y=0$ ve $x|y=1$ 'in şu şekilde olduğunu varsayar:
Tahmin Aşağıdaki tablo, olasılığı en üst düzeye çıkarırken bulduğumuz tahminleri özetlemektedir:
$\widehat{\phi}$ | $\widehat{\mu_j}\quad{\small(j=0,1)}$ | $\widehat{\Sigma}$ |
$\displaystyle\frac{1}{m}\sum_{i=1}^m1_{\{y^{(i)}=1\}}$ | $\displaystyle\frac{\sum_{i=1}^m1_{\{y^{(i)}=j\}}x^{(i)}}{\sum_{i=1}^m1_{\{y^{(i)}=j\}}}$ | $\displaystyle\frac{1}{m}\sum_{i=1}^m(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^T$ |
Naive Bayes
Varsayım Naive Bayes modeli, her veri noktasının özelliklerinin tamamen bağımsız olduğunu varsayar:
Çözümler Log-olabilirliğinin $k\in\{0,1\},l\in[\![1,L]\!]$ ile birlikte aşağıdaki çözümlerle maksimize edilmesi:
Not: Naive Bayes, metin sınıflandırması ve spam tespitinde yaygın olarak kullanılır.
Ağaç temelli ve topluluk yöntemleri
Bu yöntemler hem regresyon hem de sınıflandırma problemleri için kullanılabilir.
CART Sınıflandırma ve Regresyon Ağaçları (Classification and Regression Trees (CART)), genellikle karar ağaçları olarak bilinir, ikili ağaçlar olarak temsil edilirler.
Rastgele orman Rastgele seçilen özelliklerden oluşan çok sayıda karar ağacı kullanan ağaç tabanlı bir tekniktir. Basit karar ağacının tersine, oldukça yorumlanamaz bir yapıdadır ancak genel olarak iyi performansı onu popüler bir algoritma yapar.
Not: Rastgele ormanlar topluluk yöntemlerindendir.
Artırım Artırım yöntemlerinin temel fikri bazı zayıf öğrenicileri biraraya getirerek güçlü bir öğrenici oluşturmaktır. Temel yöntemler aşağıdaki tabloda özetlenmiştir:
Adaptif artırma | Gradyan artırma |
• Yüksek ağırlıklar bir sonraki artırma adımında iyileşmesi için hatalara maruz kalır. | • Zayıf öğreniciler kalan hatalar üzerinde eğitildi |
Diğer parametrik olmayan yaklaşımlar
$k$-en yakın komşular Genellikle $k$-NN olarak adlandırılan $k$-en yakın komşular algoritması, bir veri noktasının tepkisi eğitim kümesindeki kendi $k$ komşularının doğası ile belirlenen parametrik olmayan bir yaklaşımdır. Hem sınıflandırma hem de regresyon yöntemleri için kullanılabilir.
Not: $k$ parametresi ne kadar yüksekse, yanlılık okadar yüksek ve $k$ parametresi ne kadar düşükse, varyans o kadar yüksek olur.
Öğrenme Teorisi
Birleşim sınırı $A_1, ..., A_k$ $k$ olayları olsun. Sahip olduklarımız:
Hoeffding eşitsizliği $Z_1, .., Z_m$, $\phi$ parametresinin Bernoulli dağılımından çizilen değişkenler olsun. Örnek ortalamaları mean ve $\gamma>0$ sabit olsun. Sahip olduklarımız:
Not: Bu eşitsizlik, Chernoff sınırı olarak da bilinir.
Eğitim hatası Belirli bir $h$ sınıflandırıcısı için, ampirik risk veya ampirik hata olarak da bilinen eğitim hatasını $\widehat{\epsilon}(h)$ şöyle tanımlarız:
Olası Yaklaşık Doğru (Probably Approximately Correct (PAC)) PAC, öğrenme teorisi üzerine sayısız sonuçların kanıtlandığı ve aşağıdaki varsayımlara sahip olan bir çerçevedir:
- eğitim ve test kümeleri aynı dağılımı takip ediyor
- eğitim örnekleri bağımsız olarak çizilir
Parçalanma $S=\{x^{(1)},...,x^{(d)}\}$ kümesi ve $\mathcal{H}$ sınıflandırıcıların kümesi verildiğinde, $\mathcal{H}$ herhangi bir etiketler kümesi $S$'e parçalar.
Üst sınır teoremi $|\mathcal{H}|=k$ , $\delta$ ve örneklem sayısı $m$'nin sabit olduğu sonlu bir hipotez sınıfı $\mathcal{H}$ olsun. Ardından, en az $1-\delta$ olasılığı ile elimizde:
VC boyutu $\textrm{VC}(\mathcal{H})$ olarak ifade edilen belirli bir sonsuz $\mathcal{H}$ hipotez sınıfının Vapnik-Chervonenkis (VC) boyutu, $\mathcal{H}$ tarafından parçalanan en büyük kümenin boyutudur.
Not: ${\small\mathcal{H}=\{\textrm{2 boyutta doğrusal sınıflandırıcılar kümesi}\}}$'nin VC boyutu 3'tür.
Teorem (Vapnik) $\mathcal{H}$, $\textrm{VC}(\mathcal{H})=d$ ve eğitim örneği sayısı $m$ verilmiş olsun. En az $1-\delta$ olasılığı ile, sahip olduklarımız: