Derin Öğrenme El Kitabı
Afshine Amidi ve Shervine Amidi tarafından
Ekrem Çetinkaya ve Omer Bukte tarafından çevrilmiştir
Sinir Ağları
Sinir ağları, katmanlarla inşa edilen bir modeller sınıfıdır. Sinir ağlarının yaygın kullanılan çeşitleri evrişimsel sinir ağları ve yinelenen sinir ağlarını içerir.
Mimari Sinir ağları mimarisi aşağıdaki figürde açıklanmaktadır:
Ağın $i$. sırasındaki katmana $i$ ve katmandaki $j$. sırasındaki gizli birime $j$ dersek, elimizde:
burada $w$, $b$, $z$ değerleri sırasıyla ağırlık, eğilim ve ürünü temsil eder.
Etkinleştirme fonksiyonu Etkinleştirme fonksiyonları gizli birimlerin sonunda, modele lineer olmayan karmaşıklıklar katmak için kullanılır. Aşağıda en yaygın kullanılanlarını görebilirsiniz:
Sigmoid | Tanh | ReLU | Leaky ReLU |
$g(z)=\displaystyle\frac{1}{1+e^{-z}}$ | $g(z)=\displaystyle\frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}$ | $g(z)=\textrm{max}(0,z)$ | $g(z)=\textrm{max}(\epsilon z,z)$ with $\epsilon\ll1$ |
Çapraz-entropi kaybı Sinir ağları içeriğinde, çapraz-entropi kaybı $L(z,y)$ sık olarak kullanılır ve aşağıdaki gibi tanımlanır:
Öğrenme oranı Öğrenme oranı, sıklıkla $\alpha$ veya bazen $\eta$ olarak belirtilir, ağırlıkların hangi tempoda güncellendiğini gösterir. Bu derece sabit olabilir veya uyarlamalı olarak değişebilir. Mevcut en gözde yöntem Adam olarak adlandırılan ve öğrenme oranını uyarlayan bir yöntemdir.
Geri yayılım Geri yayılım sinir ağındaki ağırlıkları güncellemek için kullanılan ve bunu yaparken de asıl sonuç ile istenilen sonucu hesaba katan bir yöntemdir. Ağırlık $w$ değerine göre türev, zincir kuralı kullanılarak hesaplanılır ve aşağıdaki şekildedir:
Sonuç olarak, ağırlık güncellenmesi aşağıdaki gibidir:
Ağırlıkları güncelleme Sinir ağında ağırlıklar, aşağıdaki gibi güncellenir:
- 1. Adım: Bir eğitim verisi kümesi alınır.
- 2. Adım: Denk gelen kaybı elde etmek için, ileri yayılım gerçekleştirilir.
- 3. Adım: Gradyanları elde etmek için kayba geri yayılım uygulanır.
- 4. Adım: Ağın ağırlıklarını güncellemek için gradyanlar kullanılır.
Düşürme Düşürme, eğitim verisinin aşırı uymasını engellemek için sinir ağındaki birimleri düşürmek yoluyla uygulanan bir tekniktir. Pratikte, nöronlar ya $p$ olasılığıyla düşürülür ya da $1-p$ olasılığıyla tutulur.
Evrişimsel Sinir Ağları
Evrişimsel katman gereksinimleri Girdi boyutuna $W$, evrişimsel katman nöronlarının boyutlarına $F$, sıfır dolgulama miktarına $P$ dersek, belirlenmiş bir boyuta sığacak neuron sayısı $N$ şu şekildedir:
Küme normalleştirmesi $\gamma, \beta$ Hiper-parametresinin, $\{x_i\}$ kümesini normalleştiren bir adımıdır. $\mu_B, \sigma_B^2$ ifadelerine düzeltmek istediğimiz kümenin ortalaması ve varyansı dersek, normalleştirme işlemi şu şekilde yapılır:
Yinelenen Sinir Ağları
Kapı çeşitleri Aşağıda tipik bir yinelenen sinir ağlarında karşımıza çıkan farklı kapı örnekleri görülebilir:
Girdi kapısı | Unutma kapısı | Kapı | Çıktı kapısı |
Hücreye yaz/yazma ? | Hücreyi sil/silme ? | Hücreye ne kadar yazmalı ? | Hücrenin ne kadarını açığa çıkarmalı ? |
LSTM Uzun, kısa vadeli hafıza (LSTM) ağı, 'unutma' kapılarını ekleyerek yok olan gradyan probleminden kurtulabilen bir çeşit RNN modeldir.
Pekiştirmeli Öğrenme ve Kontrol
Pekiştirmeli öğrenmenin hedefi, bir hedefin bir ortamda nasıl değişiklik geçireceğini öğrenmesini sağlamaktır.
Tanımlar
Markov karar süreci Markov karar süreci (MDP) 5 öğelidir $(\mathcal{S},\mathcal{A},\{P_{sa}\},\gamma,R)$ ve bu ifadeler şunları temsil eder:
- $\mathcal{S}$, hallerin setidir
- $\mathcal{A}$, aksiyonların setidir
- $\{P_{sa}\}$ $s\in\mathcal{S}$ ve $a\in\mathcal{A}$ için hal değişimlerinin olasılıklarıdır
- $\gamma\in[0,1[$ azaltma unsurudur
- $R:\mathcal{S}\times\mathcal{A}\longrightarrow\mathbb{R}$ veya $R:\mathcal{S}\longrightarrow\mathbb{R}$ algoritmanın en yüksek düzeye çıkartmak istediği ödül fonksiyonudur.
Prensip $\pi$ prensibi hal-aksiyon eşleşmesini yapan $\pi:\mathcal{S}\longrightarrow\mathcal{A}$ fonksiyonudur.
Dipnot: Eğer $s$ hali verildiğinde $a=\pi(s)$ aksiyonunu uyguluyorsak, $\pi$ prensibini yerine getirdik deriz.
Değer fonksiyonu $\pi$ prensibi ve $s$ hali verildiğinde, $V^{\pi}$ değer fonksiyonu aşağıdaki gibi tanımlanır:
Bellman denklemi Ideal Bellman denklemleri, ideal prensip $\pi^*$ değerinin değer fonksiyonu $V^{\pi^*}$ değerini simgeler:
Dipnot: $s$ hali verildiğinde, ideal $\pi^*$ prensibini şu şekilde tanımlarız:
Değer iterasyon algoritması Değer iterasyon algoritması iki adımdan oluşur:
1) Değere ilk değer atarız
2) Daha önceki değerlere göre değere iterasyon uygularız
Maksimum ihtimal tahmini Maksimum ihtimal hal geçişi olasılıklarını aşağıdaki şekilde tahmin eder:
Q-Öğrenimi $Q$-Öğrenimi modelden bağımsız bir $Q$ tahmini yapılan bir yöntemdir ve aşağıdaki gibi yapılır: