Gözetimsiz Öğrenme El Kitabı
Afshine Amidi ve Shervine Amidi tarafından
Yavuz Kömeçoğlu ve Başak Buluz tarafından çevrilmiştir
Gözetimsiz Öğrenmeye Giriş
Motivasyon Gözetimsiz öğrenmenin amacı etiketlenmemiş verilerdeki gizli örüntüleri bulmaktır $\{x^{(1)},...,x^{(m)}\}$.
Jensen eşitsizliği $f$ bir konveks fonksiyon ve $X$ bir rastgele değişken olsun. Aşağıdaki eşitsizliklerimiz:
Kümeleme
Beklenti-Ençoklama (Maksimizasyon)
Gizli değişkenler Gizli değişkenler, tahmin problemlerini zorlaştıran ve çoğunlukla $z$ olarak adlandırılan gizli/gözlemlenmemiş değişkenlerdir. Gizli değişkenlerin bulunduğu yerlerdeki en yaygın ayarlar şöyledir:
Yöntem | Gizli değişken $z$ | $x|z$ | Açıklamalar |
$k$ Gaussianların birleşimi | $\textrm{Multinomial}(\phi)$ | $\mathcal{N}(\mu_j,\Sigma_j)$ | $\mu_j\in\mathbb{R}^n, \phi\in\mathbb{R}^k$ |
Faktör analizi | $\mathcal{N}(0,I)$ | $\mathcal{N}(\mu+\Lambda z,\psi)$ | $\mu_j\in\mathbb{R}^n$ |
Algoritma Beklenti-Ençoklama (Maksimizasyon) (BE) algoritması, $\theta$ parametresinin maksimum olabilirlik kestirimiyle tahmin edilmesinde, olasılığa ard arda alt sınırlar oluşturan (E-adımı) ve bu alt sınırın (M-adımı) aşağıdaki gibi optimize edildiği etkin bir yöntem sunar:
- E-adımı:: Her bir veri noktasının $x^{(i)}$'in belirli bir kümeden $z^{(i)}$ geldiğinin sonsal olasılık değerinin $Q_{i}(z^{(i)})$ hesaplanması aşağıdaki gibidir:

$k$-ortalamalar ($k$-means) kümeleme
$c^{(i)}$, $i$ veri noktasının bulunduğu küme olmak üzere, $\mu_j$ $j$ kümesinin merkez noktasıdır.
Algoritma Küme ortalamaları $\mu_1,\mu_2,...,\mu_k\in\mathbb{R}^n$ rasgele olarak başlatıldıktan sonra, $k$-ortalamalar algoritması yakınsayana kadar aşağıdaki adımı tekrar eder:

Bozulma fonksiyonu Algoritmanın yakınsadığını görmek için aşağıdaki gibi tanımlanan bozulma fonksiyonuna bakarız:
Hiyerarşik kümeleme
Algoritma Ardışık olarak iç içe geçmiş kümelerden oluşturan hiyerarşik bir yaklaşıma sahip bir kümeleme algoritmasıdır.
Türler Aşağıdaki tabloda özetlenen farklı amaç fonksiyonlarını optimize etmeyi amaçlayan farklı hiyerarşik kümeleme algoritmaları vardır:
Ward bağlantı | Ortalama bağlantı | Tam bağlantı |
Küme mesafesi içinde minimize edin | Küme çiftleri arasındaki ortalama uzaklığı en aza indirin | Küme çiftleri arasındaki maksimum uzaklığı en aza indirin |
Kümeleme değerlendirme metrikleri
Gözetimsiz bir öğrenme ortamında, bir modelin performansını değerlendirmek çoğu zaman zordur, çünkü gözetimli öğrenme ortamında olduğu gibi, gerçek referans etiketlere sahip değiliz.
Siluet katsayısı Bir örnek ile aynı sınıftaki diğer tüm noktalar arasındaki ortalama mesafeyi ve bir örnek ile bir sonraki en yakın kümedeki diğer tüm noktalar arasındaki ortalama mesafeyi not ederek, tek bir örnek için siluet katsayısı aşağıdaki gibi tanımlanır:
Calinski-Harabaz indeksi $k$ kümelerin sayısını belirtmek üzere $B_k$ ve $W_k$ sırasıyla, kümeler arası ve küme içi dağılım matrisleri olarak aşağıdaki gibi tanımlanır
Boyut küçültme
Temel bileşenler analizi
Verilerin yansıtılacağı yönleri maksimize eden varyansı bulan bir boyut küçültme tekniğinidir.
Özdeğer, özvektör Bir matris $A\in\mathbb{R}^{n\times n}$ verildiğinde $\lambda$'nın, özvektör olarak adlandırılan bir vektör $z\in\mathbb{R}^n\backslash\{0\}$ varsa, $A$'nın bir özdeğeri olduğu söylenir:
Spektral teorem $A\in\mathbb{R}^{n\times n}$ olsun. Eğer $A$ simetrik ise, o zaman $A$ gerçek ortogonal matris $U\in\mathbb{R}^{n\times n}$ n ile diyagonalleştirilebilir. $\Lambda=\textrm{diag}(\lambda_1,...,\lambda_n)$ yazarak, bizde:
Not: En büyük özdeğere sahip özvektör, matris $A$'nın temel özvektörü olarak adlandırılır.
Algoritma Temel Bileşen Analizi (TBA) yöntemi, verilerin aşağıdaki gibi varyansı en üst düzeye çıkararak veriyi $k$ boyutlarına yansıtan bir boyut azaltma tekniğidir:
- Adım 1: Verileri ortalama 0 ve standart sapma 1 olacak şekilde normalleştirin.
- Adım 2: Gerçek özdeğerler ile simetrik olan $\displaystyle\Sigma=\frac{1}{m}\sum_{i=1}^mx^{(i)}{x^{(i)}}^T\in\mathbb{R}^{n\times n}$ hesaplayın.
- Adım 3: $u_1, ..., u_k\in\mathbb{R}^n$ olmak üzere $\Sigma$ ort'nin ortogonal ana özvektörlerini, yani $k$ en büyük özdeğerlerin ortogonal özvektörlerini hesaplayın.
- Adım 4: $\textrm{span}_\mathbb{R}(u_1,...,u_k)$ üzerindeki verileri gösterin.
Bu yöntem tüm $k$-boyutlu uzaylar arasındaki varyansı en üst düzeye çıkarır.

Bağımsız bileşen analizi
Temel oluşturan kaynakları bulmak için kullanılan bir tekniktir.
Varsayımlar Verilerin $x$'in $n$ boyutlu kaynak vektörü $s=(s_1,...,s_n)$ tarafından üretildiğini varsayıyoruz, burada $s_i$ bağımsız rasgele değişkenler, bir karışım ve tekil olmayan bir matris $A$ ile aşağıdaki gibi:
Amaç, işlem görmemiş matrisini $W=A^{-1}$ bulmaktır.
Bell ve Sejnowski ICA algoritması Bu algoritma, aşağıdaki adımları izleyerek işlem görmemiş matrisi $W$'yi bulur:
- $x=As=W^{-1}s$ olasılığını aşağıdaki gibi yazınız:
- Eğitim verisi $\{x^{(i)}, i\in[\![1,m]\!]\}$ ve $g$ sigmoid fonksiyonunu not ederek log olasılığını yazınız: