Pense-bête de statistiques
Star

Estimation de paramètre

Définitions

Échantillon aléatoire Un échantillon aléatoire est une collection de $n$ variables aléatoires $X_1, ..., X_n$ qui sont indépendantes et identiquement distribuées avec $X$.


Estimateur Un estimateur est une fonction des données qui est utilisée pour trouver la valeur d'un paramètre inconnu dans un modèle statistique.


Biais Le biais d'un estimateur $\hat{\theta}$ est défini comme étant la différence entre l'espérance de la distribution de $\hat{\theta}$ et de la valeur vraie, i.e. :

\[\boxed{\textrm{Bias}(\hat{\theta})=E[\hat{\theta}]-\theta}\]

Remarque : un estimateur est dit non biaisé lorsque l'on a $E[\hat{\theta}]=\theta$.


Estimer la moyenne

Moyenne empirique La moyenne empirique d'un échantillon aléatoire est utilisée pour estimer la valeur vraie $\mu$ d'une distribution, est notée $\overline{X}$ et est définie de la manière suivante :

\[\boxed{\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i}\]

Remarque : la moyenne empirique est non-biaisée, i.e. $E[\overline{X}]=\mu$.


Fonction charactéristique pour la moyenne empirique La fonction caractéristique pour la moyenne empirique est notée $\psi_{\overline{X}}$ et est telle que :

\[\boxed{\psi_{\overline{X}}(\omega)=\psi_{X}^n\left(\frac{\omega}{n}\right)}\]


Théorème de la limite centrale Soit un échantillon aléatoire $X_1, ..., X_n$ suivant une distribution donnée de moyenne $\mu$ et de variance $\sigma^2$. On a :

\[\boxed{\overline{X}\underset{n\rightarrow+\infty}{\sim}\mathcal{N}\left(\mu, \frac{\sigma}{\sqrt{n}}\right)}\]


Estimer la variance

Variance empirique La variance empirique d'un échantillon aléatoire est utilisée pour estimer la variance vraie $\sigma^2$ d'une distribution, est souvent notée $s^2$ ou $\hat{\sigma}^2$ et est définie de la manière suivante :

\[\boxed{s^2=\hat{\sigma}^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}\]

Remarque : la variance empirique est non-biaisée, i.e. $E[s^2]=\sigma^2$.


Relation du $\chi^2$ avec la variance empirique Soit $s^2$ la variance empirique d'un échantillon empirique. On a :

\[\boxed{\frac{s^2(n-1)}{\sigma^2}\sim\chi_{n-1}^2}\]


Intervalles de confiance

Définitions

Niveau de confiance Un intervalle de confiance de niveau $1-\alpha$ est tel que durant $1-\alpha$ du temps, la vraie valeur est contenue dans l'intervalle de confiance.


Intervalle de confiance Un intervalle de confiance $CI_{1-\alpha}$ de niveau $1-\alpha$ d'un paramètre $\theta$ est tel que :

\[\boxed{P(\theta\in CI_{1-\alpha})=1-\alpha}\]


Intervalle de confiance pour la moyenne

Lorsque l'on doit déterminer un intervalle de confiance pour une moyenne $\mu$, on doit choisir quel test statistique calculer en fonction de la situation dans laquelle on se trouve. Le tableau suivant résume les différents cas.


Distribution de $X_i$ Taille $n$ Variance $\sigma^2$ Test statistique Niveau de confiance de $\small 1-\alpha$
$X_i\sim\mathcal{N}(\mu, \sigma)$ tous cas connu $\displaystyle\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim\mathcal{N}(0,1)$ $\left[\overline{X}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{X}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right]$
$X_i\sim$ toute distribution grand connu $\displaystyle\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim\mathcal{N}(0,1)$ $\left[\overline{X}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{X}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right]$
$X_i\sim$ toute distribution grand inconnu $\displaystyle\frac{\overline{X}-\mu}{\frac{s}{\sqrt{n}}}\sim\mathcal{N}(0,1)$ $\left[\overline{X}-z_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}},\overline{X}+z_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}}\right]$
$X_i\sim\mathcal{N}(\mu, \sigma)$ petit inconnu $\displaystyle\frac{\overline{X}-\mu}{\frac{s}{\sqrt{n}}}\sim t_{n-1}$ $\left[\overline{X}-t_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}},\overline{X}+t_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}}\right]$
$X_i\sim$ toute distribution petit connu ou inconnu Rien à faire ! Rien à faire !

Remarque : dans le cas où la variance est connue, un tutoriel pour estimer la moyenne est détaillé ici.


Intervalle de confiance pour la variance

Le tableau ci-dessous résume les tests statistiques qu'il faut calculer pour déterminer un intervalle de confiance dans le cadre de l'estimation de la variance.


Distribution de $X_i$ Taille $n$ Moyenne $\mu$ Test statistique Niveau de confiance de $\small 1-\alpha$
$X_i\sim\mathcal{N}(\mu,\sigma)$ tous cas connu ou inconnu $\displaystyle\frac{s^2(n-1)}{\sigma^2}\sim\chi_{n-1}^2$ $\left[\frac{s^2(n-1)}{\chi_2^2},\frac{s^2(n-1)}{\chi_1^2}\right]$

Remarque : un tutoriel pour estimer la variance est détaillé ici.


Tests d'hypothèses

Définitions générales

Erreur de type I Dans un test d'hypothèse, l'erreur de type I, souvent notée $\alpha$ et aussi connu sous le nom de "fausse alarme" ou niveau de signification, est la probabilité de rejeter l'hypothèse nulle lorsque l'hypothèse nulle est vraie. Si l'on note $T$ le test statistique à calculer et $R$ la région de rejet, alors on a :

\[\boxed{\alpha=P(T\in R|H_0{\small\textrm{ vraie})}}\]


Erreur de type II Dans un test d'hypothèse, l'erreur de type II, souvent notée $\beta$ et aussi connu sous le nom d'"alarme manquée", est la probabilité de ne pas rejeter l'hypothèse nulle lorsque l'hypothèse nulle n'est pas vraie. Si l'on note $T$ le test statistique à calculer et $R$ la région de rejet, alors on a :

\[\boxed{\beta=P(T\notin R|H_0{\small\textrm{ pas vraie})}}\]


p-value Dans le cadre d'un test d'hypothèse, la $p$-value est la probabilité d'avoir un test statistique $T$ qui a une valeur au moins aussi extrême que celui qu'on a observé $T_0$, lorsque l'hypothèse nulle est vraie. On a :

\[{\small\textrm{(côté gauche)}}\quad\boxed{p\textrm{-value}=P(T\leqslant T_0|H_0{\small\textrm{ vraie})}}\quad\quad\quad{\small\textrm{(côté droit)}}\quad\boxed{p\textrm{-value}=P(T\geqslant T_0|H_0{\small\textrm{ vraie})}}\]

\[{\small\textrm{(deux côtés)}}\quad\boxed{p\textrm{-value}=P(|T|\geqslant |T_0||H_0{\small\textrm{ vraie})}}\]


Test non-paramétrique Un test non-paramétrique est un test dans lequel on ne suppose rien de la distribution de l'échantillon que l'on observe.


Différence de deux moyennes

Le tableau ci-dessous récapitule le test statistique qu'il faut calculer lors d'un test d'hypothèse, où l'hypothèse nulle est telle que :

\[H_0\quad:\quad\mu_X-\mu_Y=\delta\]


Distribution de $X_i, Y_i$ Taille $n_X, n_Y$ Variance $\sigma_X^2, \sigma_Y^2$ Test statistique sous $H_0$
Gaussienne tous cas connu $\displaystyle\frac{(\overline{X}-\overline{Y})-\delta}{\sqrt{\frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}}}\underset{H_0}{\sim}\mathcal{N}(0,1)$
Gaussienne grand inconnu $\displaystyle\frac{(\overline{X}-\overline{Y})-\delta}{\sqrt{\frac{s_X^2}{n_X}+\frac{s_Y^2}{n_Y}}}\underset{H_0}{\sim}\mathcal{N}(0,1)$
Gaussienne petit inconnu avec $\sigma_X=\sigma_Y$ $\displaystyle\frac{(\overline{X}-\overline{Y})-\delta}{s\sqrt{\frac{1}{n_X}+\frac{1}{n_Y}}}\underset{H_0}{\sim}t_{n_X+n_Y-2}$

Moyenne d'un échantillon pairé

On suppose ici que les $X_i$ et $Y_i$ sont pairés deux à deux. En notant $D_i=X_i-Y_i$, le tableau ci-dessous résume le test statistique à calculer lors d'un test d'hypothèse, où l'hypothèse nulle est telle que :

\[H_0\quad:\quad\overline{D}=\delta\]


Distribution de $X_i, Y_i$ Taille $n=n_X=n_Y$ Variance $\sigma_X^2, \sigma_Y^2$ Test statistique sous $H_0$
Gaussienne, pairé tous cas inconnu $\displaystyle\frac{\overline{D}-\delta}{\frac{s_D}{\sqrt{n}}}\underset{H_0}{\sim}t_{n-1}$

Médiane

Médiane d'une distribution On définit la médiane $m$ d'une distribution de la manière suivante :

\[\boxed{P(X\leqslant m)=P(X\geqslant m)=\frac{1}{2}}\]


Test des signes Le test des signes est un test non-paramétrique utilisé pour déterminer si la médiane d'un échantillon est égal à la médiane initialement supposée.

En notant $V\underset{H_0}{\sim}\mathcal{B}(n,p=\frac{1}{2})$ le nombre d'observations tombant à droite de la médiane initialement supposée, on a les deux cas suivants :

$―$ Si $np\geqslant5$, on utilise le test statistique suivant :

\[\boxed{Z=\frac{V-\frac{n}{2}}{\frac{\sqrt{n}}{2}}\underset{H_0}{\sim}\mathcal{N}(0,1)}\]

$―$ Si $np < 5$, on utilise le fait suivant :

\[\boxed{V\underset{H_0}{\sim}\mathcal{B}\left(n,p=\frac{1}{2}\right)}\]


$\chi^2$ test

Test de qualité d'ajustement Soit $k$ tiroirs tels que dans chaque tiroir $i$, on a $Y_i$ observations. Notre hypothèse nulle est que $Y_i$ suit une distribution binomiale de probabilité $p_i$ pour chaque tiroir.

On veut tester si le modèle, mentionné ci-dessus, décrit de manière raisonnable la réalité. On effectue le test d'hypothèse suivant pour vérifier cela :

\[\boxed{H_0:\textrm{good fit}}\quad\quad\textrm{versus}\quad\quad \boxed{H_1:\textrm{not good fit}}\]


Test statistique du $\chi^2$ Pour effectuer un test de qualité d'ajustement, on a besoin de calculer un test statistique et de le comparer à une distribution de référence. En notant $k$ le nombre de tiroirs, $n$ le nombre total d'observations, et dans le cas où l'on a $np_i\geqslant5$, le test statistique $T$ défini ci-dessous nous permet d'effectuer le test d'hypothèse :

\[\boxed{T=\sum_{i=1}^k\frac{(Y_i-np_i)^2}{np_i}\underset{H_0}{\sim}\chi_{df}^2}\quad\textrm{avec}\quad\boxed{df=(k-1)-{\small\#(\textrm{paramètres estimés}})}\]


Tendances

Nombre de transpositions Dans une séquence donnée, on définit le nombre de transpositions, noté $T$, comme étant le nombre de fois qu'un nombre plus grand précède un nombre plus petit.

Exemple: la séquence $\{1,5,4,3\}$ contient $T=3$ transpositions parce que $5>4, 5>3$ et $4>3$


Test de tendances arbitraires Étant donné une séquence, le test de tendances arbitraires est un test non-paramétrique, dont le but est de déterminer si les données suggèrent la présence d'une tendance croissante :

\[\boxed{H_0:\textrm{pas de tendance}}\quad\quad\textrm{versus}\quad\quad \boxed{H_1:\textrm{il y a une tendance croissante}}\]

Si l'on note $x$ le nombre de transpositions d'une séquence, la $p$-value est calculée par :

\[\boxed{p\textrm{-value}=P(T\leqslant x)}\]

Remarque : le test pour une tendance décroissante d'une séquence donnée est équivalent à un test pour une tendance croissante avec la même séquence, mais inversée.


Analyse de régression

Dans la section suivante, on note $(x_1, Y_1), ..., (x_n, Y_n)$ une collection de $n$ observations.

Modèle linéaire simple Soit $X$ une variable déterministe et $Y$ une variable aléatoire dépendante. Dans le contexte d'un modèle linéaire simple, on suppose que $Y$ est lié à $X$ par le biais de coefficients de régression $\alpha, \beta$ et d'une variable aléatoire $e\sim\mathcal{N}(0,\sigma)$, où $e$ est l'erreur. On a :

\[\boxed{Y=\alpha+\beta X+e}\]


Estimation de régression Lors de l'estimation des coefficients de régression $\alpha, \beta$ par $A, B$, on obtient les predictions $\hat{Y}_i$ de la manière suivante :

\[\boxed{\hat{Y}_i=A+Bx_i}\]


Somme de erreurs au carré En gardant les mêmes notations, on définit la somme des erreurs au carré, aussi appelé SSE, par :

\[\boxed{SSE=\sum_{i=1}^n(Y_i-\hat{Y}_i)^2=\sum_{i=1}^n(Y_i-(A+Bx_i))^2}\]


Méthode des moindres carrés La méthode des moindres carrés est utilisée pour trouver des estimations $A,B$ des coefficients de régression $\alpha,\beta$ en minimisant la SSE. En d'autres mots, on a :

\[\boxed{A, B = \underset{\alpha, \beta}{\textrm{arg min}}\sum_{i=1}^n(Y_i-(\alpha+\beta x_i))^2}\]


Notations Soit $n$ observations $(x_i, Y_i)$, on définit $S_{XY},S_{XX}$ et $S_{YY}$ de la manière suivante :

\[\boxed{S_{XY}=\sum_{i=1}^n(x_i-\overline{x})(Y_i-\overline{Y})\quad\textrm{et}\quad S_{XX}=\sum_{i=1}^n(x_i-\overline{x})^2\quad\textrm{et}\quad S_{YY}=\sum_{i=1}^n(Y_i-\overline{Y})^2}\]


Estimations des moindres carrés Lors de l'estimation des coefficients $\alpha, \beta$ avec la méthode des moindres carrés, on obtient $A, B$ définis par :

\[\boxed{A=\overline{Y}-\frac{S_{XY}}{S_{XX}}\overline{x}\quad\textrm{et}\quad B=\frac{S_{XY}}{S_{XX}}}\]


Somme des erreurs au carré revisité La somme des erreurs au carrés définie ci-dessus peut aussi être exprimée en terme de $S_{YY}$, $S_{XY}$ et $B$ de la manière suivante :

\[\boxed{SSE=S_{YY}-BS_{XY}}\]


Résultats principaux

Lorsque $\sigma$ n'est pas connue, ce paramètre est estimé par l'estimateur non-biaisé $s^2$ défini par :

\[\boxed{s^2=\frac{S_{YY}-BS_{XY}}{n-2}}\]

L'estimateur $s^2$ a la propriété suivante :

\[\boxed{\frac{s^2(n-2)}{\sigma^2}\sim\chi_{n-2}^2}\]


Le tableau ci-dessous récapitule les propriétés des estimations $A, B$ dans les cas où $\sigma$ est connu ou pas :

Coefficient Estimation $\sigma$ Statistique Intervalle de confiance $1-\alpha$
$\alpha$ $A$ connu $\frac{A-\alpha}{\sigma\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}}}\sim\mathcal{N}(0,1)$ $\left[A-z_{\frac{\alpha}{2}}\sigma\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}},A+z_{\frac{\alpha}{2}}\sigma\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}}\right]$
$\beta$ $B$ connu $\frac{B-\beta}{\frac{\sigma}{\sqrt{S_{XX}}}}\sim\mathcal{N}(0,1)$ $\left[B-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{S_{XX}}},B+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{S_{XX}}}\right]$
$\alpha$ $A$ inconnu $\frac{A-\alpha}{s\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}}}\sim t_{n-2}$ $\left[A-t_{\frac{\alpha}{2}}s\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}},A+t_{\frac{\alpha}{2}}s\sqrt{\frac{1}{n}+\frac{\overline{X}^2}{S_{XX}}}\right]$
$\beta$ $B$ inconnu $\frac{B-\beta}{\frac{s}{\sqrt{S_{XX}}}}\sim t_{n-2}$ $\left[B-t_{\frac{\alpha}{2}}\frac{s}{\sqrt{S_{XX}}},B+t_{\frac{\alpha}{2}}\frac{s}{\sqrt{S_{XX}}}\right]$

Analyse de corrélation

Coefficient de corrélation Le coefficient de corrélation de deux variables aléatoires $X$ et $Y$ est noté $\rho$ et est défini de la manière suivante :

\[\boxed{\rho=\frac{E[(X-\mu_X)(Y-\mu_Y)]}{\sqrt{E[(X-\mu_X)^2]E[(Y-\mu_Y)^2]}}}\]


Coefficient de corrélation empirique Le coefficient de corrélation est estimé en pratique par le coefficient de corrélation empirique, souvent noté $r$ ou $\hat{\rho}$, défini par :

\[\boxed{\displaystyle r=\hat{\rho}=\frac{S_{XY}}{\sqrt{S_{XX}S_{YY}}}}\]


Test de corrélation Dans le but d'effectuer un test d'hypothèse où $H_0$ considère qu'il n'y a pas de corrélation entre $X$ et $Y$, on utilise la statistique suivante :

\[\boxed{\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}\underset{H_0}{\sim}t_{n-2}}\]


Transformation de Fisher La transformation de Fisher transformation est souvent utilisée pour construire des intervalles de confiance encadrant la corrélation estimée. Elle est notée $V$ et est définie par :

\[\boxed{V=\frac{1}{2}\ln\left(\frac{1+r}{1-r}\right)}\]



En notant $V_1=V-\frac{z_{\frac{\alpha}{2}}}{\sqrt{n-3}}$ et $V_2=V+\frac{z_{\frac{\alpha}{2}}}{\sqrt{n-3}}$, le tableau ci-dessous récapitule les résultats principaux autour de l'estimation de la corrélation :

Taille de l'échantillon Test statistique $1-\alpha$ confidence interval for $\rho$
grand $\displaystyle\frac{V-\frac{1}{2}\ln\left(\frac{1+\rho}{1-\rho}\right)}{\frac{1}{\sqrt{n-3}}}\underset{n\gg1}{\sim}\mathcal{N}(0,1)$ $\displaystyle\left[\frac{e^{2V_1}-1}{e^{2V_1}+1},\frac{e^{2V_2}-1}{e^{2V_2}+1}\right]$