Ce chapitre est le résumé des travaux
[6, 106, 2, 27].
Soit $(\xi_{n})$ une suite de variables indépendantes et de même loi, centrées et de variance $\E[\xi_{n}^{2}]=\sigma ^{2}$. Définissons la somme
$Z_{n}\egaldef \xi_{1}+ \ldots +\xi_{n}$. D'après le célèbre théorème de la
limite centrale, pour toute fonction $h$ continue bornée,
\[\lim_{n \to \infty} \E\Bigl[h\Bigl(\frac{Z_{n}}{\sqrt{n}}\Bigr)\Bigr]=\int_{\Rset^{}}h(x)dG(x),\]
où $G$ est la mesure gaussienne $\CN(0,\sigma ^{2})$. De plus, le théorème de la loi du logarithme itéré nous indique que
\[\limsup_{n\to \infty}\frac{Z_n}{\sqrt{n}}.\frac{1}{\sqrt{2\log\log n}}=1 \quad \mbox{p.s.}\]
Le théorème de la limite centrale presque-sûr (TLCPS) fournit presque partout une convergence faible de la moyenne logarithmique de $(Z_n/\sqrt{n})$ avec des poids harmoniques, autrement dit la mesure de comptage dans la loi des grands nombres est remplacée par une mesure logarithmique $\mu(A)=\sum_{k \in A}\frac{1}{k}$, pour $A \subset \Nset$. Plus précisément on a:
pour toute fonction $h$ continue bornée,
\[\lim_{n \to \infty}\frac{1}{\log
n}\sum_{k=1}^{n}\frac{1}{k}h\Bigl(\frac{Z_{k}}{\sqrt{k}}\Bigr)=\int_{\Rset^{}}h(x)dG(x)\quad \mbox{p.s.}\]
La première version du TLCPS a été énoncée sans preuve dans le livre de [95].
Ce théorème a été démontré par [17, 123, 124], et dans sa forme présente par
[88]. La version « universelle » de TLCPS présentée dans [12] couvre une large classe de théorèmes limites pour les sommes partielles, les extrêmes, les fonctions de répartition empiriques, les temps locaux et pour les U-statistiques, construits à partir de variables indépendantes et identiquement distribuées. On trouve également des TLCPS pour les U-statistiques dans les travaux de [69] et de [108].
Le théorème de la limite centrale presque-sûr a aussi été
établi dans un cadre martingales par [36, 35], [31] et
[97, 98] ou dans un cadre de variables mélangeantes par [62]. On trouvera dans [11] et [4] une étude détaillée des papiers sur le sujet.
Plus récemment, [134] a présenté des applications du TLCPS au contrôle qualité pour des estimations de quantiles, des tests d'adéquation et de comparaison, des statistiques de rang. L'avantage de ces méthodes basées sur le TLCPS est qu'elles permettent d'éviter l'estimation de la variance des observations.
La section 2 résume les résultats obtenus pendant ma thèse dans les articles [106, 5] qui établissent la convergence des moments dans le TLCPS pour des martingales vectorielles. Les deux autres sections sont consacrées à l'énoncé du TLCPS pour les algorithmes stochastiques et pour l'estimateur des moindres carrés du processus d'Ornstein Uhlenbeck.
On suppose que $(M_{n})$ est une martingale à valeurs dans $\Rset{}^d$, adaptée à une
filtration $\F$. On note $(\langle M \rangle _{n})$ son processus
croissant. Une approche du TLCPS pour les martingales vectorielles discrètes a été
développée dans [34]. L'une de leurs hypothèses porte sur le comportement asymptotique du processus croissant. Ils supposent qu'il existe une suite déterministe $(U_n)$ de matrices réelles inversibles de la forme $U_{n}=\alpha_{n}I_{d}$ où
$(\alpha_{n})$ est une suite croissante vers l'infini avec $\displaystyle \lim_{n\to \infty}\frac{\alpha_n}{\alpha_{n-1}}=1$, telle que
\[U_{n}^{-1}\langle M \rangle _{n}U_{n}^{-1} \limite{n \to
\infty}{p.s.}C. \]
La matrice $C$ peut être aléatoire ou déterministe.
On montre dans [5] que sous des hypothèses appropriées proches
de celles de [34], mais en remplaçant les poids déterministes
$(U_{n})$ par la racine du processus croissant, il y a convergence des moments
dans le TLCPS pour les martingales vectorielles. Plus précisément, l'article [5] est une généralisation du théorème de convergence des moments de [13] obtenue dans le cas scalaire, au cadre vectoriel.
Avant d'énoncer le théorème de convergence à proprement parler ainsi que ses applications, définissons plus précisément le cadre et les hypothèses. Soit $(\ep_{n})$ une suite de
différences de martingales adaptée à une filtration $\F\egaldef (\CF_{n})$. On suppose que $(M_n)$ peut se décomposer sous la forme d'une transformée de martingales
\[M_{n}\egaldef M_{0}+\sum_{k=1}^{n} \Phi_{k-1}\ep_{k},\]
avec $M_{0}$ arbitrairement choisie et où $(\Phi_{n})$ est une suite de vecteurs aléatoires de $\Rset{}^d$, adaptée à la
filtration $\F$. On note également
$ S_{n}\egaldef \sum_{k=0}^{n} \Phi_{k}\Phi_{k}^{t} +S,$(1) |
$ f_{n}\egaldef \Phi_{n}^{t}S_{n}^{-1}\Phi_{n}=\frac{d_n - d_{n-1}}{d_n}, \quad \mbox{avec }d_n\egaldef\det(S_n).$(2) |
Pour alléger les notations, on définit les hypothèses sur le bruit $(\ep_{n})$ qui sont utilisées dans les résultats suivants. Pour $p\geq 1$, on
note respectivement $(H_{2p+})$ et $(C_{2p})$ les assertions suivantes: la suite
$(\ep_{n})$ est une différence de martingales telle que
$(H_{2p+})$ | $ \quad \quad \sup_{n \geq 0} \E\bigl[|\ep_{n+1}|^{a}\big|\CF_{n}\bigr]< \infty \quad \mbox{p.s.} \quad \mbox{pour un réel } a>2p,$(3) | |
$(C_{2p})$ | $ \quad \quad \forall n \geq 0, \quad \E\bigl[\ep_{n+1}^{2p}\big|\CF_{n}\bigr]\egaldef \sigma(2p) <\infty \quad \mbox{p.s.}$ |
$\lim_{n\to \infty} \frac{1}{\log d_{n}}\sum_{k=1}^{n}f_{k}\bigl(M_{k}^{t}S_{k-1}^{-1}M_{k}\bigr)^{p}=\ell(p)\egaldef d\sigma^{2p}\prod_{j=1}^{p-1}\bigl(d+2j\bigr).$(5) | |
$\lim_{n\to \infty} \frac{1}{\log d_{n}}\sum_{k=1}^{n}\bigl[\bigl(M_{k}^{t}S_{k-1}^{-1}M_{k}\bigr)^{p}-\bigl(M_{k}^{t}S_{k}^{-1}M_{k}\bigr)^{p}\bigr]=\lambda(p)\egaldef \frac{p}{d}\ell(p).$(6) |
Dans les modèles étudiés ci-après, l'hypothèse de convergence (4)
est vérifiée. Cette hypothèse revient à supposer que les valeurs propres de $S_n$ tendent toutes vers l'infini à la même vitesse.
Ces propriétés asymptotiques pour les puissances de martingales vectorielles permettent d'établir des résultats de convergence
sur les erreurs d'estimation et de prédiction associées aux modèles de
régression linéaire. Ils sont définis, pour tout $n\geq 1$, par la relation
On considère l'estimateur des moindres carrés
$ \widehat{\theta}_{n}=S_{n-1}^{-1}\sum_{k=1}^{n}\Phi_{k-1}X_{k}.$(9) |
Concentrons-nous sur l'erreur de prédiction
$X_{n+1}-\widehat{\theta}_{n}^{t}\Phi_{n}$ et sur l'erreur d'estimation
$\widehat{\theta}_{n}-\theta $. Il est plus approprié (voir par
exemple [56]) de considérer les erreurs cumulées de prédiction et
d'estimation, respectivement définies, pour tout $p \geq 1$, par
$ C_{n}(p)\egaldef\sum_{k=0}^{n-1} (X_{k+1}-\widehat{\theta}_{k}^{t}\Phi_{k})^{2p} \quad \mbox{et}\quad G_{n}(p)\egaldef\sum_{k=1}^{n} k^{p-1} \|\widehat{\theta}_{k}-\theta\| ^{2p}.$(11) |
$ \Gamma_{n}(2p)=\frac{1}{n}\sum_{k=0}^{n-1} (X_{k+1}-\widehat{\theta}_{k}^{t}\Phi_{k})^{2p}$(12) |
$ \Bigl(\Gamma_{n}(2q)-\frac{1}{n}\sum_{k=1}^{n}\ep_{k}^{2q}\Bigr)^{2}=\CO\Bigl(\frac{\log d_{n}}{n}\Bigr)\quad \mbox{p.s.}$(13) |
Sous les hypothèses du corollaire Corollaire 1, la
convergence (13) implique que $C_{n}(q)/n$ converge p.s. vers
$\sigma (2q)$. De plus, si $(\ep_{n})$ a un moment conditionnel fini d'ordre
$a>2q$, pour $c$ vérifiant $2qa^{-1}<c<1$, dès que $\log d_{n}=o\bigl(n^{c}\bigr)$, on a
\[\left| \frac{1}{n} C_{n}(q)-\sigma(2q)\right|^{2}
=o(n^{c-1})\quad \mbox{p.s.}\]
$ \lim_{n \to \infty} \frac{1}{\log d_{n}}\sum_{k=1}^{n} f_{k}\left((\widehat{\theta_{k}}-\theta)^{t}S_{k}(\widehat{\theta_{k}}-\theta)\right)^{p}=\ell(p) \quad \mbox{p.s.}$(14) |
$ \lim_{n \rightarrow +\infty} \frac{1}{n} \ S_{n}=L \hspace{1cm} \mbox{p.s.}$(15) |
$ \lim_{n \to \infty} \frac{1}{\log n}\sum_{k=1}^{n}k^{p-1}\left((\widehat{\theta_{k}}-\theta)^{t}L(\widehat{\theta_{k}}-\theta)\right)^{p}= \ell(p) \quad \mbox{p.s.}$(16) |
Le modèle autorégressif linéaire est un cas particulier du modèle de
régression (8). Il est défini pour tout $n \geq 1$, par
On considère le processus de branchement à temps discret $(X_n)$ sujet à une
composante d'immigration indépendante à chaque génération: la population de référence peut donc
s'enrichir d'apports extérieurs. On peut ainsi modéliser
l'évolution d'un patrimoine génétique, de phénomènes en écologie, en
physique des particules ou en épidémiologie. Le processus de branchement $(X_n)$ est donné par la relation de
récurrence
Dans le cas stable $m<1$, la convergence (4) a été établie par [141]. On obtient ainsi le comportement asymptotique des erreurs d'estimation et de prédiction cumulées de l'estimateur des moindres carrés de la moyenne. Avec un raisonnement analogue et en décomposant le processus de bruit en un modèle linéaire, on obtient également les comportements asymptotiques de l'estimateur de la variance.
Cette section résume le travail présenté dans
[106]. Pour contourner certaines difficultés inhérentes au cas vectoriel et éviter une hypothèse de type (4), il est possible d'introduire des martingales pondérées. Dans cette section, $(M_{n})$
désigne la transformée de martingale pondérée
\[M_{n}=M_{0}+\sum_{k=1}^{n}a_{k-1}\Phi_{k-1}\ep_{k},\]
où $a_{n}$ est une suite décroissante adaptée à la filtration $\F$, avec $0
\leq a_{n} \leq 1$. Le coefficient d'explosion $f_{n}(a)$ est défini par
\[f_{n}(a)\egaldef a_{n}\Phi_{n}^{t}S_{n}^{-1}(a)\Phi_n, \quad \mbox{avec}\quad S_{n}(a)=\sum_{k=0}^{n}a_{k}\Phi_{k}\Phi_{k}^{t}+S.\]
On suppose que la suite $(a_n)$ vérifie la convergence
Notons que grâce à la pondération, il suffit de supposer que le moment conditionnel est d'ordre 2.
Pour appliquer ce résultat aux modèles de régression linéaire présentés dans
la Section 2.1, il est naturel de considérer
l'estimateur des
moindres carrés pondérés
$ \widehat{\theta}_{n}=S_{n-1}^{-1}(a)\sum_{k=1}^{n}a_{k-1}\Phi_{k-1}X_{k}.$(21) |
Le théorème Théorème 3 s'applique aux modèles de régression, en choisissant convenablement la suite de pondération $(a_n)$ et en considérant le cas stable:
\[\limsup_{n\rightarrow +\infty} f_{n}(a)<1 \quad \mbox{p.s.}\]
Dans ce cas, on peut montrer, en supposant que les hypothèses $(C_{2p})$ et $(H_{2p+})$ sont vérifiées, qu'il existe un réel $0<c<1$ tel que
\[\left| \frac{1}{n} C_{n}(p)-\sigma(2p)\right|
=o(n^{c-1})\quad \mbox{p.s.}\]
De plus, s'il existe une matrice inversible $L$ telle que la convergence (15) soit satisfaite, alors
\[G_{n}(p)=o\big((\log s_{n})^{(p+1)(1+\gamma)}\big)\quad \mbox{p.s.}\]
Dans un contexte de diffusion brownienne, [92, 93] établissent la convergence des mesures pondérées de type TLCPS pour obtenir une approximation de la mesure invariante de la diffusion. Le TLCPS est un corollaire de leur résultat.
Le TLCPS pour l'estimateur des paramètres d'un processus d'Ornstein-Uhlenbeck est établi dans [48]. Dans l'article [27] nous démontrons le théorème de la limite centrale presque-sûr pour une suite d'estimateur du paramètre d'un processus d'Ornstein-Uhlenbeck fractionnaire, aussi bien pour une observation du processus à temps continu que pour une observation discrétisée. La preuve s'appuie sur un critère introduit par [71, 70] et basé sur la vitesse de convergence des fonctions caractéristiques. A partir de ce critère combiné avec du calcul de Malliavin, [8] obtiennent un critère de TLCPS pour des champs Gaussiens généraux.
Considérons le processus d'Ornstein-Uhlenbeck fractionnaire $X=\left\{X_t, t\geq0\right\}$ défini par $X_0=0$ et
où $B=\left\{B_t, t\geq0\right\}$ est un mouvement Brownien fractionnaire de paramètre de Hurst $H\in(\frac{1}{2},1)$ et $\theta$ est un paramètre réel inconnu.
Pour estimer ce paramètre $\theta$ à partir de l'observation d'un processus d'Ornstein-Uhlenbeck fractionnaire continu, récemment [66] et [7] ont étudié les propriétés de l'estimateur des moindres carrés $\widehat{\theta}_t$ de $\theta$ donné par
$ \widehat{\theta}_t \egaldef\frac{\int_0^tX_sdX_s}{\int_0^tX_s^2ds},\quad t\geq0.$ |
Dans le cas discret, le processus $X$ est observé en $n$ points, à des instants réguliers de pas $\Delta_n$, i.e. pour tout entier $i\in~\{0,\ldots,n\},$ $t_i=i\Delta_{n}$. On considère alors l'estimateur des moindres carrés
Dans la suite de la section, $G$ désigne une variable aléatoire gaussienne centrée réduite $\CN(0,1)$. Les TLCPS établis pour $(\widehat{\theta}_{t})$ et $(\widetilde{\theta}_{n})$ dans [27] reposent sur les deux théorèmes suivants.
Soit $(Z_{n})$ une suite de variables aléatoires réelles satisfaisant un théorème de la limite centrale presque-sûr. On suppose que $(R_{n})$ est une suite positive de variables convergeant presque sûrement vers $1$. Alors la suite
$(Z_n/R_n)$ vérifie le théorème de la limite centrale presque-sûr. En d'autres termes, presque sûrement pour tout $z \in\Rset$, on a
$ \lim_{n\to \infty}\frac{1}{\log n}\sum_{k=1}^{n}\frac{1}{k}\ind{Z_k\leq zR_k}=\PP\left(G\leq z\right).$ |
Soit $(Z_{n})$ une suite de variables aléatoires réelles satisfaisant le théorème de la limite centrale presque-sûr. On suppose que $(R_{n})$ est une suite positive de variables convergeant presque sûrement vers $0$. Alors la suite $(Z_n+R_n)$ satisfait le théorème de la limite presque-sûr, et on a pour tout $z \in\Rset$,
$ \frac{1}{\log n}\sum_{k=1}^{n}\frac{1}{k}\ind{Z_k+R_k\leq z}\limite{n \to \infty}{p.s.} \PP\left(G\leq z\right).$ |
On considère le processus d'Ornstein-Uhlenbeck $X=\left\{X_t,t\geq0\right\}$ défini par l'équation différentielle stochastique linéaire (22).
Dans le cas ergodique $\theta > 0$, lorsque l'exposant de Hurst $H\in(1/2,3/4)$, la suite $(\sqrt{n}({\theta
}-\widehat{{\theta }}_{n}))$ satisfait le TLCPS:
On se place dans le cas ergodique $\theta >0$ et on suppose que $H\in(1/2,3/4)$. Alors presque sûrement pour toute fonction continue bornée $\varphi$
\[ \frac{1}{\log n}\sum_{k=1}^{n}\frac{1}{k}\varphi\left(\frac{\sqrt{k}}{\sigma_k}(\theta-\widehat{\theta}_k)\right)
\limite{n \to \infty}{} \E(\varphi(G)),\]
où $(\sigma_t)$ désigne la normalisation positive
On se place dans le cas ergodique $\theta>0$ et on suppose que le processus est observé en $n$ instants régulièrement espacés d'un pas $\Delta_n=n^{-\alpha}$, pour $\alpha \in (\frac{1}{2H+1},1)$. On note $T_n=n\Delta_{n}$ la longueur de la fenêtre d'observation.
Dans le cas scalaire, la convergence des moments dans le TLCPS a été étudiée par [13, 10] dans un cadre martingales. En reprenant les notations de l'introduction du chapitre, lorsque les variables $(\xi_n)$ sont indépendantes et identiquement distribuées, la convergence des moments s'écrit:
$\lim_{n \to \infty}\frac{1}{n}\sum_{k=1}^n\frac{1}{k}\Bigl(\frac{Z_k}{\sqrt{k}}\Bigr)^{2p}=\frac{\sigma^{2p}(2p)!}{2^pp!}\quad \mbox{p.s.,}$(26) | |
$\lim_{n \to \infty}\frac{1}{n}\sum_{k=1}^n\frac{1}{k} \Bigl(\frac{Z_k}{\sqrt{k}}\Bigr)^{2p-1}=0\quad \mbox{p.s.}$(27) |
A partir de la convergence des moments de tout ordre, [10] démontrent en utilisant le Théorème de Carleman que les transformées de martingales réelles vérifient le TLCPS. L'article [2] reprend cette idée en montrant que les algorithmes stochastiques d'approximation vérifient aussi la convergence de moments. Le TLCPS est alors une conséquence de la convergence des moments, ce qui fournit une autre preuve au TLCPS établi par [103].
On considère l'algorithme stochastique de la forme
où la fonction $h$ est définie sur $\Rset^{}$ et à valeur dans $\Rset^{}$. Les deux suites aléatoires $(R_n)$ et $(\ep_n)$ sont deux perturbations adaptées à la filtration $\mathbb{F}$. Les pas $(\gamma_n)$ et $(\sigma_n)$ sont deux suites déterministes positives qui tendent vers zéro. Ce modèle est une généralisation des algorithmes de Robbins-Monro, Kiefer-Wolfowitz et des algorithmes avec perturbations Markoviennes (voir [104]). L'algorithme de Robbins-Monro correspond au cas $R_n=0$ et $\sigma_n=\gamma_n$.
Soit $z^*$ le zéro de $h$. De très nombreux résultats basés sur différents critères garantissent la convergence presque sûre de $(Z_n)$ vers $z^*$. Dans la vaste littérature sur le sujet, on citera [147, 104, 87]. Si $(Z_n)$ converge presque sûrement vers $z^*$, la vitesse de convergence est donnée par
où $\Sigma^2$ est un réel positif lié au moment d'ordre $2$ du bruit $(\ep_n)$ et à la dérivée de la fonction $h$ au point cible $z^*$. On définit la vitesse $v_n\egaldef \gamma_n\sigma_n^{-2}$.
On commence par définir une classe de suites positives introduite par [102].
Par exemple, les suites $n^\alpha(\log n)^\beta$ ou $n^\alpha(\log \log n)^\beta$, pour $\alpha, \beta \in \Rset^{}$ sont dans $\CG\CS(\alpha)$.
On définit les hypothèses:
$ (\gamma_n)\in\CG\CS(-\alpha)\quad$ | $\mbox{avec}$ | $ \quad \alpha\in\Bigl]\max\Bigr\{\frac{1}{2},\frac{2}{a}\Bigr\},1\Bigr],$ |
$ (\sigma_n)\in\CG\CS(-\beta)\quad$ | $\mbox{avec}$ | $ \quad \beta\in\Bigl]\frac{\alpha}{2},\alpha\Bigr],$ |
$ \lim_{n \to \infty} n\gamma_n$ | $>$ | $-\frac{2\beta-\alpha}{2H}.$ |
On note $\xi\egaldef \lim_{n \to \infty}\bigl(n\gamma_n\bigr)^{-1}$ et
Cette constante $\Sigma^2$ est bien celle qui apparaît comme étant la variance asymptotique de l'équation (29). Grâce à $(H5)$, $\Sigma^2$ est strictement positive.
Les gains usuels
\[\gamma_n=\frac{\gamma_0}{n^\alpha} \quad \mbox{et} \quad \sigma_n=\frac{\sigma_0}{\sqrt{n^{\alpha+\beta}}}, \quad \mbox{avec} \quad \gamma_0>0, \sigma_0>0, \quad \mbox{et}\quad 0 < \beta \leq \alpha,
\]
pour $\alpha\in]\max\{1/2,2/a\},1[$ ou ($\alpha=1$ et $\beta<-2H\gamma_0$) vérifient l'hypothèse $(H5)$.
Soit $p \geq 1$ un entier. On suppose que le bruit $(\ep_n)$ vérifie la condition de moment $(H_{2p+})$ définie en (3).
Sous les hypothèses $(H1)$ à $(H5)$, on a
$ \lim_{n \to \infty}\frac{1}{s_n}\sum_{k=1}^n\gamma_k\Bigl[\sqrt{v_k}(Z_k-z^*)\Bigr]^{2p}$ | $=$ | $\frac{\Sigma^{2p}(2p)!}{2^pp!}\quad \mbox{p.s.}$(31) |
$ \lim_{n \to \infty}\frac{1}{s_n}\sum_{k=1}^n\gamma_k\Bigl[\sqrt{v_k}(Z_k-z^*)\Bigr]^{2p-1}$ | $=$ | $0\quad \mbox{p.s.}$(32) |
Dans le cas particulier $p=1$, la convergence (31) est la loi forte quadratique établie par [101]. Les constantes limites dans (31) et (32) correspondent aux moments de la loi gaussienne $\CN(0,\Sigma^2)$.
Le théorème de Carleman (voir par exemple [50]) fournit une condition sur les moments garantissant que la connaissance de tous ces moments caractérise la loi.
Ce corollaire permet d'approcher une intégrale gaussienne d'une fonction presque partout continue et à croissance polynomiale à l'infini.
Les trois exemples d'applications sont des procédures de Robbins-Monro.
Soit $(Y_n)$ une suite de variables aléatoires indépendantes de même loi de densité $f$ par rapport à la mesure de Lebesgue. Cette suite $(Y_n)$ de variables centrées n'est pas observable. On n'a accès qu'à un échantillon translaté $(X_n)$ avec $X_n=Y_n+\theta$. Le paramètre de translation $\theta=\E[X_n]$ est inconnu. Sans connaître $f$, on suppose que cette fonction est paire, strictement positive et de classe $C^1$. L'estimateur récursif défini par
Dans l'exemple précédent, puisque l'on a supposé la densité paire, le paramètre de translation est la médiane. Avec une procédure analogue, on obtient des propriétés asymptotiques sur l'erreur d'estimation de quantiles. A partir d'un échantillon $(Y_n)$ de fonction de répartition $F$ strictement croissante, sans connaître $F$ on peut estimer le quantile $q$ d'ordre $\delta$, i.e. $\delta\egaldef F(q)$ avec la procédure récursive:
Soit $(Y_n)$ une suite de variables aléatoires indépendantes et de même loi, de moyenne $\mu$ et de variance $\sigma^2$. L'estimateur récursif de la moyenne s'écrit également comme un cas particulier du modèle (28) sous la forme: \[\widehat \mu_{n+1}=\widehat \mu_{n}+\gamma_n\bigl(Y_{n+1}-\widehat \mu_{n}\bigr),\] avec $h(z)=\mu-z$ et $\ep_{n+1}=Y_{n+1}-\mu$. En faisant les hypothèses de moments appropriées sur la loi de $Y_1$, on peut également appliquer le théorème Théorème 9.