Introduction

\( \newcommand\egaldef{\stackrel{\tiny def}{=}} \newcommand{\ep}{\varepsilon} \newcommand{\Zset}{\mathbb{Z}} \newcommand{\Nset}{\mathbb{N}} \newcommand{\Rset}{\mathbb{R}} \newcommand{\Cset}{\mathbb{C}} \newcommand{\CN}{\mathcal{N}} \newcommand{\F}{\mathbb{F}} \newcommand{\E}{\mathbb{E}} \newcommand{\EE}[1]{\E\left[#1\right]} \newcommand{\PCond}[2]{\PP\left[#1\middle| #2\right]} \newcommand{\ECond}[2]{\E\left[#1\middle| #2\right]} \newcommand{\PP}{\mathbb{P}} \newcommand{\CF}{\mathcal{F}} \newcommand{\CG}{\mathcal{G}} \newcommand{\CP}{\mathcal{P}} \newcommand{\CC}{\mathcal{C}} \newcommand{\CD}{\mathcal{D}} \newcommand{\CO}{\mathcal{O}} \newcommand{\CL}{\mathcal{L}} \newcommand{\CA}{\mathcal{A}} \newcommand{\CT}{\mathcal{T}} \newcommand{\CW}{\mathcal{W}} \newcommand{\CS}{\mathcal{S}} \newcommand{\CH}{\mathcal{H}} \newcommand{\CB}{\mathcal{B}} \newcommand{\CM}{\mathcal{M}} \renewcommand{\S}[1]{\ensuremath{S\textsc{\lowercase{#1}}}} \newcommand{\btheta}{\boldsymbol{\theta}} \newcommand{\limite}[2]{\mathop{\longrightarrow} \limits_{\mathrm{#1}}^{\mathrm{#2}}} \newcommand{\limiteloi}[2]{\mathop{\rightsquigarrow} \limits_{\mathrm{#1}}^{\mathrm{#2}}} \newcommand\1{\mathbb{1}} \newcommand\ind[1]{\1_{\{#1\}}} \newcommand\muDisc{\mu_{d}} \newcommand\muDiff{\mu_c} \newcommand{\lpref}{\overleftarrow{\rm pref}} \newcommand{\petitlpref}{\overleftarrow{\rm pref}} \newcommand\idt{\mathbf{I}_H} \newcommand\stp[1]{U_{#1}} \newcommand\ie{\emph{i.e.}} \newcommand\argmin{\mathbf{argmin}} \newcommand\scal[1]{\left\langle #1 \right\rangle} \newcommand\nrm[1]{\left\| #1 \right\|} % \newcommand\abs[1]{\left| #1 \right|} % \DeclareMathOperator{\cv}{\limite{n \to \infty}{}} \DeclareMathOperator{\cvp}{\limite{n \to \infty}{P}} \DeclareMathOperator{\cvl}{\limite{n \to \infty}{\CL}} \DeclareMathOperator{\cvloi}{\limiteloi{n \to \infty}{\CL}} \DeclareMathOperator{\cvmq}{\limite{n \to \infty}{\convLp_2}} \DeclareMathOperator{\trace}{Tr} \newcommand\Rlogo{\protect\includegraphics[height=1.8ex,keepaspectratio]{Rlogo.pdf}} \DeclareMathOperator{\diag}{diag} \DeclareMathOperator{\tr}{tr} \DeclareMathOperator{\dilog}{Li} \DeclareMathOperator{\var}{var} \newcommand\bbox{\hfill\rule{2mm}{2mm}} \newcommand\ordPart[1]{\mathop{\rm \sum _{#1}\uparrow}\nolimits} \DeclareMathOperator{\Hess}{Hess} \newcommand\lUn{L^1} \newcommand\lDeux{L^2} \newcommand\Zbar{\overline{Z}} \newcommand\Tbar{\overline{T}} \newcommand\wass[1]{\mathcal{W}_2\left(#1\right)} \newcommand\law{\mathcal{L}} \newcommand\cstHolder{C_3} \newcommand\cstWass{C_4} \newcommand\cstMoment{C_6} \newcommand\assm[1]{\textbf{A#1}} \newcommand\lmin{\lambda_{min}} \newcommand\cG{c_\gamma} \newcommand\covLimite{\Sigma} \)

Liste des travaux présentés

$anchor$ Ce document présente une synthèse de mes travaux de recherche. Ceux-ci se répartissent sur trois thèmes: structures aléatoires discrètes construites à partir de sources dynamiques, algorithmes de gradient stochastique et théorème de la limite centrale presque-sûr. Dans ce mémoire, je décris l'évolution de mes travaux depuis ma thèse tout en mettant en relief le fil conducteur commun. Mon travail de recherche se situe à l'intersection des systèmes dynamiques dans l'analyse statistique de séquences, de l'analyse d'algorithmes dans les arbres aléatoires et des processus stochastiques discrets. Les résultats établis ont des applications dans des domaines variés allant des séquences biologiques aux modèles de régression linéaire, processus de branchement, en passant par la statistique fonctionnelle et les estimations d'indicateurs de risque appliqués à l'assurance.

$anchor$ Mon travail de thèse (2003-2006) au sein de l'équipe PREVAL de l'INRIA Rocquencourt portait sur la modélisation de séquences biologiques ainsi que sur des propriétés de convergence de martingales vectorielles. L'objet de la première partie était une représentation de séquences en système dynamique par un jeu du chaos, la CGR (de l'anglais Chaos Game Representation). L'originalité tenait dans l'utilisation de cette représentation (appliquée pour la première fois aux séquences d'ADN par Jeffrey [75]) pour construire des distances permettant de quantifier des différences de structure de séquences biologiques. La masse d'information accumulée, suite aux différents séquençages d'espèces, a soulevé de nombreux problèmes de stockage: il était devenu nécessaire de développer des outils permettant de retrouver rapidement l'information pertinente dans cet amas de données. La première partie de ma thèse formalise cette représentation en jeu du Chaos et permet de répondre à la question « Comment utiliser la CGR et l'information qu'elle contient ? ». J'ai utilisé cette représentation pour caractériser la structure de dépendance dans une séquence et pour construire des arbres taxonomiques.

$anchor$ L'idée principale sur laquelle reposent les preuves des résultats énoncés est d'utiliser la récursivité sous-jacente à la représentation en jeu du Chaos pour exhiber des martingales et des séries génératrices que l'on sait contrôler. Le caractère récursif de la structure étudiée est de façon beaucoup plus générale à la base de la plupart des preuves des articles que je synthétise ici; il peut se traduire en « méthodes forward » et « méthodes backward ». En décrivant l'état d'un processus à l'instant $n+1$ en fonction de son état à l'instant $n$, on peut faire apparaître des invariants, comme des martingales, en calculant des espérances conditionnelles (méthodes forward). On décompose ensuite le processus étudié en un invariant sur lequel on dispose de résultats de convergence et on contrôle le reste. Dans un raisonnement backward, on décrit la situation à l'etape $n+1$ comme reproduisant la situation à l'étape $n$.

$anchor$ La seconde partie de ma thèse portait sur l'étude d'arbres aléatoires, les arbres-CGR, liés à des algorithmes de compression de données. Avec Brigitte Chauvin, Nicolas Pouyanne et Stéphane Ginouillac (LMV, Université de Versailles Saint-Quentin-en-Yvelines), nous avons établi le comportement asymptotique de certains paramètres (hauteur, niveau de saturation, niveau d'insertion) d'un arbre digital de recherche construit à partir des suffixes successifs d'un même mot infini.

$anchor$ Les résultats obtenus utilisent tant des outils purement probabilistes (martingales liées à la construction récursive de l'arbre, inégalités de concentration, théorème de Borel-Cantelli) que des outils d'analyse complexe (comportement du di-logarithme complexe, théorème de transfert basé sur l'analyse de singularités) en lien avec certaines séries génératrices. Les arbres digitaux poussent en insérant successivement de nouveaux suffixes. La vitesse de croissance possède des liens étroits avec les propriétés des temps d'attente d'occurrences de mots ainsi que leur auto-corrélation.

$anchor$ Ce premier travail sur les paramètres de cet arbre-CGR a été le début d'une fructueuse coopération avec Brigitte Chauvin et Nicolas Pouyanne qui se prolonge bien au-delà du travail de thèse.

$anchor$ L'objet martingale étant récurrent dans mes preuves, j'ai souhaité obtenir de nouvelles propriétés de convergence pour des martingales vectorielles. Dans la dernière partie de ma thèse, en collaboration avec mes deux directeurs de thèse, Bernard Bercu (IMB, Université de Bordeaux 1) et Guy Fayolle (INRIA Rocquencourt), nous avons prouvé la convergence des moments de martingales vectorielles dans le théorème de la limite centrale presque-sûr (TLCPS). Ce travail est la généralisation au cas vectoriel de celui qu'avait obtenu Bernard Bercu [13] dans le cas scalaire. Ces propriétés sont appliquées aux erreurs cumulées d'estimation et de prédiction dans des modèles stables de type processus auto-régressifs linéaires ou processus de branchement avec immigration.

$anchor$ Les tests de structure markovienne d'ordre fixe et déterministe effectués dans la première partie de ma thèse m'ont amenée à travailler sur un mécanisme plus général de production de mots permettant des corrélations de longue portée entre symboles et ainsi une modélisation plus réaliste: la source dynamique. En informatique, toute information se code sous forme de texte, que ce soit un texte initialement écrit en langue naturelle, une séquence biologique (génétique, protéique), musicale, le flux de données dans un réseau ou encore une base de données. L'algorithmique du texte est une branche de l'algorithmique qui vise à un traitement efficace de ces données. Il faut construire des structures qui permettent de rechercher et trier des « mots » et de déterminer le comportement des algorithmes correspondants. Le traitement doit être fiable, rapide et ne pas prendre trop de place en mémoire. Pour une source dynamique générale, l'analyse probabiliste des structures arborescentes construites sur ses mots s'avère beaucoup plus délicate et nécessite la confrontation entre des points de vue variés et complémentaires.

$anchor$ En collaboration avec Brigitte Chauvin, Nicolas Pouyanne (LMV, Université de Versailles Saint-Quentin-en-Yvelines) et Frédéric Paccaut (LAMFA, Université de Picardie Jules Verne) dans les articles [23, 24], nous nous sommes intéressés à un type particulier de sources, extensions « naturelles » de chaînes de Markov: les chaînes de Markov à mémoire variable, appelées aussi VLMC (de l'anglais Variable Length Markov Chains). Les VLMC étaient déjà abondamment utilisées dans des domaines d'applications variés, mais encore mal comprises du point de vue de la théorie « analytique » de l'information. Ce modèle est un bon compromis: suffisamment général pour pouvoir représenter des sources diverses et unifier le traitement de sources naturelles (sources sans mémoire et chaînes de Markov), suffisamment structuré pour pouvoir être précisément étudié, via en particulier l'opérateur de transfert du système dynamique. Dans l'article [23] nous explicitons une source dynamique permettant de produire des VLMC. Puis, nous nous intéressons à deux exemples particuliers pour lesquels nous donnons une condition nécessaire et suffisante d'existence et unicité de mesure invariante.

$anchor$ La manière dont les mots sont produits a une grande influence sur le comportement probabiliste des algorithmes ou des principales structures de données arborescentes de type dictionnaire associées (arbre binaire de recherche, arbre digital, arbre des suffixes, pour la compression). Une fois de plus la structure récursive de ces algorithmes est exploitée dans nos preuves. Ces arbres aléatoires dans lesquels on stocke des données sont connus dans la littérature pour « pousser » à vitesse logarithmique en fonction du nombre de données que l'on stocke. Dans l’article [24], il y a deux exemples d'arbres explicites, des tries des suffixes, dont la hauteur ou le niveau de saturation ne grandissent pas logarithmiquement. Ces deux exemples sont construits à partir d'un mot généré par une source VLMC.

$anchor$ Egalement à partir d'un mot généré par une VLMC, avec Brigitte Chauvin, Samuel Herrmann (IMB, Université de Bourgogne) et Pierre Vallois (Institut Elie Cartan, Université de Lorraine) nous avons étudié la marche aléatoire construite en sommant les codages des lettres du mot. Cette marche n'est en général pas markovienne. Elle est dite persistante. On montre que renormalisée, elle converge vers un processus continu de type processus zigzag.

$anchor$ Lors de mon séjour au LMV, des discussions avec Mariane Pelletier m'ont donné la curiosité de me pencher sur une autre structure récursive naturelle: les algorithmes de gradient. Pour calculer un minimum ou un zéro de fonction, lorsque la fonction a de nombreux minima locaux proches les uns des autres, les algorithmes déterministes risquent de rester piégés. De plus, très souvent en modélisation, la fonction dont on cherche un zéro ou un minimum n’est connue qu’à une perturbation près. Les algorithmes stochastiques sont des estimateurs particulièrement bien adaptés en grande dimension. Mon premier article sur les algorithmes stochastiques utilise des outils développés pendant ma thèse pour établir la convergence des moments de tout ordre dans le TLCPS [2].

$anchor$ J'ai ensuite utilisé de tels algorithmes dans différents contextes: estimation de courbe médiane, de médiane conditionnelle, minimisation de risque sous contrainte en assurance, classification non-supervisée. Une fois encore les martingales sont bien adaptées à ces structures récursives et sont des outils précieux pour obtenir le comportement asymptotique des algorithmes.

$anchor$ Avec Hervé Cardot (IMB, Université de Bourgogne) et Pierre-André Zitt (LAMA, Université Paris-Est), nous avons proposé un algorithme séquentiel extrêmement rapide de type gradient stochastique pour estimer la médiane géométrique. La médiane géométrique est une extension naturelle de la médiane pour des vecteurs aléatoires à valeurs dans des espaces vectoriels normés. La médiane géométrique est, contrairement à la moyenne, robuste et donc peu sensible aux points atypiques. Il est généralement difficile de détecter de tels points lorsqu'on dispose de grands échantillons de variables à valeurs dans des espaces de grande dimension ou de dimension infinie.

$anchor$ Avec Hervé Cardot et Jean-Marie Monnez (Institut Elie Cartan, Université de Lorraine), nous avons ensuite développé une extension directe de cet algorithme pour la classification non supervisée en introduisant un critère de type $k$-médianes. Cet algorithme peut s'interpréter comme une variante des $k$-means (à la MacQueen).

$anchor$ Tous les articles autour de la médiane sont illustrés sur des courbes d'audience relevées seconde par seconde par Médiamétrie au cours d'une journée.

$anchor$ En collaboration avec Clémentine Prieur (LJK, Université Joseph Fourier) et Véronique Maume-Deschamps (ISFA, Université de Lyon 1), nous avons utilisé un algorithme stochastique pour estimer le minimum de certains indicateurs de risque, sous contrainte d'un capital initial fixé à partager entre les différentes filiales d'une assurance. Nous considérons des indicateurs de risque de processus vectoriels qui prennent en compte des dépendance entre les filiales ainsi que certaines dépendances temporelles. Cette minimisation correspond à une allocation de réserve optimale.

$anchor$ Enfin, en continuité avec le dernier chapitre de ma thèse sur le théorème de la limite centrale presque-sûr, nous avons démontré avec Khalifa Es-Sebaiy (ENSA de Marrakech, Université Cadi Ayyad) que la suite des estimateurs des moindres carrés du paramètre d’un processus d’Ornstein-Uhlenbeck fractionnaire satisfait le TLCPS. Nous avons considéré le cas d'une observation du processus à temps continu aussi bien qu'une observation discrétisée.

$anchor$ La première partie de ce mémoire porte sur la modélisation de séquences, les chaînes de Markov à mémoire variable ainsi que les arbres et marches aléatoires associés. Elle rassemble les travaux [133, 19, 23, 24, 21, 28]. La seconde partie est consacrée aux algorithmes stochastiques des articles [39, 20, 25, 26, 30, 32]. Enfin la dernière partie traite du TLCPS en rassemblant les papiers [6, 106, 2, 27].

Liste des travaux présentés

Articles dans des revues avec comité de lecture

[2]

Cénac, P.

On the convergence of moments in the almost sure central limit theorem for stochastic approximation algorithms

ESAIM Probability and Statistics, 17:179-194, 2013.

[6]

Bercu, B. and Cénac, P. and Fayolle, G.

On the Almost Sure Central Limit Theorem for Vector Martingales: Convergence of Moments and Statistical Applications

Journal of Applied Probability, 46:151-169, 2009.

[19]

Cénac, P. and Chauvin, B. and Herrmann, S. and Vallois, P.

Persistent random walks, variable length Markov chains and piecewise deterministic Markov processes

Markov Processes and Related Fields, 19(1):1-50, 2013.

[20]

Cardot, H. and Cénac, P. and Monnez, J-M.

A fast and recursive algorithm for clustering large datasets with $k$-medians

Computational Statistics & Data Analysis, 56(6):1434-1449, 2012.

[21]

Cénac, P. and Chauvin, B. and Pouyanne, N. and Ginouillac, S.

Digital Search Trees and Chaos Game Representation

ESAIM Probability and Statistics, 13:15-37, 2009.

[23]

Cénac, P. and Chauvin, B. and Paccaut, F. and Pouyanne, N.

Context trees, variable length Markov chains and dynamical sources

Séminaire de Probabilités, XLIV, 2012.

[24]

Cénac, P. and Chauvin, B. and Paccaut, F. and Pouyanne, N.

Uncommon Suffix Tries

A paraître dans Random Structures and Algorithms, 2013.

[25]

Cardot, H. and Cénac, P. and Zitt, P-A.

Efficient and fast estimation of the geometric median in Hilbert spaces with an averaged stochastic gradient algorithm.

Bernoulli, 19(1):18--43, 2013.

[26]

Cardot, H. and Cénac, P. and Zitt,P.-A.

Recursive estimation of the conditional geometric median in Hilbert spaces

Electron. J. Statist., 6:2535-2562, 2012.

[32]

Cénac, P. and Maume-Deschamps, V. and Prieur, C.

Some multivariate risk indicators; Minimization by using a Kiefer-Wolfowitz approach to the mirror stochastic algorithm

Statistics and Risk Modeling, 29:47-71, 2012.

[106]

Cénac, P.

Almost sure properties of Weighted Martingales Transforms with applications to Prediction for Linear Regression Models

Probability and Mathematical Statistics, 23(1):61-76, 2003.

[133]

Cénac, P.

Test on the Structure of Biological Sequences via Chaos Game Representation

Statistical Applications in Genetics and Molecular Biology, 4(1), 2005. 34 pages.

Acte de congrès

[39]

Cardot, H. and Cénac, P. and Chaouch, M.

Stochastic approximation to the multivariate and the functional median

COMPSTAT 2010, , Paris, France., 2010.

Articles soumis

[27]

Cénac, P. and Es-Sebaiy, K.

Almost sure central limit theorems for random ratios and applications to LSE for fractional Ornstein-Uhlenbeck processes

Non encore publié. 15 pages.

[30]

Cénac, P. and Loisel, S. and Maume-Deschamps, V. and Prieur, C.

Risk Indicators with several lines of business: comparison, asymptotic behavior and applications to optimal reserve allocation

Non encore publié. 21 pages.

Rapports de recherche

[28]

Cénac, P. and Fayolle, G. and Lasgouttes, J.-M.

Dynamical Systems in the Analysis of Biological Sequences

Rapport de recherche INRIA, 5351, 2004. 47 pages.

Thèse

[135]

Cénac, P.

Etude statistique de séquences biologiques et convergence de martingales

Phd thesis, Université Toulouse III, 2006.