Presentation

This PhD thesis was made at INRIA, in project-team PREVAL, and defended on June, 13th 2006 at Université Paul Sabatier Toulouse III.

Title of the thesis:

«Étude statistique de séquences biologiques et convergence de martingales»

Composition du jury
Bernard BERCU (Université Paul Sabatier),Directeur
Guy FAYOLLE (INRIA, Rocquencourt),Directeur
Philippe FLAJOLET (INRIA, Rocquencourt),Président
Fabrice GAMBOA (Université Paul Sabatier),Examinateur
Didier PIAU (Université Joseph Fourier),Rapporteur
Alexander TSYBAKOV (Université Pierre et Marie Curie),Rapporteur
Document

The document of the thesis is available:

Abstracts of chapters

Sorry, this part is in french only.

Représentation de séquences biologiques

Le développement actuel de la génétique et l'accélération des programmes de séquençage d'organismes biologiques stimulent une recherche très active sur l'analyse de séquences d'ADN. Il en découle des besoins importants de représentation et de stockage, en particulier pour faciliter la reconnaissance de motifs et détecter des similarités locales ou globales.

C'est dans ce contexte que peut être utilisée la Chaos Game Representation (CGR); la CGR est un système dynamique qui, à une séquence de lettres dans un alphabet fini, fait correspondre une trajectoire dans un espace continu, voire une mesure empirique sur un ensemble. Comment utiliser une telle mesure pour comparer deux séquences biologiques de façon pertinente ? Quel est le gain d'information de la CGR par rapport aux méthodes classiques basées sur les comptages de mots ?

Si la séquence à analyser est stationnaire, quel que soit son ordre de dépendance, alors la suite des points issus de la CGR est une chaîne de Markov d'ordre un. À partir de propriétés sur la mesure invariante des points de la CGR, il est possible de déterminer la structure de la séquence elle-même. Cette caractérisation m'a permis de construire une famille de tests pour déterminer l'ordre d'une chaîne de Markov homogène. Les zones de rejet sont basées sur des partitions de l'espace d'arrivée de la CGR, et les statistiques utilisées ne font pas obligatoirement intervenir le comptage de mots. Le modèle déterminé pourra par exemple servir de référence pour juger de la pertinence des écarts à une situation moyenne, pour trouver des mots de fréquences «exceptionnelles» dans une séquence biologique.

On propose également une généralisation, au moyen de la CGR, de la notion de profils d'abondance relative de dinucléotides, utilisés pour définir une signature génomique . On souligne les performances de la CGR pour classifier des espèces et construire des arbres taxonomiques par rapport aux techniques précédentes à base de comptage de mots.

Arbre digital de recherche

À partir de la propriété de la CGR permettant de visualiser les fréquences de tous les suffixes d'une séquence d'ADN, il est naturel de lui associer un arbre quaternaire, dont la construction permet également de grouper ces répétitions de suffixes. Plus précisément, à partir d'une séquence de lettres, on construit un arbre digital de recherche (Digital Search Tree ou DST ) par insertions successives des préfixes retournés de la séquence. L'arbre avec étiquettes numérotées est équivalent à la CGR, tandis que la donnée d'un arbre sans étiquette est équivalente à une liste non ordonnée de mots présents dans la séquence.

Bien que la construction de ces arbres soit inspirée de la CGR, ils peuvent néanmoins être obtenus directement à partir de la séquence. Cette construction est motivée par la volonté de mesurer de nouvelles quantités statistiques, cachées dans la séquence mais visibles sur l'arbre, afin de dégager de nouvelles caractéristiques pour une loi de génération donnée.

Plusieurs résultats sont connus sur la hauteur, la profondeur d'insertion et le profil, pour des DST construits sur des suites de séquences indépendantes, générées par une source émettant des tirages indépendants et de même loi ( i.i.d.).

En particulier, pour le modèle de Bernoulli, la littérature est abondante. Cependant, si les DST sont construits sur des séquences, émises par des sources indépendantes et identiquement distribuées mais biaisées ou markoviennes, seul Pittel (1985) obtient des résultats de convergence sur la profondeur d'insertion et sur la hauteur.

Nous montrons que la différence de comportement asymptotique entre les arbres-CGR et les DST classiques construits à partir de séquences markoviennes n'est pas visible au premier ordre.

Les méthodes utilisées font appel aux temps d'apparition de première occurence d'un mot dans une séquence (en tenant compte des périodes de mots, des recouvrements), au jeu de Penney, aux travaux de Daudin et Robin (1999).

Propriétés presque sûres de martingales

On propose dans de nouvelles propriétés asymptotiques presque sûres pour les moments de transformées de martingales vectorielles. En particulier, on montre que sous des conditions de moment appropriées, il y a convergence des moments de tout ordre dans le théorème de la limite centrale presque sûr (TLCPS) pour les transformées de martingales vectorielles. On établit ainsi des résultats de convergence sur les erreurs d'estimation et de prédiction cumulées, associées à certains modèles de regression comme les modèles autorégressifs linéaires et les processus de branchement avec immigration.