Parcours Biostatistique  (Affiche)

 

Responsable : Benoîte de Saporta <benoite.de-saporta_AT_univ-montp2.fr> (remplacer  _AT_ par @)

Les inscriptions sont ouvertes jusqu'au 24 juillet sur e-candidat

Secrétariat M1 : Eric Hugounenq <eric.hugounenq_AT_umontpellier.fr>

Réunion de rentrée du M1 : lundi 3 septembre 2018, 9h, salle 9.02

Début des cours le mercredi 5 septembre à 8h

Secrétariat M2 : Laurence Roux <laurence.roux_AT_umontpellier.fr>

Réunion de rentrée du M2  : lundi 3 septembre 2018, 10h, salle 9.03

Début des cours le mercredi 5 septembre à 8h

Ce parcours s'adresse à des étudiant-e-s titulaires d'une licence de mathématiques ou équivalent.

Objectifs : L'ambition du parcours est de répondre aux attentes des étudiant-e-s intéressé-e-s par la statistique et l'aléatoire dans les domaines appliqué et théorique. Les aspects statistiques abordés dans ce parcours vont de la modélisation du vivant jusqu'aux problématiques les plus théoriques de la statistique et de la modélisation stochastique. Deux objectifs sont visés par la formation.

  • Le premier est de former des chercheuses et chercheurs ou enseignants-chercheurs et enseignantes-chercheuses dans le domaine des probabilités ou de la statistique théorique ou appliquée. Elles ou ils pourront ensuite intégrer, après un doctorat, des laboratoires dans les universités, les grandes écoles d'ingénieurs ou les organismes de recherche, tels le CNRS, l'INRA, le CIRAD, l'INSERM, ... Il est aussi possible d'intégrer, directement après le M2, une entreprise ou un laboratoire de recherche.
  • Le deuxième objectif est de former des statisticien-ne-s de haut niveau pour des organismes de recherche ou des entreprises, en particulier les laboratoires pharmaceutiques, pour lesquels la statistique est un outil indispensable.

Cette formation bénéficie du soutien du labex Numev. Nous offrons la possibilité d'un double diplôme avec l'Université de Sherbrooke au Canada.

Débouchés : Types d’emplois accessibles

  • biostatisticien-ne
  • chercheur-euse
  • enseignant-e chercheur-euse
  • ingénieur-e d’étude statisticien-ne

dans les secteurs

  • recherche et/ou enseignement public ou privé
  • secteur recherche et développement des grands organismes ou entreprises
  • établissements publics de recherche (CNRS, INRA, CIRAD, INSERM,…)
  • laboratoires pharmaceutiques
  • entreprises ou instituts techniques du secteur agronomique
  • entreprises de cosmétologie
  • sociétés de service...

M1

Premier Semestre - Intitulé

ECTS

Volume horaire

Code Apogée

Introduction aux théories de l'information et de la décision

2,5

10,5h C + 10,5h TD

HMMA101

Statistique inférentielle

7,5

30h C + 30h TD

HMMA102

Processus stochastiques

7,5

30h C + 30h TD

HMMA103

Maths numériques

5

15h C + 24h TP

HMMA105

Analyse des données multidimensionnelles

5

21h C + 21h TD

HMMA127

Modèles de durée et fiabilité

2,5 10,5h C + 10,5h TD  HMMA128

 

Deuxième Semestre - Intitulé

ECTS

Volume horaire

Code Apogée

Modèle linéaire

5

21h C + 21h TD

HMMA201

Séries temporelles

5

21h C + 21h TD

HMMA205

Introduction à l’épidémiologie

2,5 10,5h C + 10,5h TD HMMA208

Statistique des durées de vie avancées

2,5

10,5h C + 10,5h TD

HMMA236

Séries temporelles avancées

2,5

10,5h C + 10,5h TD

HMMA237

Développement logiciel

7,5

27h C + 31,5h TP

HMMA238

Projet

5

 

HMMA210

 

M2

Troisième Semestre - Intitulé

ECTS

Volume horaire

Code Apogée

Modèles paramétriques avancés

5

21h C

HMMA301

Modèles linéaires avancés

5

21h C

HMMA307

Apprentissage statistique

5

21h C

HMMA308

Estimation fonctionnelle

5

21h C

HMMA309

Statistique bayésienne

5

21h C

HMMA310

Processus en temps continu

5

21h C

HMMA312

 

Quatrième Semestre - 3UE au choix + stage

ECTS

Volume horaire

Code Apogée

Analyse des séquences biologiques

5

21h C

HMMA412

Statistique pour l’environnement

5

21h C

HMMA413

Modélisation en écologie

5

21h C

HMMA414

Modélisation en génétique des populations

5

21h C

HMMA415

Statistique bio-médicale

5

21h C

HMMA416

Stage

15

 

HMMA411

 

Description des cours de M1


Introduction aux théories de l'information et de la décision, enseignants 2018-2019 Xavier Bry, Jean-Michel Marin

1) Théorie de l'information
Information et Codage - Entropie de Shannon - Entropies conditionnelle et mutuelle. Contrastes et métriques d'information.
2) Théorie de la décision:
Formalisation du problème de décision: règle de décision déterministe ou mixte, pertes et risques.
Qualités d'une règle de décision: décision sans biais, convergente, optimale.

3) Au confluent des deux théories: pseudo-vraie loi des observations au sein d'un modèle, estimation du chi2-minimum...


Statistique inférentielle, enseignants 2018-2019 Xavier Bry, Gilles Ducharme

Modèles statistique ; log-vraisemblance et information de Fisher, Modèles exponentiels.
Estimation ponctuelle : estimateur exhaustif, sans biais à variance minimale, borne de Cramer-Rao, Améliorée de Rao-Blackwell, Théorène de Lehmann.
Tests d’hypothèses : test UPP, type d’erreur, Lemme de Neyman-Pearson, Théorème de Lehmann, test UPP sans biais.
Intervalle de Confiance : approches ad hoc ; approche en inversant un test d’hypothèses.

Méthode des moments, méthode du maximum de vraisemblance. Propriétés asymptotique de ces estimateurs. Utilisation de celles-ci pour obtenir des régions de confiance asymptotique.
Tests de Wald, de Rao et du rapport de vraisemblance dans le cas d’hypothèses nulles simple et composites. Quelques applications.
Quelques propriétés de la fonction de réparitition empirique.
Robustesse : Estimateurs basés sur les quantiles empiriques, estimateurs L et R. Comportement asymptotique.


Processus stochastiques, enseignante 2018-2019 Benoîte de Saporta

1) Généralités sur les processus, filtrations, temps d'arrêt
2) Espérance conditionnelle
3) Chaînes de Markov à temps discret
4) Martingales à temps discret
5) Applications


Développement logiciel, enseignants 2018-2019 Mathieu Ribatet, Joseph Salmon

Partie développement logiciel

1) Introduction:
- La problématique du développement logiciel: besoins, fonctionnalités,problèmes.
- Étapes du développement logiciel: analyse des besoins, conception
(modélisation), construction, tests, maintenance, portage. Évolution et
intégration continue. Développement collaboratif.
2) Notions de base en architecture logicielle: couches logicielles & spécifications.

Partie programmation R et SAS

1)La programmation:
- algorithmes, modules, tests.
- variables, vecteurs, tableaux, listes.
- fonctions, conditions, boucles.
- objets
- interprétation & compilation
- librairies dynamiques
2) Principes et pratique du débogage.
3) Gestion des versions
4) Documentation
5) Environnements de développement intégré.


Maths numériques, enseignant 2018-2019 Benjamin Charlier

analyse hilbertienne, analyse de Fourrier et introduction à la théorie du signal et au traitement d'image


Modèle linéaire, enseignant 2018-2019 Lionel Cucala

1) Introduction aux modèles avec covariables

2) Le modèle linéaire ordinaire: aspects géométriques
- Hypothèses, formulation et interprétation des coefficients
- Estimateurs des moindres carrés ordinaires
- Théorème de Gauss-Markov
- Théorème de Frish-Waugh
- Estimateur sous contrainte linéaire sur les coefficients.
- Quelques avatars du modèle général : modèle avec interactions, modèles d'ANOVA.
3) Le modèle linéaire gaussien ordinaire: aspects inférentiels
- Loi des estimateurs
- Tests sur les coefficients: Student, Fisher, Wald, Rapport des maxima de vraisemblance.
Application aux modèles avec interaction et aux modèles d'ANOVA.
- Tests d'une hypothèse linéaire sur les coefficients.
- Prédiction
4) Diagnostics et corrections du modèle ordinaire
- Diagnostics et tests d'hétéroscédasticité; corrections.
- Diagnostics de non-linéarité et corrections.
- Tests d'hétérogénéité et observations atypiques; corrections.
5) Le modèle linéaire général.
- Le modèle
- La forme sphéricisée
- Estimateurs des moindres carrés généralisés
- Lois des estimateurs
- Tests
- Prédiction
6) Estimations régularisées (Ridge, Lasso)


Analyse des données multidimensionnelles, enseignant 2018-2019 Xavier Bry

1) Rappels de statistique bivariée:
- corrélations linéaires et de rang,
- correspondances
- analyse de variance.
- Insuffisances de la statistique bivariée.
2) Traduction d'un tableau de données en espaces métriques
- Nuages de points: nuage direct et nuage dual
- Inerties
3) Classification automatique
- Problématique de la classification
- Classification conceptuelle: treillis de Galois
- Classification en espace métrique:
Hiérarchies de partitions
Partition localement optimale: K-means
Classification ascendante hiérarchique
Classification mixte
Interprétation d'une partition
Classification descendante: segmentation
4) Analyse factorielle d'un groupe de variables
- Variables quantitatives: ACP réduite
- Formalisme général de l'ACP
- Variables qualitatives: Analyses des correspondances
Correspondances binaires
Correspondances non-symétriques
Correspondances multiples
- Variables mixtes: ACP mixte
5) Analyse factorielle des liaisons entre deux groupes de variables
- Critère et programme générique, solution et propriétés générales
- Analyse canonique
- Analyse discriminante linéaire
- Analyse des redondances maximales / ACPVI
- Analyse discriminante PLS
- Analyse inter-batteries et analyse/régression PLS
- Analyses de co-inertie
6) Analyses multi-tableaux élémentaires
- Critère et programme générique, solution et propriétés générales
- Analyse canonique généralisée
- Analyse Factorielle Multiple


Statistique des durées de vie, enseignante 2018-2019 Elodie Brunel

I - Description des données de survie.
1) Observation incomplète : censures à droite, à gauche, par intervalles.
2) Fonctions de survie et de risque instantané.
3) Caractéristiques : temps médian, temps moyen.
4) Estimation nonparamétrique d'une fonction de survie : estimateurs de Kaplan-Meier et de Nelson-Ålen.
5) Gestion de la censure à gauche et par intervalles.
6) Estimation non-paramétrique d'une matrice de transition markovienne.
II - Modélisation :
1) Modèles paramétriques de durée de vie.
2) Modèle semi-paramétrique de Cox.
3) Modélisation semiparamétrique d'une matrice de transition markovienne


Introduction à l’épidémiologie, enseignant-e-s 2018-2019 Isabelle Carrière, Hugues Chevassus, Joanna Norton

- construire et interpréter les indicateurs épidémiologiques
- construire et interpréter les indicateurs d'association entre un facteur de risque et un problème de santé, selon le type d'enquête,
- définir les phénomènes de confusion et en tenir compte dans une analyse multivariée,
- analyser des phénomènes de santé avec des modèles de simulation.


 Processus : modèles et inférence, enseignants 2018-2019 Ali Gannoun, Mathieu Ribatet, Joseph Salmon

Processus à temps discret, à espace d'états discret ou continu. Chaînes de Markov, semi-Markov, Martingales, séries chronologiques : les caractéristiques et leur estimation.


 Projet

Étude d’un ou plusieurs problèmes réels ou académiques issus de recherches effectuées à l’Université de Montpellier, recherche bibliographique et résolution du problème. Le projet donne lieu à un rapport et une soutenance.


 

Description des cours de M2


 Modèles paramétriques avancés, enseignant 2018-2019 Gilles Ducharme

Ce cours présente les techniques avancées pour l'analyse des durées de vie censurées et tronquées. L'accent sera mis sur les applications en biologie et en santé. Il fait suite et complète le cours de M1 où les outils de base ont été présentés. Le contenu est le suivant :

I) Modélisations de base (rappels de M1)
• les fonctions d'intérêt : fonction de survie, fonction de risque instantané et cumulé, moyenne de vie résiduelle, médiane de survie.
• Quelques modèles paramétriques univariés.
• Modèles de régression.
• Risques compétitifs.


II) Echantillonnage avec censure et troncature
• censure à droite, à gauche et par intervalle.
• Troncature.
• Exemples de jeux de données réelles
• construction de la vraisemblance dans les modèles d'échantillonnage avec censure et troncature.
• Processus de comptage


III) Estimation non-paramétrique pour des données tronquées et/ou censurées
• estimation de la survie et de la fonction de risque cumulé pour des données censurées.
• Intervalles/bandes de confiance.
• estimation de la survie pour des données censurées à droite et tronquées à gauche,
avec risque compétitifs.


IV) Modèles à risque proportionnel
• modèles de régression semi-paramétriques pour des covariables fixes.
• Covariables dépendant du temps.
• Modèles stratifiés.
• Analyse de résidus de régression (cas du modèle de Cox)


V) Modèles de régression additive
• modèles non-paramétrique de Aalen.
• modèles de régression paramétrique (Weibull, log-logistique).
• modèles de fragilité.

Références
Survival Analysis: Techniques for Censored and Truncated Data. J. P. Klein, M. L. Moeschberger, Springer, 2nd édition, 2003.
Applied Survival Analysis. D. W. Hosmer, S. Lemeshow, John Wiley & Sons, 2008.


Modèles linéaires avancés, enseignantes 2018-2019 Catherine Trottier, Marie Denis

Modèles linéaires et linéaires généralisés sont des bases incontournables pour la modélisation dans des domaines variés comme la médecine, l'écologie, la génétique, l'agronomie ou encore les sciences de l’ingénieur… Néanmoins, ils présentent des limites liées à l’hypothèse d’échantillon indépendant. La prise en compte d’une dépendance entre les unités statistiques s’avère souvent nécessaire. Parmi les modélisations possibles de cette dépendance, l’introduction d’effets aléatoires est maintenant répandue. L'objectif de ce cours est de présenter le sens de ces effets aléatoires, puis l’extension des modèles linéaires aux modèles linéaires mixtes. Nous aborderons les questions d’estimation des paramètres d’effet fixe comme ceux de variance au sein de ces modèles. Nous les mettrons en œuvre sur différents cas pratiques à l’aide du package lme4 du logiciel R. Enfin nous envisagerons également l’introduction des effets aléatoires dans les modèles linéaires généralisés.

Références

Searle, S.R.; Casella, G. and McCulloch, C.E. (1992). Variance components, Wiley Series in Probability and Statistics.

Journal of Société Française de Statistique (2002) Special Number on Modèles Mixtes et Biométrie. Vol.143 - No 1-2

Bates D.M. (2010). lme4: Mixed-effects modeling, with R, Springer, http://lme4.r-forge.r-project.org/book/
Pinheiro, J. C., and Bates, D. (2000), Mixed Effects Models in S and S-PLUS, New York: Springer.



 Apprentissage statistique, enseignant 2018-2019 Joseph Salmon, Nicolas Verzelen

Le but de ce cours est de parcourir les méthodes d’apprentissage (régression ou classification) en partant des modèles linéaires jusqu’aux méthodes de machine learning modernes comme la régression ridge, le Lasso et ses dérivés, SVM, CART, Random Forest ou AdaBoost. L’idée est de présenter aussi quelques techniques de sélection de modèles par validation ou validation croisée.

Une moitié du cours présente les méthodes, c’est-à-dire leurs principes et leurs mises en œuvre avec R. Une seconde moitié apporte un éclairage théorique sur les problèmes de classification (en particulier la théorie de Vapnik) et en sélection de modèles (fléau de la dimension, analyse du Lasso, du critère AIC).

Références

Giraud, C. (2014) Introduction to high-dimensional statistics. CRC Press

Hastie, T., Tibshirani, R., Friedman, J., Hastie, T., Friedman, J., & Tibshirani, R. (2009). The elements of statistical learning. Springer, New York.

Van der Vaart, A (2000) Asymptotic Statistics. Cambridge University  Press


 Estimation fonctionnelle, enseignants 2018-2019 Ali Gannoun, Lionel cucala

En utilisant uniquement des hypothèses de régularitée mathématique sur la nature des distributions des données, nous construisons des estimateurs dits ”non paramétriques” de la fonction de répartition, de la densité, de la densité conditionnelle, de la régression et de certains quantiles. Ces estimateurs sont flexibles et faciles à programmer et jouissent de plusieurs propriétés théoriques. Certains de ces estimateurs seront utilisés pour la construction de prédicteurs non paramétriques en vue de la prévisions de processus


Plan du cours:

  • ˆ Introduction (Fonction de répartition, histogramme, propriétés d’un estimateur)
  • Estimation d’une densité (méthode à noyau)
  • Régression non paramétrique (régresssogramme et méthode à noyau)
  • Aspects supplémentaires (traitement des bornes, estimation des dérivées, aspects multivariés)
  • Estimation de la médiane et du mode conditionnels
  • Application à la prévision des séries chronologiques

Références:
D. Bosq, J.P. Lecoutre (1991): Théorie de l’estimation fonctionnelle
J. Simono (1996): Smoothing Methods in Statistics
W. Härdle (1990): Smoothing Techniques, With Implementations in S
B. Silverman (1986): Density estimation for Statistics and Data Analysis
M. Wand, R. Jones (1995): Kernel smoothing
J. Fan, I. Gijbels (1996): Local Polynomial Modelling and Its Applications
R. Eubank (1988): Spline Smoothing and Nonparametric Regression


 Statistique bayésienne, enseignant-e-s 2018-2019 Christophe Abraham, Meïli Baragatti

Ce cours propose une exploration de la statistique bayésienne à travers les principes de bases et quelques modèles caractéristiques. Après une introduction à travers l'étude de modèles élémentaires (données binomiales, multinomiales et  normales), nous aborderons, dans une seconde leçon, le modèle linéaire et le facteur de Bayes. La 3e leçon sera consacrée au calcul bayésien et au diagnostic. Les dernières leçons seront consacrées à des modèles caractéristiques de la statistique bayésienne : sélection de variables, modèles de mélanges et classification par le processus de Dirichlet. Une séance sera consacrée à des applications pratique avec le logiciel R.


 Processus en temps continu, enseignants 2018-2019 Pierre Fernique, Yann Guédon

L’objectif ce cours est de donner les bases probabilistes, statistiques et algorithmiques nécessaires pour l’application de modèles stochastiques très largement utilisés en biologie (analyse du génome, de la dynamique de populations, du développement et de la structure des plantes …). Ces modèles stochastiques permettent notamment d’analyser des événements récurrents, d’identifier des motifs ou de détecter des zones homogènes et des ruptures dans des données structurées en séquences ou en arborescences.

(1) Processus stochastiques : L’objectif est ici de donner un point de vue cohérent sur les processus stochastiques en se basant sur les idées de théorie du renouvellement et de dépendance locale. Cela permet d’introduire alors différentes familles de modèles stochastiques, principalement à temps discret, très utilisés en biologie comme les chaînes de Markov d’ordre variable et les (semi-)chaînes de Markov cachées.

(2) Modèles graphiques probabilistes : Les modèles graphiques probabilistes sont un formalisme basé   sur les graphes pour représenter des indépendances conditionnelles dans des lois multivariées et plus généralement dans des processus stochastiques. Nous aborderons les modèles graphiques basés sur des graphes orientés et non-orientés et illustrerons cette approche par l’identification de modèles graphiques correspondant à des lois discrètes multivariées et par la représentation des structures d’indépendance conditionnelle dans des processus stochastiques pour données arborescences.

(3) Méthodes d’estimation pour modèles stochastiques partiellement observables : Du fait soit de mécanismes de censure (processus de renouvellement et processus semi markoviens), soit de la présence de variables non-observables (modèles markoviens cachés), se posent des problèmes d’estimation aux données incomplètes. Les méthodes d’estimation correspondantes sont alors introduites et notamment l’algorithme EM et ces variantes stochastiques (algorithme MCEM).

(4) Algorithmes pour modèles stochastiques à variables latentes : Les modèles intégrant des variables dépendantes non-observables comme les modèles markoviens cachés nécessitent d’utiliser une algorithmie spécifique (algorithmes de type filtrage/lissage et algorithmes de programmation dynamique) que ce soit pour l’estimation des paramètres du modèle ou la restauration des variables latentes.

Le cours est illustré par de nombreux exemples issus de différents champs de la biologie et en particulier de la biologie végétale avec l’analyse du développement et de la structure des plantes. Une large base d’exercices corrigés est disponible. Une séance de travaux pratiques permet d’appliquer les modèles et méthodes développés dans le cours.

Références:

Applebaum, D. (2008). Probability and Information: An Integrated Approach, 2ème édition. Cambridge : Cambridge University Press.

Barbu, V. S. & Limnios, N. (2008). Semi-Markov Chains and Hidden Semi-Markov Models toward Applications: Their Use in Reliability and DNA Analysis. New York : Springer.

Cappé, O., Moulines, E. & Ryden, T. (2005). Inference in Hidden Markov Models. New York : Springer.

Cover, T. M. & Thomas, J. A. (2006). Elements of Information Theory, 2ème édition. Hoboken, NJ : Wiley.

Durbin, R., Eddy, S. R., Krogh, A. & Mitchison, G. J. (1998). Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge : Cambridge University Press.

Frühwirth-Schnatter, S. (2006). Finite Mixture and Markov Switching Models. New York: Springer.

Guttorp, P. (1995). Stochastic Modeling of Scientific Data. London : Chapman & Hall.

Karlin, S. & Taylor H. M. (1975). A First Course in Stochastic Processes, 2ème édition. Academic Press.

Karlin, S. & Taylor, H. M. (1981). A Second Course in Stochastic Processes. Academic Press.

Koller, D. & Friedman N. (2009). Probabilistic graphical models: principles and techniques.

Cambridge, MA : MIT press.

Lauritzen, S. (1996). Graphical models. Oxford University Press.

Kulkarni, V. G. (1995). Modeling and Analysis of Stochastic Systems. London : Chapman & Hall.

Lindsey, J. K. (2004). Statistical Analysis of Stochastic Processes in Time. Cambridge : Cambridge University Press.

McLachlan, G. J. & Krishnan, T. (2008). The EM Algorithm and Extensions, 2ème édition. Hoboken, NJ : Wiley.

Zucchini, W. & MacDonald, I. L. (2009). Hidden Markov Models for Time Series: An Introduction Using R. Boca Raton, FL : Chapman & Hall/CRC.


 Analyse des séquences biologiques, enseignant-e-s 2018-2019 Laurent Bréhelin, Stéphane Guindon, Sophie Lèbre, Fabio Pardi

Les séquences biologiques (ADN, protéines) constituent une source d’information majeure sur le vivant. Avec les progrès de la génomique, elles sont aujourd’hui acquises à très bas coût et trouvent des applications dans de nombreux domaines en biologie moléculaire et cellulaire, santé, agronomie et environnement. Ce module présentera les modèles utilisés pour analyser ces séquences. On distinguera les modèles évolutifs "verticaux", basés sur des processus de Markov à temps continu, qui sont utilisés pour représenter l’évolution des séquences le long de l’arbre du vivant, et les modèles "horizontaux", basés sur des modèles de Markov discrets et des modèles de Markov cachés, destinés à représenter les séquences elles-mêmes et l’enchainement des caractères qu’elles contiennent.
Complémentaire de la génomique, la post-génomique étend l'observation du fonctionnement de la cellule à travers l'étude du transcriptome et du protéome. Il s'agit de savoir quand et dans quelles conditions un gène s'exprime, notamment pour enclencher la fabrication de protéines, et quelle est l'activité des protéines fabriquées. Les motifs présents dans la région promotrice d'un gène conditionnent la transcription de ce gène. Ce module présentera des méthodes statistiques pour l'identification de régulations géniques, en particulier par la détection de motifs au sein de régions promotrices (Modèles de Markov cachés) et l'inférence de réseaux de régulation à partir de données d’expression (Modèles graphiques et sélection de variables en grande dimension).
Le cours présentera le versant biologique, les modèles statistiques et les algorithmes permettant de les mettre en oeuvre.

Plan
1 Modèles probabilistes d'évolution des séquences biologiques

2 Inférence des phylogénies

3 Modèles de Markov cachés pour la détection de motifs

4 Modèles graphiques et inférence de réseaux de régulation génique


 Statistique pour l’environnement, enseignants 2018-2019 Lionel Cucala, Mathieu Ribatet

De nombreux phénomènes possédant un caractère aléatoire sont définis continûment dans l’espace, e.g. champs de précipitations ou de températures, présence ou non d'une espèce végétale… Nous sortons donc clairement du cadre classique de la modélisation de variables/vecteurs aléatoires pour nous intéresser à celui des fonctions aléatoires réelles définies sur des domanies de dimension plus grande que 1. Cette branche spécifique de la statistique est connue sous le nom de statistiques spatiales et l’objectif de ce cours sera d’en introduire ses fondements théoriques. Puisque bien souvent le but principal des statistiques spatiales relève de la prédiction en un point non renseigné, ce cours introduira les éléments fondamentaux de la prédiction spatiale et fera également la part belle aux applications. Afin de couvrir un large panel des statistiques spatiales, ce cours s’articulera autour de deux parties : les processus ponctuels et la géostatistique. De plus si le temps le permet, une ouverture vers la théorie des extrêmes spatiaux sera introduite. Lors de ce module, les thèmes suivants seront abordés :


Processus Ponctuels
• Exemples de jeux de données environnementales modélisables par des processus
ponctuels. Statistiques de résumé.
• Processus de Poisson homogènes et hétérogènes: méthodes d'estimation
paramétriques et non-paramétriques et de simulation.
• Processus de Cox: modélisation de l'attraction ou de la répulsion entre événements.
• Etude de cas pratique: la détection d'agrégats sur des données de cancer.


Géostatistiques
• Processus gaussiens et leur propriétés (stationarité, isotropie…)
• Notions de dépendance spatiale (fonction de covariance, variogramme, …)
• Estimation et prédiction
• Simulation non conditionnelle et conditionnelle
• Processus max-stable (si le temps le permet)


Références
J.P. Chilès, P. Delfiner, (1999) Geostatistics: Modelling Spatial Uncertainty, Wiley Series in Probability
and Mathematical Statistics
Diggle, P., Ribeiro, P., and Justiniano, P. (2007). Model-based Geostatistics. Springer Series in
Statistics
Möller, J. and Waagepetersen, R. (2004). Statistical Inference and Simulation for Spatial Point
Processes. CRC Press.

 


 Modélisation en écologie, enseignant-e-s 2018-2019 Bertrand Cloez, Benoîte de Saporta

Il s'agit d'introduire les processus stochastiques en temps continu comme outil de modélisation en écologie et dans les sciences de la vie en général. Les aspects analytiques sont introduits aussi bien que les outils de simulation de ces processus (techniques de Monte Carlo). Comme les processus de Markov de saut pur ont déjà été introduits au Master, ce cours se concentre sur l'intégrale et le calcul de Itô et sur les équations différentielles
stochastiques, Nous ferons également le lien avec les modèles classiques à base d'équations différentielles ordinaires.


Mots clefs: processus de Markov en temps continu, calcul stochastique, Monte Carlo, modélisation


Modélisation en génétique des populations, enseignants 2018-2019 Raphaël Leblois, Jean-Michel Marin, François Rousset

L'objectif de ce cours est de présenter les concepts de base de l'inférence des processus en génétique des populations. Pour cela on présente d'abord des rappels de génétique, puis on introduit quelques processus canoniques (modèle de Wright-Fisher, modèles de structuration des population, processus mutationnels des marqueurs génétiques) et leur méthodes d'analyse mathématique (coalescence, diffusion). Les méthodes classiques d'inférence fondées sur les probabilités d'identité de paires de gènes, et les développements plus récents (algorithmes pour le calcul de la vraisemblance, approximate Bayesian computation) sont développés sur ces bases. Des thématiques complémentaires (par exemple, détection des effets  de la sélection naturelle sur des marqueurs) peuvent être abordées à travers des analyses d'articles.


 Statistique bio-médicale, enseignant 2018-2019 Nicolas Molinari

1. Introduction aux données de la recherche clinique, aspects réglementaires et méthodologiques

2. Fonction de vraisemblance et applications aux données bio-médicales

3. Rappels sur les données de survie, modèles à risques compétitifs, test basé sur une U-statistique

4. Modèles d'analyse de données de fertilité

5. Diagnostic médical et courbes ROC comme application d'une U-statistique

6. Méta-analyses

7. Analyses de données ponctuelles d'une pathologie


 Stage de 4 à 6 mois en entreprise ou en laboratoire de recherche

Les stages donnent lieu à un rapport et une soutenance publique.