Jerome Saracco

Jérôme SARACCO

Statisticien (Professeur des Universités, Institut Polytechnique de Bordeaux)

Ecole Nationale Supérieure de Cognitique (ENSC Bordeaux INP)

Institut de Mathématiques de Bordeaux, UMR CNRS 5251, équipe OptimAl

Inria Bordeaux Sud Ouest, équipe CQFD

Email : jerome.saracco« @ »ensc.fr / jerome.saracco« @ »inria.fr

  1. Package R edrGraphicalTools, qui permet d’estimer des modèles semiparamétriques de régression avec des approches de type SIR, ainsi que de faire de la sélection de variables dans ces modèles. La version sur le CRAN est disponible ici.
  2. Package R PCAmixdata, qui permet de faire de la statistique multidimensionnelle (ACP, ACM, AFM) sur des données mixtes, ainsi que la rotation des axes factoriels pour une meilleure interprétation. La version sur le CRAN est disponible ici. La version en cours de développement sur github est disponible ici.
  3. Package R ClustOfVar, qui permet de faire de la classification de variables. La version sur le CRAN est disponible ici. La version en cours de développement sur github est disponible ici.
  4. Package R QuantifQuantile, qui permet de faire de l’estimation non-paramétrique de quantiles conditionnels avec des outils de quantification optimale. La version sur le CRAN est disponible ici.
  5. Packages R ClustGeo qui permet de faire de la classification d’individus géolocalisés en prenant en compte leurs proximités géographiques et leurs proximités statistiques au vu des variables qui ont été mesurées sur ces individus. La version sur le CRAN est disponible ici. La version en cours de développement sur github est disponible ici.
  6. Package R modvarsel qui propose une méthodologie permettant de choisir parmi plusieurs modèles de régression le meilleur afin de prédire une variable quantitative et de sélectionner simultanément les prédicteurs les plus pertinents dans le modèle correspondant. Un approche par échantillons test/apprentissage est utilisé pour déterminer le meilleur modèle au sens du MSE (mean square error) incluant ou pas la sélection de variables qui repose sur une approche computationnelle de mesure d’importance des variables. Les modèles de régression (et méthodes d’estimation associées) disponibles dans le package sont actuellement : multiple linear regression, SIR regression associated with kernel estimation of the link function, Random regression Forests, principal components regression, partial least squares regression and ridge regression. La version en cours de développement sur github est disponible ici.
  7. Package R ddsPLS (pour data driven sparse PLS)qui propose des approches (basées sur des SVD)  permettant de traiter des données multi-blocs dans un contexte supervisé (régression ou classification)  en faisant de la sélection de variables (aussi bien dans les blocs explicatifs que dans le bloc à expliquer). La version sur le CRAN est disponible ici. La version en cours de développement sur github est disponible ici.
  8. Package pyhton py_ddspls, version du package R précédent. La version en cours de développement sur github est disponible ici.