Partie 1 Introduction▲
À propos de ce document▲
Ce document a pour objet de fournir une introduction à l'utilisation du logiciel libre de traitement de données et d'analyse statistique R. Il se veut le plus accessible possible, y compris pour ceux qui ne sont pas particulièrement familiers avec l'informatique.
Conventions typographiques▲
Ce document suit un certain nombre de conventions typographiques visant à en faciliter la lecture.
Ainsi les noms de logiciel et d'extensions sont indiqués en caractères sans empattement (R, SAS, Linux, rgrs, ade4…). Les noms de fichiers sont imprimés avec une police à chasse fixe (test.R, data.txt…), tout comme les fonctions R (summary, mean, <-…).
Lorsque l'on présente des commandes saisies sous R et leur résultat, la commande saisie est indiquée avec une police à chasse fixe bleu foncé précédée de l'invite de commande R> :
R>
summary
(rnorm
(100
))
Le résultat de la commande tel qu'affiché par R est indiqué dans une police à chasse fixe inclinée rouge foncé :
Min. 1st Qu. Median Mean 3rd Qu. Max.
-
2.75600
-
0.64300
-
0.09227
-
0.18050
0.41170
2.01900
Lorsque la commande R est trop longue et répartie sur plusieurs lignes, les lignes suivantes sont précédées du symbole + :
R>
coo <-
scatterutil.base(dfxy =
dfxy, xax =
xax, yax =
yax,
+
xlim
=
xlim
, ylim
=
ylim
, grid
=
grid
, addaxes =
addaxes,
+
cgrid =
cgrid, include.origin =
include.origin)
Présentation de R▲
R est un langage orienté vers le traitement de données et l'analyse statistique dérivé du langage S.
Il est développé depuis plus de 10 ans par un groupe de volontaires de différents pays. C'est un logiciel libre(1), publié sous licence GNU GPL.
L'utilisation de R présente plusieurs avantages :
- c'est un logiciel multiplate-forme, qui fonctionne aussi bien sur des systèmes Linux, Mac OS X ou Windows ;
- c'est un logiciel libre, développé par ses utilisateurs et modifiable par tout un chacun ;
- c'est un logiciel gratuit ;
- c'est un logiciel très puissant, dont les fonctionnalités de base peuvent être étendues à l'aide d'extensions(2) ;
- c'est un logiciel dont le développement est très actif et dont la communauté d'utilisateurs ne cesse de s'élargir ;
- c'est un logiciel avec d'excellentes capacités graphiques.
Comme rien n'est parfait, on peut également trouver quelques inconvénients :
- le logiciel, la documentation de référence et les principales ressources sont en anglais. Il est toutefois parfaitement possible d'utiliser R sans spécialement maîtriser cette langue ;
- par son mode de fonctionnement, R charge normalement l'intégralité des données traitées en mémoire. Il nécessite donc une machine relativement puissante pour travailler sur des grosses enquêtes de plusieurs milliers d'individus ;
- il n'existe pas encore d'interface graphique pour R équivalente à celle d'autres logiciels comme SPSS ou Modalisa. R fonctionne à l'aide de scripts (des petits programmes) édités et exécutés au fur et à mesure de l'analyse, et se rapprocherait davantage de SAS dans son utilisation (mais avec une syntaxe et une philosophie très différentes).
À noter que ce dernier point, qui peut apparaître comme un gros handicap, s'avère après un temps d'apprentissage être un mode d'utilisation d'une grande souplesse.
Philosophie de R▲
Deux points particuliers dans le fonctionnement de R peuvent parfois dérouter les utilisateurs habitués à d'autres logiciels :
- sous R, en général, on ne voit pas les données sur lesquelles on travaille ; on ne dispose pas en permanence d'une vue des données sous forme de tableau, comme sous Modalisa ou SPSS. Ceci peut être déroutant au début, mais on se rend vite compte que l'on n'a pas besoin de voir en permanence les données pour les analyser ;
- avec les autres logiciels, en général la production d'une analyse génère un grand nombre de résultats de toutes sortes dans lesquels l'utilisateur est censé retrouver et isoler ceux qui l'intéressent. Avec R, c'est l'inverse : par défaut l'affichage est réduit au minimum, et c'est l'utilisateur qui demande à voir des résultats supplémentaires ou plus détaillés.
Inhabituel au début, ce fonctionnement permet en fait, assez rapidement, de gagner du temps dans la conduite des analyses.