Annexe B Extensions▲
B.1 Présentation▲
L'installation par défaut du logiciel R contient le cœur du programme ainsi qu'un ensemble de fonctions de base fournissant un grand nombre d'outils de traitement de données et d'analyses statistiques.
R étant un logiciel libre, il bénéficie d'une forte communauté d'utilisateurs qui peuvent librement contribuer au développement du logiciel en lui ajoutant des fonctionnalités supplémentaires. Ces contributions prennent la forme d'extensions (packages) pouvant être installées par l'utilisateur et fournissant alors diverses fonctions supplémentaires.
Il existe un très grand nombre d'extensions (environ 1500 à ce jour), qui sont diffusées par un réseau baptisé CRAN (Comprehensive R Archive Network).
La liste de toutes les extensions disponibles sur le CRAN est disponible ici :
Pour faciliter un peu le repérage des extensions, il existe un ensemble de regroupements thématiques (économétrie, finance, génétique, données spatiales…) baptisés Task views :
On y trouve notamment une Task view dédiée aux sciences sociales, listant de nombreuses extensions potentiellement utiles pour les analyses statistiques dans ce champ disciplinaire :
B.2 Installation des extensions▲
Les interfaces graphiques sous Windows ou Mac OS X permettent la gestion des extensions par le biais de boîtes de dialogues (entrées du menu Packages sous Windows ? par exemple). Nous nous contenterons ici de décrire cette gestion via la console.
On notera cependant que l'installation et la mise à jour des extensions nécessitent d'être connecté à l'Internet.
L'installation d'une extension se fait par la fonction install.packages, à laquelle on fournit le nom de l'extension. Ici on souhaite installer l'extension ade4 :
install.packages
("ade4"
, dep=
TRUE
)
L'option dep=
TRUE
indique à R de télécharger et d'installer également toutes les extensions dont celle choisie dépend pour son fonctionnement.
En général R va alors vous demander de choisir un miroir depuis lequel récupérer les données nécessaires. Choisissez de préférence un miroir le plus proche possible de l'endroit où vous vous trouvez(40).
Une fois l'extension installée, elle peut être appelée depuis la console ou un fichier script avec la commande :
library
(ade4)
À partir de là, on peut utiliser les fonctions de l'extension, consulter leur page d'aide en ligne, accéder aux jeux de données qu'elle contient, etc.
Pour mettre à jour l'ensemble des extensions installées, une seule commande suffit :
update.packages
()
Si on souhaite désinstaller une extension précédemment installée, on peut utiliser la fonction remove.packages :
remove.packages
("ade4"
)
Il est important de bien comprendre la différence entre install.packages et library. La première va chercher les extensions sur l'Internet et les installe en local sur le disque dur de l'ordinateur. On n'a besoin d'effectuer cette opération qu'une seule fois. La seconde lit les informations de l'extension sur le disque dur et les met à disposition de R. On a besoin de l'exécuter à chaque début de session ou de script.
B.3 L'extension rgrs▲
rgrs est une extension pour R comprenant quelques fonctions potentiellement utiles pour l'utilisation du logiciel en sciences sociales. Pour l'instant elle comporte essentiellement des fonctions pour les tableaux croisés, l'export de résultats et pour le travail avec des fichiers issus de Modalisa(41).
B.3.1 Installation▲
L'installation nécessite d'avoir une connexion active à Internet. Depuis la version 0.2-6, l'extension est hébergée sur le CRAN (Comprehensive R Archive Network), le réseau officiel de diffusion des extensions de R. Elle est donc installable de manière très simple, comme n'importe quelle autre extension, par un simple :
install.packages
("rgrs"
,dep=
TRUE
)
L'extension s'utilise alors de manière classique grâce à l'instruction library en début de session ou de fichier R :
library
(rgrs)
À noter que l'extension n'est disponible que pour les versions les plus récentes de R. Ainsi, depuis la sortie de la version 2.8, elle n'est plus installable de la manière décrite précédemment pour les versions 2.7 de R. Il est alors conseillé de mettre son installation de R à jour.
B.3.2 Fonctions et utilisation▲
Pour plus de détails sur la liste des fonctions de l'extension et son utilisation, on pourra se reporter aux pages Web suivantes :
Un document PDF regroupant les pages d'aide en ligne de l'extension est notamment disponible :
Ainsi qu'une page décrivant plus particulièrement l'utilisation des fonctions facilitant l'importation et le traitement de données issues de Modalisa :
B.3.3 Le jeu de données hdv2003▲
L'extension rgrs contient plusieurs jeux de données (dataset) destinés à l'apprentissage de R.
hdv2003 est un extrait comportant 2000 individus et 20 variables provenant de l'enquête Histoire de Vie réalisée par l'Insee en 2003.
L'extrait est tiré du fichier détail mis à disposition librement (ainsi que de nombreux autres) par l'Insee à l'adresse suivante :
Les variables retenues ont été parfois partiellement recodées. La liste des variables est la suivante :
Variable |
Description |
---|---|
id |
Identifiant (numéro de ligne) |
poids |
Variable de pondération(42) |
age |
Âge |
sexe |
Sexe |
nivetud |
Niveau d'études atteint |
occup |
Occupation actuelle |
qualif |
Qualification de l'emploi actuel |
freres.soeurs |
Nombre total de frères, sœurs, demi-frères et demi-sœurs |
clso |
Sentiment d'appartenance à une classe sociale |
relig |
Pratique et croyance religieuse |
trav.imp |
Importance accordée au travail |
trav.satisf |
Satisfaction ou insatisfaction au travail |
hard.rock |
Écoute du Hard rock ou assimilés |
lecture.bd |
Lecture de bandes dessinées |
peche.chasse |
Pêche ou chasse pour le plaisir au cours des 12 derniers mois |
cuisine |
Cuisine pour le plaisir au cours des 12 derniers mois |
bricol |
Bricolage ou mécanique pour le plaisir au cours des 12 derniers mois |
cinema |
Cinéma au cours des 12 derniers mois |
sport |
Sport ou activité physique pour le plaisir au cours des 12 derniers mois |
heures.tv |
Nombre moyen d'heures passées à regarder la télévision par jour |
B.3.4 Le jeu de données rp99▲
rp99 est issu du recensement de la population de 1999 de l'INSEE. Il comporte une petite partie des résultats pour l'ensemble des communes du Rhône, soit 301 lignes et 21 colonnes La liste des variables est la suivante :
Variable |
Description |
---|---|
nom |
Nom de la commune |
code |
Code de la commune |
pop.act |
Population active |
pop.tot |
Population totale |
pop15 |
Population des 15 ans et plus |
nb.rp |
Nombre de résidences principales |
agric |
Part des agriculteurs dans la population active |
artis |
Part des artisans, commerçants et chefs d'entreprises |
cadres |
Part des cadres |
interm |
Part des professions intermédiaires |
empl |
Part des employés |
ouvr |
Part des ouvriers |
retr |
Part des retraités |
tx.chom |
Part des chômeurs |
etud |
Part des étudiants |
dipl.sup |
Part des diplômés du supérieur |
dipl.aucun |
Part des personnes sans diplôme |
proprio |
Part des propriétaires parmi les résidences principales |
hlm |
Part des logements HLM parmi les résidences principales |
locataire |
Part des locataires parmi les résidences principales |
maison |
Part des maisons parmi les résidences principales |