IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Cours complet pour apprendre R avec une pratique pour l'analyse de données sociologiques

Image non disponible R pour les sociologues (et assimilés)


précédentsommairesuivant

Annexe B Extensions

B.1 Présentation

L'installation par défaut du logiciel R contient le cœur du programme ainsi qu'un ensemble de fonctions de base fournissant un grand nombre d'outils de traitement de données et d'analyses statistiques.

R étant un logiciel libre, il bénéficie d'une forte communauté d'utilisateurs qui peuvent librement contribuer au développement du logiciel en lui ajoutant des fonctionnalités supplémentaires. Ces contributions prennent la forme d'extensions (packages) pouvant être installées par l'utilisateur et fournissant alors diverses fonctions supplémentaires.

Il existe un très grand nombre d'extensions (environ 1500 à ce jour), qui sont diffusées par un réseau baptisé CRAN (Comprehensive R Archive Network).

La liste de toutes les extensions disponibles sur le CRAN est disponible ici :

Pour faciliter un peu le repérage des extensions, il existe un ensemble de regroupements thématiques (économétrie, finance, génétique, données spatiales…) baptisés Task views :

On y trouve notamment une Task view dédiée aux sciences sociales, listant de nombreuses extensions potentiellement utiles pour les analyses statistiques dans ce champ disciplinaire :

B.2 Installation des extensions

Les interfaces graphiques sous Windows ou Mac OS X permettent la gestion des extensions par le biais de boîtes de dialogues (entrées du menu Packages sous Windows ? par exemple). Nous nous contenterons ici de décrire cette gestion via la console.

On notera cependant que l'installation et la mise à jour des extensions nécessitent d'être connecté à l'Internet.

L'installation d'une extension se fait par la fonction install.packages, à laquelle on fournit le nom de l'extension. Ici on souhaite installer l'extension ade4 :

 
Sélectionnez
install.packages("ade4", dep=TRUE)

L'option dep=TRUE indique à R de télécharger et d'installer également toutes les extensions dont celle choisie dépend pour son fonctionnement.

En général R va alors vous demander de choisir un miroir depuis lequel récupérer les données nécessaires. Choisissez de préférence un miroir le plus proche possible de l'endroit où vous vous trouvez(40).

Une fois l'extension installée, elle peut être appelée depuis la console ou un fichier script avec la commande :

 
Sélectionnez
library(ade4)

À partir de là, on peut utiliser les fonctions de l'extension, consulter leur page d'aide en ligne, accéder aux jeux de données qu'elle contient, etc.

Pour mettre à jour l'ensemble des extensions installées, une seule commande suffit :

 
Sélectionnez
update.packages()

Si on souhaite désinstaller une extension précédemment installée, on peut utiliser la fonction remove.packages :

 
Sélectionnez
remove.packages("ade4")

Il est important de bien comprendre la différence entre install.packages et library. La première va chercher les extensions sur l'Internet et les installe en local sur le disque dur de l'ordinateur. On n'a besoin d'effectuer cette opération qu'une seule fois. La seconde lit les informations de l'extension sur le disque dur et les met à disposition de R. On a besoin de l'exécuter à chaque début de session ou de script.

B.3 L'extension rgrs

rgrs est une extension pour R comprenant quelques fonctions potentiellement utiles pour l'utilisation du logiciel en sciences sociales. Pour l'instant elle comporte essentiellement des fonctions pour les tableaux croisés, l'export de résultats et pour le travail avec des fichiers issus de Modalisa(41).

B.3.1 Installation

L'installation nécessite d'avoir une connexion active à Internet. Depuis la version 0.2-6, l'extension est hébergée sur le CRAN (Comprehensive R Archive Network), le réseau officiel de diffusion des extensions de R. Elle est donc installable de manière très simple, comme n'importe quelle autre extension, par un simple :

 
Sélectionnez
install.packages("rgrs",dep=TRUE)

L'extension s'utilise alors de manière classique grâce à l'instruction library en début de session ou de fichier R :

 
Sélectionnez
library(rgrs)

À noter que l'extension n'est disponible que pour les versions les plus récentes de R. Ainsi, depuis la sortie de la version 2.8, elle n'est plus installable de la manière décrite précédemment pour les versions 2.7 de R. Il est alors conseillé de mettre son installation de R à jour.

B.3.2 Fonctions et utilisation

Pour plus de détails sur la liste des fonctions de l'extension et son utilisation, on pourra se reporter aux pages Web suivantes :

Un document PDF regroupant les pages d'aide en ligne de l'extension est notamment disponible :

Ainsi qu'une page décrivant plus particulièrement l'utilisation des fonctions facilitant l'importation et le traitement de données issues de Modalisa :

B.3.3 Le jeu de données hdv2003

L'extension rgrs contient plusieurs jeux de données (dataset) destinés à l'apprentissage de R.

hdv2003 est un extrait comportant 2000 individus et 20 variables provenant de l'enquête Histoire de Vie réalisée par l'Insee en 2003.

L'extrait est tiré du fichier détail mis à disposition librement (ainsi que de nombreux autres) par l'Insee à l'adresse suivante :

Les variables retenues ont été parfois partiellement recodées. La liste des variables est la suivante :

Variable

Description

id

Identifiant (numéro de ligne)

poids

Variable de pondération(42)

age

Âge

sexe

Sexe

nivetud

Niveau d'études atteint

occup

Occupation actuelle

qualif

Qualification de l'emploi actuel

freres.soeurs

Nombre total de frères, sœurs, demi-frères et demi-sœurs

clso

Sentiment d'appartenance à une classe sociale

relig

Pratique et croyance religieuse

trav.imp

Importance accordée au travail

trav.satisf

Satisfaction ou insatisfaction au travail

hard.rock

Écoute du Hard rock ou assimilés

lecture.bd

Lecture de bandes dessinées

peche.chasse

Pêche ou chasse pour le plaisir au cours des 12 derniers mois

cuisine

Cuisine pour le plaisir au cours des 12 derniers mois

bricol

Bricolage ou mécanique pour le plaisir au cours des 12 derniers mois

cinema

Cinéma au cours des 12 derniers mois

sport

Sport ou activité physique pour le plaisir au cours des 12 derniers mois

heures.tv

Nombre moyen d'heures passées à regarder la télévision par jour

B.3.4 Le jeu de données rp99

rp99 est issu du recensement de la population de 1999 de l'INSEE. Il comporte une petite partie des résultats pour l'ensemble des communes du Rhône, soit 301 lignes et 21 colonnes La liste des variables est la suivante :

Variable

Description

nom

Nom de la commune

code

Code de la commune

pop.act

Population active

pop.tot

Population totale

pop15

Population des 15 ans et plus

nb.rp

Nombre de résidences principales

agric

Part des agriculteurs dans la population active

artis

Part des artisans, commerçants et chefs d'entreprises

cadres

Part des cadres

interm

Part des professions intermédiaires

empl

Part des employés

ouvr

Part des ouvriers

retr

Part des retraités

tx.chom

Part des chômeurs

etud

Part des étudiants

dipl.sup

Part des diplômés du supérieur

dipl.aucun

Part des personnes sans diplôme

proprio

Part des propriétaires parmi les résidences principales

hlm

Part des logements HLM parmi les résidences principales

locataire

Part des locataires parmi les résidences principales

maison

Part des maisons parmi les résidences principales


précédentsommairesuivant
Ayant déjà rencontré des soucis avec le miroir lyonnais, j'ai tendance à utiliser celui de Toulouse.
À noter que les fonctions en question ne sont en général que des interfaces facilitant l'utilisation de fonctions déjà existantes.
Comme il s'agit d'un extrait du fichier, cette variable de pondération n'a en toute rigueur aucune valeur statistique. Elle a été tout de même incluse à des fins « pédagogiques ».

Copyright © 2017 - Julien Barnier. Aucune reproduction, même partielle, ne peut être faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu'à trois ans de prison et jusqu'à 300 000 € de dommages et intérêts