Introduction▲
Toutes les disciplines dans lesquelles l'analyse de données occupe une place importante ont connu ces dernières années une petite R-évolution. Certains auteurs ont étudié cette évolution et la façon dont R s'intègre et s'impose dans un marché de logiciels d'analyse de données dominé par trois grands logiciels de statistique : SAS, SPSS et Stata. Ces logiciels conservent des parts de marché importantes, mais R gagne en importance depuis le début des années 2000 et cette croissance ne semble pas devoir s'arrêter dans les années qui viennent.
R est un logiciel-langage très particulier qui se caractérise principalement par sa polyvalence. C'est pour cette raison qu'il concurrence, qu'il complète ou qu'il remplace toute une gamme de logiciels et de langages préexistants. Il n'avance pas seulement sur le terrain des logiciels de statistique classique, il prend également position sur des terrains très spécifiques qui ont leurs logiciels dédiés : la statistique textuelle, l'analyse de graphes, la cartographie et la statistique spatiale en sont des exemples. Véritable langage de programmation, il entre aussi en concurrence avec d'autres langages très utilisés pour le calcul scientifique et l'analyse de données, en particulier avec Python.
Chaque année depuis 2004, les développeurs et utilisateurs de R se retrouvent dans une conférence internationale intitulée UseR. Une brève analyse du contenu de ces conférences(2) montre une extension du champ d'utilisation de R, passant d'un logiciel de chercheurs spécialistes à un logiciel généraliste et pédagogique. R n'est plus seulement un logiciel d'initiés, mais un logiciel d'enseignement, à la fois des statistiques et de la programmation, et certains vont jusqu'à annoncer l'avènement de R comme lingua franca du traitement de données et de l'analyse statistique (présentation de la conférence UseR 2013).
Ces dernières années ont vu fleurir un grand nombre de manuels, de tutoriels et de collections autour de ce logiciel, chaque domaine ayant son manuel « R pour … ». Il nous paraissait important de proposer un manuel spécifique intégrant des questionnements et pratiques de géographes. D'abord les manuels sont rares dans ce domaine, surtout en langue française. Il existe bien un manuel complet écrit par Roger Bivand et al., mais ce dernier est en anglais, il est difficile à aborder et son approche est très statisticienne.
Ce manuel adopte une approche plus généraliste de l'analyse de données géographiques et de la cartographie. En français, il n'existe pour le moment que quelques tutoriels et notes de cours sur l'analyse de données géographiques avec R, mais il s'agit soit de brèves introductions, soit d'exemples très spécifiques. Le manuel que nous proposons est bien sûr loin d'être exhaustif, mais il a l'avantage de fournir un contenu conséquent et cohérent présentant l'ensemble des principaux traitements utiles à l'analyse géographique, de la base (découverte de R) à des fonctionnalités plus avancées (cartographie, statistique spatiale).
Ce manuel est le résultat d'un ensemble de séances de formation organisées par le groupe ElementR au laboratoire de recherche Géographiecités(3) en 2011/2012 pour un public de doctorants, d'enseignants, d'ingénieurs et de chercheurs en géographie. Le public visé est pourtant plus vaste que ce public originel. D'une part parce qu'une partie du manuel est généraliste et comporte des chapitres de prise en main, d'analyses statistiques et de représentations graphiques utiles à toute personne effectuant des études quantitatives. Mais surtout parce que la prise en compte de l'espace et la cartographie sont de plus en plus présentes dans d'autres disciplines, la sociologie, l'histoire ou les sciences politiques par exemple.
La création et la manipulation de données géographiques se démocratisent depuis quelques années et ne se limitent plus aux étudiants et aux chercheurs. L'usage du GPS se répand pour un usage personnel (itinéraire routier, randonnée) ou pour un usage collectif : projet OpenStreetMap, sites de collecte d'itinéraires (voir par exemple le site de la Fédération Française de Cyclisme), etc. Les données publiques nouvellement accessibles grâce au mouvement d'ouverture des données (open data) sont de plus en plus utilisées pour produire des cartes de thèmes d'intérêt, comme les résultats des élections présidentielles par exemple.
L'approche du manuel est celle de l'analyse spatiale, à savoir des méthodes mises en œuvre pour l'étude de l'organisation des phénomènes dans l'espace. La mise en œuvre de ces méthodes nécessite le plus souvent des mises en forme informatiques des données en amont, et des capacités pour récupérer, interpréter et représenter les informations en sortie.
L'ensemble de cette chaîne nécessitait jusqu'il y a quelques années l'utilisation de plusieurs logiciels, la plupart d'entre eux étant des logiciels propriétaires et particulièrement coûteux : SAS pour l'analyse de données, ArcGIS pour la cartographie et la statistique spatiale, et des logiciels complémentaires pour l'analyse de graphes par exemple. L'avantage de R est qu'il permet de faire la majeure partie de ces opérations dans un même flux de travail (workflow, c'est-à-dire la chaîne des traitements effectués). Le fait qu'il s'agisse d'un logiciel libre auquel les utilisateurs peuvent également contribuer fait que son champ s'étend de façon considérable : au début des années 2000, il y avait quelque 30 packages (bibliothèques de fonctions) assez généralistes ; au début de l'année 2014, il y en avait plus de 5000.
L'intérêt du manuel est de proposer un ensemble comprenant les explications, les programmes et les données. La plupart des applications sont faites sur le même jeu de données caractérisant le même espace d'étude : Paris et la petite couronne (départements 75, 92, 93, 94). Ponctuellement, certains jeux de données d'exemple contenus dans le logiciel R sont mobilisés.
Ce manuel est divisé en trois parties indépendantes contenant chacune plusieurs chapitres. Il y a des renvois fréquents d'un chapitre à un autre, mais chaque chapitre est autonome : en début de chapitre, les noms des fichiers de données nécessaires ainsi que les packages de R nécessaires au déroulement du programme sont précisés. La liste complète des packages utilisés figure en annexe du manuel. Une brève bibliographie est également proposée qui signale des références spécifiques permettant d'approfondir le volet technique (programmation) et/ou le volet théorique (méthodes d'analyse).
La première partie Manipulation des données et programmation comporte des éléments de langage nécessaires pour débuter avec R et manipuler les données : le chapitre 1 est une très brève prise de contact avec le logiciel et le fil du manuel, le chapitre 2 présente des éléments de prise en main et illustre différentes méthodes pour manipuler les données. Le chapitre 3 introduit des éléments plus avancés de programmation avec la mise en œuvre de boucles et de fonctions.
La deuxième partie présente des méthodes statistiques d'Exploration des données géographiques. Ainsi les chapitres 4 et 5 abordent les méthodes de traitements statistiques univariés et bivariés classiquement utilisés en analyse spatiale. Le chapitre 6 décline des questions nécessitant l'utilisation de méthodes factorielles multivariées. Enfin le chapitre 7 présente les méthodes de classification.
La dernière partie, Éléments spécifiques de traitement de l'espace, regroupe quatre chapitres illustrant des aspects plus spécialisés en géographie. Le chapitre 8 revient sur des fondamentaux de l'analyse de réseaux. Le chapitre 9 fait le point sur les dispositifs de visualisation, préalable nécessaire à la présentation des techniques de cartographie dans le chapitre 10. Enfin, le chapitre 11 présente des éléments de statistiques spatiales et, en particulier, une initiation à l'autocorrélation spatiale.