
Livres en français
5 livres et 9 critiques, dernière mise à jour le 9 novembre 2020 , note moyenne : 4
- Modélisation Prédictive et Apprentissage Statistique avec R (Deuxième édition)
- Le langage R au quotidien - Traitement et analyse de données volumineuses. Mise en pratique avec exemples en Open Data
- Data Scientist et langage R - Guide d'autoformation à l'exploitation des Big Data
- Data Visualisation - De l'extraction des données à leur représentation graphique
- Big Data et Machine Learning - Manuel du data scientist



Modélisation Prédictive et Apprentissage Statistique avec R (Deuxième édition)
Résumé de l'éditeur
Édition : Technip - 406 pages , 2eédition, 25 juillet 2020
ISBN10 : 2710811782 - ISBN13 : 9782710811787
Présentation du jeu de données.
Préparation des données
Exploration des données
Discrétisation automatique supervisée des variables continues
La régression logistique
La régression logistique pénalisée ridge
La régression logistique pénalisée lasso
La régression logistique PLS
L'arbre de décision CART
L'algorithme PRIM
Les forêts aléatoires
Le bagging
Les forêts aléatoires de modèles logistiques
Le boosting
Les Support Vector Machines
Les réseaux de neurones
Synthèse des méthodes prédictives
Annexes
Bibliographie
Index des packages R utilisés

[Lire la suite]
- Avez-vous lu ce livre ou pensez-vous le lire ?
- Souhaitez-vous ajouter une critique de ce livre sur la page de la rubrique ?
- Avez-vous un commentaire à faire ?




Le langage R au quotidien
Traitement et analyse de données volumineuses. Mise en pratique avec exemples en Open Data
Résumé de l'éditeur
L'objectif de cet ouvrage est d'apprendre le traitement des données avec R à tous ceux qui doivent produire des statistiques descriptives, des graphiques et des exports de tableaux.
Le contenu ne se limite pas à la modélisation statistique, mais il montre tout ce qu'il faut savoir faire avant, autour et après la construction du modèle qu'il s'agisse d'importation et de préparation des données ou de restitution des résultats.
Ce livre a été conçu pour tirer pleinement parti de R en se concentrant sur les outils les plus courants (packages de base, reshape2, dplyr, tidyr, data.table) et en proposant des exercices sur de très gros volumes de données.
Ces exercices accessibles en ligne utilisent des données en open data mises à disposition du public par AirBnB (réservation de 35 000 logements parisiens sur 700 jours).
Édition : Dunod - 288 pages , 7 mars 2018
ISBN10 : 2100770764 - ISBN13 : 9782100770762
- Découvrir R
- Introduction à R.
- Les principes du langage.
- Manipuler des données
- Récupération des données.
- Filtres et requêtes.
- Création de variables.
- Tri, Jointure et Transposition.
- Produire des statistiques et des graphiques
- Statistiques descriptives.
- Graphiques
- Export et reporting.
Dans une première partie, l'auteur fournit les bases du langage. Ensuite, dès la seconde partie, même un débutant est apte à faire un tour certes rapide mais suffisamment complet des bibliothèques, pour importer et manipuler des données, puis en faire des statistiques. L'auteur s'efforce également de comparer les différentes structures et quelques bibliothèques classiques afin d'optimiser ces traitements. Enfin, la dernière partie aborde le reporting, la mise en forme de livrables ou de pages de présentation des résultats, ainsi qu'une très rapide introduction à Shiny pour obtenir des visualisations plus dynamiques.
Le chapitre sur les types de variables, le chapitre sur comment utilise t-on les chaînes de caractères, le chapitre sur comment on fait des listes ou des vecteurs, puis, au chapitre 7, on commence à faire des statistiques.
Mais moi, je suis mort d'ennui déjà. Surtout que le livre s'arrêtera deux chapitres plus tard !

Traitement et analyse de données volumineuses. Mise en pratique avec exemples en Open Data
L'objectif de cet ouvrage est d'apprendre le traitement des données avec R à tous ceux qui doivent produire des statistiques descriptives, des graphiques et des exports de tableaux.
Le contenu ne se limite pas à la modélisation statistique, mais il montre tout ce qu'il faut savoir faire avant, autour et après la construction du modèle qu'il s'agisse d'importation et de préparation des données ou de restitution des résultats.
Ce livre a été conçu pour tirer pleinement parti de R en se concentrant sur les outils les plus courants (packages de base, reshape2, dplyr, tidyr, data.table) et en proposant des exercices sur de très gros volumes de données.
Ces exercices accessibles en ligne utilisent des données en open data mises à disposition du public par AirBnB (réservation de 35 000 logements parisiens sur 700 jours).
[Lire la suite]
- Avez-vous lu ce livre ou pensez-vous le lire ?
- Souhaitez-vous ajouter une critique de ce livre sur la page de la rubrique ?
- Avez-vous un commentaire à faire ?

Data Scientist et langage R
Guide d'autoformation à l'exploitation des Big Data
Résumé de l'éditeur
Ainsi, l'auteur propose un parcours didactique et professionnalisant qui, sans autre pré-requis qu'un niveau Bac en mathématiques et une grande curiosité, permet au lecteur :
- de s'intégrer à une équipe de data scientists,
- d'aborder des articles de recherche possédant une haute teneur en mathématiques,
- le cas échéant de développer en langage R, y compris des algorithmes nouveaux et de beaux graphiques,
- ou tout simplement de manager une équipe projet comprenant des data scientists, en étant à même de dialoguer avec eux de façon efficace.
Le livre ne se cantonne pas aux algorithmes du "machine learning", il aborde divers sujets importants comme le traitement du langage naturel, les séries temporelles, la logique floue, la manipulation des images.
La dynamique de l'ouvrage soutient le lecteur pas à pas dans sa découverte des data sciences et l'évolution de ses compétences théoriques et pratiques. Le praticien en exercice y découvrira également de nombreux savoir-faire à acquérir et le manager pourra surfer sur l'ouvrage après avoir lu attentivement le bestiaire des data sciences de l'introduction, qui sans inexactitude ou vulgarisation excessive présente le sujet en faisant l'économie de mathématiques ou de formalismes dissuasifs.
Édition : ENI - 663 pages , 1er mars 2016
ISBN10 : 2409000436 - ISBN13 : 9782409000430
- Introduction
- Premiers pas avec R
- Maîtriser les bases
- Techniques et algorithmes incontournables
- Cadre méthodologique du data scientist
- Traitement du langage naturel
- Graphes et réseaux
- Autres problèmes, autres solutions
- Feature Engineering
- Compléments utiles
- Annexes
Dans le premier chapitre, le lecteur trouvera plus de 50 pages présentant quelques concepts se cachant derrière le terme « big data », la présentation rapide de techniques de classification et d'apprentissage, puis une présentation (trop ?) succincte de l'écosystème Hadoop.
Les chapitres suivants seront une initiation au langage R, illustrée par des exemples de toutes les techniques évoquées au chapitre 1. Cette partie s'avèrera extrêmement dense, et très utile pour se former à l'utilisation pratique de R.
En revanche, un certain lectorat pourra, à juste titre, reprocher l'absence de recul et d'approche théorique. Finalement, le lecteur saura utiliser les outils, mais n'aura pas forcément la maturité nécessaire pour faire mieux qu'appliquer les recettes présentées en espérant que le résultat soit utilisable.
D'une manière générale, ce livre déçoit par son manque de structure. Les sections se succèdent sans nécessairement avoir de lien entre elles, en présentant parfois approximativement des techniques issues des statistiques et de l'apprentissage automatique sans vraiment de recul. Par exemple, on aura droit à une présentation des data frames de R, très rapidement suivie de la notion d'arbre de décision — sans que les deux aient l'air liés d'une quelconque manière — ou encore à RCommander juste après une introduction à la notion de variable aléatoire. Cette construction déstructurée pourrait être avantageuse pour un public plutôt débutant, sans bagage conséquent en mathématiques ou en programmation, qui aura ainsi la possibilité de tester directement la syntaxe de R entre le chargement d'un jeu de données et son exploitation par apprentissage automatique, sans s'allourdir de considérations autres que pratiques. Néanmoins, une structure assumée aiderait certains à comprendre… et surtout à utiliser l'ouvrage comme référence.
Cet ouvrage contient une introduction à la programmation en R de manière intuitive, renforcée par quantité d'exemples : elle devrait donner les bases à ceux qui n'ont que très peu touché à la programmation, des bases suffisantes pour écrire leur propre code proprement — même en utilisant l'approche orientée objet. Cependant, par la suite, l'auteur ne convainc pas réellement que R est l'outil le plus approprié pour ce cas d'utilisation, notamment à cause du nombre d'avertissements égrainés tout au long de l'ouvrage, autant d'indicateurs que le langage est piégeux. Un bon nombre d'outils est présenté, mais très rarement approfondi : par exemple, dplyr est très rapidement présenté, mais tout aussi vite oublié, sans montrer réellement ses apports par rapport aux fonctionnalités de base de R.
Le premier chapitre du livre est néanmoins très intéressant, notamment pour son bestiaire de la science des données : tous les concepts de base y sont représentés, dont une série graphiquement. Les explications sont succinctes, parfois approximatives, mais facilitent la compréhension du domaine dans son ensemble, chaque élément menant au suivant.
L'autre chapitre qui fait sortir ce livre de la moyenne concerne le suivi d'un projet de développement dans le domaine de la science des données. Il devrait aider le lecteur à s'organiser en situation réelle, notamment en pointant les différences par rapport aux cycles de développement logiciel.
Tout au long de l'ouvrage, l'auteur ne suit qu'une seule approche : comprendre le jeu de données (à l'aide de graphiques, principalement) aide à le modéliser, c'est-à-dire à choisir et appliquer un algorithme d'apprentissage automatique. L'approche inverse, qui consiste à exploiter le résultat d'algorithmes d'apprentissage pour analyser les données, n'est reléguée qu'à quelques notes éparses (à peine parle-t-on de l'importance des variables déterminée par une forêt aléatoire). On a là l'impression que l'auteur a une bonne expérience du domaine, avec un biais très fort envers les solutions très pragmatiques, mais nettement moins envers la recherche, toujours florissante dans le domaine — un comble, quand l'un des objectifs annoncés du livre est de mener à un niveau de compréhension suffisant du domaine pour aborder la littérature scientifique de pointe. Les notions théoriques ne sont toutefois pas oubliées, avec des présentations assez détaillées en ce qui concerne les probabilités et variables aléatoires (jusqu'à préciser la définition d'une tribu !) ou encore l'algèbre linéaire — sans que ces rappels soient réellement mis en rapport avec le reste de l'ouvrage.
Certains sujets sont abordés de manière extrêmement superficielle (comme le traitement d'images ou encore la logique floue), les rendant strictement inutiles. D'autres le sont, mais sans que ce soit justifié (le niveau de détail des variables aléatoires ou encore l'optimisation par essaims) : ces outils ne sont pas mis en lien avec le reste des thèmes abordés.
En résumé, ce livre pourrait être utile pour des débutants dans le domaine, qui n'ont pas une grande expérience dans le domaine ou un bagage mathématique poussé. Ces gens pourront profiter du livre, en omettant les parties trop mathématiques abstraites. Cela ne signifie pas que, pour ce public, tous les objectifs annoncés sont atteints. Difficile d'être pleinement opérationnel après uniquement la lecture de ce livre, de « s'autoformer », même en approfondissant chacun des exemples. Par contre, le niveau d'exposition devrait être suffisant pour dialoguer en profondeur avec des personnes dont la science des données est le domaine de prédilection.

Guide d'autoformation à l'exploitation des Big Data
Ainsi, l'auteur propose un parcours didactique et professionnalisant qui, sans autre pré-requis qu'un niveau Bac en mathématiques et une grande curiosité, permet au lecteur :
- de s'intégrer à une équipe de data scientists,
- d'aborder des articles de recherche possédant une haute teneur en mathématiques,
- le cas échéant de développer en langage R, y compris des algorithmes nouveaux et de beaux graphiques,
- ou tout simplement de manager une équipe projet comprenant des data scientists, en étant à même de dialoguer avec eux de façon efficace.
Le livre ne se cantonne pas aux algorithmes du "machine learning", il aborde divers sujets importants comme le traitement du langage naturel, les séries temporelles, la logique floue, la manipulation des images.
La dynamique de l'ouvrage soutient le lecteur pas à pas dans sa découverte des data sciences et l'évolution de ses compétences théoriques et pratiques. Le praticien en exercice y découvrira également de nombreux savoir-faire à acquérir et le manager pourra surfer sur l'ouvrage après avoir lu attentivement le bestiaire des data sciences de l'introduction, qui sans inexactitude ou vulgarisation excessive présente le sujet en faisant l'économie de mathématiques ou de formalismes dissuasifs.
[Lire la suite]
- Avez-vous lu ce livre ou pensez-vous le lire ?
- Souhaitez-vous ajouter une critique de ce livre sur la page de la rubrique ?
- Avez-vous un commentaire à faire ?

Data Visualisation
De l'extraction des données à leur représentation graphique
Résumé de l'éditeur
La data visualisation est ainsi devenue une discipline à part entière, outil privilégié des datajournalistes, scientifiques, statisticiens, ingénieurs, graphistes, designers, chercheurs en sciences de l'information, spécialistes du marketing. Pionnier de cette approche innovante, Nathan Yau présente dans cet ouvrage les meilleurs moyens de collecter, d'explorer, d'analyser et de représenter de façon créative de larges ensembles de données.
Édition : Eyrolles - 355 pages , 1re édition, 24 octobre 2013
ISBN10 : 2212135998 - ISBN13 : 9782212135992
- Introduction
- Raconter une histoire avec les données
- Manipulation de données
- Choix des outils pour la visualisation des données
- Visualisation des modèles temporels
- Visualisation des proportions
- Visualisation des relations
- Identification des différences
- Visualisation des relations spatiales
- Concevoir avec un objectif
Il présente les différents types de graphes et représentations qu'il est possible de réaliser en fonction de leurs applications (modèles temporels, proportions, relations...).
L'auteur propose des données à interpréter et des sites pour en collecter et commencer à travailler. La manipulation et la structuration des données est proposée avec Python ou encore R, avec des exemples de codes simples.
Un bon livre pour appréhender la visualisation des données !

Une nouvelle critique a été ajoutée pour le livre Data Visualisation. N'hésitez pas à le lire et à ajouter vos commentaires !



Big Data et Machine Learning
Manuel du data scientist
Résumé de l'éditeur
Le Big Data s’est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel grâce à l’exploitation de leurs données clients, fournisseurs, produits, processus, machines, etc.
Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ?
Ce livre est un guide pour comprendre les enjeux d’un projet Big Data, en appréhender les concepts sous-jacents (en particulier le machine learning) et acquérir les compétences nécessaires à la mise en place d’un data lab.
Il combine la présentation :
- de notions théoriques (traitement statistique des données, calcul distribué...) ;
- d’outils (écosystème Hadoop, Storm...) ;
- d’exemples de machine learning ;
- d’une organisation typique d’un projet de data science.
Édition : Dunod - 240 pages , 1re édition, 18 février 2015
ISBN10 : 2100720740 - ISBN13 : 9782100720743
- Les origines du Big Data.
- Le Big Data dans les organisations.
- Le mouvement NoSQL.
- L’algorithme MapReduce et le framework Hadoop.
- Le métier de data scientist.
- Le quotidien du data scientist.
- Exploration et préparation de données.
- Le machine learning.
- La visualisation des données.
- Les outils du Big Data.
- L’écosystème Hadoop.
- Analyse de logs avec Pig et Hive.
- Les architectures λ.
- Apache Storm.
Cet ouvrage n'est pas du tout technique, vous ne trouverez pas de code Java sur comment développer un algorithme MapReduce. Il ne demande pas de connaissance approfondie. Il s'agit d'un livre qui présente les concepts autour du machine Learning et donne un horizon de l'écosystème existant concernant les outils dédiés. De mon point de vue, ce livre a su compléter mes connaissances en termes d'usage des technologies BigData. En effet, je me suis intéressé au monde du Big Data en commençant par la technique via Hadoop et certains NoSQL. Toutefois, il m'était toujours difficile de savoir à quel moment exploiter ces technologies, les cas réels. Il est difficile de s'y émerger quand on ne travaille pas explicitement dessus. Ce livre apporte des débuts de réponse. J'apprécie aussi l'honnêteté des auteurs qui mettent en garde les lecteurs : tout problème ne se résout pas forcément par un problème Big Data !
Concernant les quelques points négatifs, j'en ai relevé quelques-uns qui sont globalement très légers.
- Le premier concerne la troisième partie qui se focalise sur les outils pour faire du Big Data. Je trouve qu'un grand nombre de chapitres de cette dernière partie auraient pu être mis en première partie et consacrer une partie exclusive aux études de cas. Certes, il y a un chapitre sur l'utilisation de Hive et Pig pour le traitement de logs, mais un chapitre spécifique avec plusieurs études de cas aurait pu être intéressant. J'ai eu quelque mal à trouver comment appliquer les algorithmes de machine Learning sur le modèle de programmation MapReduce.
- Le deuxième concerne l'utilisation exclusive MapReduce comme unique modèle de programmation. Certes les auteurs citent clairement qu'il y a un nouveau besoin de modèle de programmation temps réel, que le modèle de programmation de Spark est plus efficace face à MapReduce, mais tout au long de la lecture, on peut penser qu'il n'y a que celui-ci. J'ai hésité à donner ce point négatif, mais le livre est quand même récent, il date de 2015.
En conclusion, il s'agit d'un très bon livre, qui structure le cycle de vie de la donnée et donne des informations pertinentes.
La première et la troisième partie portent principalement sur le big data et les technologies nouvelles dans ce domaine telles que l'algorithme Map Reduce, l'architecture Lambda et la plateforme Hadoop.
La deuxième partie porte sur le data science et principalement sur l'application du machine learning en citant ses différents algorithmes et en exposant les démarches d'un data scientist dans la conception de sa solution.
Le livre présente des explications simples de multiples notions liées au big data et au data science, grâce à des illustratifs faciles à comprendre, notamment dans la deuxième partie où il expose quelques exemples concrets sur l'impact du data science sur le succès des entreprises ainsi que sur l'interprétation des données dans des cas réels.
Ce qui doit être pris en considération (et qui est d'ailleurs mentionné au début du livre) est le fait que ces trois parties sont indépendantes et peuvent être lues séparément, autrement le lecteur risque de se perdre, car il n'y a pas d’enchaînement logique entre ces trois parties.
Enfin, ce livre est un bon manuel pour les professionnels de l'informatique décisionnelle qui veulent mieux exploiter leurs données et aussi pour les développeurs et architectes qui souhaitent connaitre des généralités sur le big data et le data science.
Ce livre explique aussi ce qu'est le célèbre algorithme MapReduce. A quoi il sert et les problématique qu'il résout. Hadoop est aussi passer à la moulinette pour comprendre son principe, des rappels sur le NoSQL sont abordés sans trop rentrer dans le détail toute fois. Avec ce livre on fait un grand bon dans la compréhension de l'informatique aujourd'hui. Pour quiconque qui s’intéresse au différent mouvement de nos jours, c'est le livre à lire. Mieux même, toute personne souhaitant aborder le big data pour la première fois, c'est aussi le meilleurs point de départ que l'on puisse conseiller. En plus des étudiants en informatique, des DSI, des développeurs et de toute personne qui est informaticiens à qui on conseille de lire des livres en général, celui-ci je le conseillerai aussi au métier car en plus de peaufiner leur culture sur le Big Data ils se doivent de connaitre le métier de Data Scientist qui a mon sens représente une véritable évolution dans la relation Métier-DSI.
Avec ce livre j’ai pu participer à des conférences et des présentations d’outils de Big Data comme Zepelin ou Spark et comprendre ce qui m’était raconté. Je ne regrette définitivement pas la lecture de ce livre.

La rédaction Developpez a lu pour vous :
Le Big Data s’est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel grâce à l’exploitation de leurs données clients, fournisseurs, produits, processus, machines, etc.
Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ?
Ce livre est un guide pour comprendre les enjeux d’un projet Big Data, en appréhender les concepts sous-jacents (en particulier le machine learning) et acquérir les compétences nécessaires à la mise en place d’un data lab.
Il combine la présentation :
- de notions théoriques (traitement statistique des données, calcul distribué...) ;
- d’outils (écosystème Hadoop, Storm...) ;
- d’exemples de machine learning ;
- d’une organisation typique d’un projet de data science.
- Avez-vous lu ce livre ou pensez-vous le lire ?
- Souhaitez-vous ajouter une critique de ce livre sur la page de la rubrique ?
- Avez-vous un commentaire à faire ?