Livres R : Livres en français

couverture du livre Modélisation Prédictive et Apprentissage Statistique avec R (Deuxième édition)

Détails du livre

Sommaire

Critiques (1)

0 commentaire

Modélisation Prédictive et Apprentissage Statistique avec R (Deuxième édition)

de Stéphane Tufféry

Public visé : Intermédiaire

Résumé de l'éditeur

Issu de formations devant des publics variés, cet ouvrage présente les principales méthodes de modélisation statistique et de machine learning, à travers le fil conducteur d’une étude de cas. Chaque méthode fait l’objet d’un rappel de cours et est accompagnée de références bibliographiques, puis est mise en œuvre avec des explications détaillées sur les calculs effectués, les interprétations des résultats et jusqu'aux astuces de programmation permettant d’optimiser les temps de calcul. À ce sujet, une annexe est consacrée au traitement des données massives. L’ouvrage commence par les méthodes de classement classiques et les plus éprouvées, mais aborde rapidement les méthodes plus récentes et les plus avancées : régression ridge, lasso, elastic net, boosting, forêts aléatoires, Extra-Trees, réseaux de neurones, séparateurs à vaste marge (SVM). À chaque fois, le lien est fait entre la théorie et les résultats obtenus pour montrer qu’ils illustrent bien les principes sous-jacents à ces méthodes. L’aspect pratique est aussi privilégié, avec l’objectif de permettre au lecteur une mise en œuvre rapide et efficace dans son travail concret. L’exploration et la préparation préliminaire des données sont d’ailleurs décrites, ainsi que le processus de sélection des variables. Une synthèse finale est faite de toutes les méthodes présentées et de leurs points forts. La mise en œuvre s’appuie sur le logiciel libre R et sur un jeu de données public. Ce dernier peut être téléchargé sur Internet et présente l’intérêt d’être riche, complet et de permettre des comparaisons grâce aux nombreuses publications dans lesquelles il est cité. Quant au logiciel statistique R, non seulement il est devenu la lingua franca de la statistique et de la data science et le logiciel le plus répandu dans le monde universitaire, mais il a aussi conquis le monde de l’entreprise, à tel point que tous les logiciels commerciaux proposent désormais une interface avec R (ce point est abordé dans une annexe). Outre qu’il est disponible pour tous, dans tous les environnements, il est aussi le plus riche statistiquement et c’est le seul logiciel permettant de mettre en œuvre toutes les méthodes présentées dans cet ouvrage. Enfin, son langage de programmation particulièrement élégant et adapté au calcul mathématique permet de se concentrer dans le codage sur les aspects statistiques sans les difficultés de programmation rencontrées avec d’autres logiciels. R permet d’arriver directement à l’essentiel et de mieux comprendre les méthodes exposées dans l’ouvrage. Le Code R utilisé dans l’ouvrage est disponible sur cette page dans la partie "Bonus/lire". Table des matières : Présentation du jeu de données. Préparation des données. Exploration des données. Discrétisation automatique supervisée des variables continues. La régression logistique. La régression logistique pénalisée ridge. La régression logistique pénalisée lasso. La régression logistique PLS. L’arbre de décision CART. L’algorithme PRIM. Les forêts aléatoires. Le bagging. Les forêts aléatoires de modèles logistiques. Le boosting. Les Support Vector Machines. Les réseaux de neurones. Synthèse des méthodes prédictives. Annexes. Bibliographie. Index des packages R utilisés.

Édition : Technip - 406 pages, 2^e édition, 25 juillet 2020

ISBN10 : 2710811782 - ISBN13 : 9782710811787

Commandez sur www.amazon.fr :

45.00 € TTC (prix éditeur 45.00 € TTC)

Table des matières :
Présentation du jeu de données.
Préparation des données
Exploration des données
Discrétisation automatique supervisée des variables continues
La régression logistique
La régression logistique pénalisée ridge
La régression logistique pénalisée lasso
La régression logistique PLS
L'arbre de décision CART
L'algorithme PRIM
Les forêts aléatoires
Le bagging
Les forêts aléatoires de modèles logistiques
Le boosting
Les Support Vector Machines
Les réseaux de neurones
Synthèse des méthodes prédictives
Annexes
Bibliographie
Index des packages R utilisés

Critique du livre par la rédaction Michael Konan le 16 juillet 2020

Quel que soit son métier, il y a un bouquin qu'il faut toujours avoir sous la main, une sorte de référence dans laquelle on est sûr de trouver tout ce dont on a besoin pour résoudre les défis quotidiens. Pour les problèmes de machine learning avec R, ce livre est mon arme secrète. L'auteur Stéphane Tuffery est un enseignant et un praticien, ce qu'il arrive bien à traduire dans son livre. De la statistique classique au machine learning, toutes les principales techniques y sont présentées : régression, méthodes de pénalisation, arbres de décision, SVM, méthodes d'ensemble, réseaux de neurones. Stéphane Tuffery ne vous balance pas le code à la figure. Fort de son expérience dans l'enseignement (Maitre de conférences associé), il accorde un intérêt particulier à la compréhension des méthodes. Il présente le fonctionnement de chaque méthode abordée en épargnant au lecteur la complexité mathématique associée. Ensuite, il passe à la mise en œuvre avec R. Les codes fournis dans le livre sont commentés et les sorties de R sont interprétées. Le livre vous guide également dans la construction d'un outil de credit scoring que vous pourrez facilement adapter dans une banque ou un établissement financier pour l'octroi de crédit. C'est également un exercice au cours duquel vous aurez l'occasion de comparer les performances prédictives des différentes méthodes étudiées. Enfin, il ouvre une lucarne sur le big data avec R, en présentant différents packages R que vous pouvez utiliser avant de penser à adopter des outils dédiés comme Hadoop et Spark. Que vous soyez un débutant ou data scientist confirmé, je vous recommande vivement ce livre.

Commenter Signaler un problème

Michael Guilloux - Chroniqueur Actualités

l 16/07/2020 à 19:12

Modélisation Prédictive et Apprentissage Statistique avec R (Deuxième édition)

Issu de formations devant des publics variés, cet ouvrage présente les principales méthodes de modélisation statistique et de machine learning, à travers le fil conducteur d’une étude de cas. Chaque méthode fait l’objet d’un rappel de cours et est accompagnée de références bibliographiques, puis est mise en œuvre avec des explications détaillées sur les calculs effectués, les interprétations des résultats et jusqu aux astuces de programmation permettant d’optimiser les temps de calcul. À ce sujet, une annexe est consacrée au traitement des données massives. L’ouvrage commence par les méthodes de classement classiques et les plus éprouvées, mais aborde rapidement les méthodes plus récentes et les plus avancées : régression ridge, lasso, elastic net, boosting, forêts aléatoires, Extra-Trees, réseaux de neurones, séparateurs à vaste marge (SVM). À chaque fois, le lien est fait entre la théorie et les résultats obtenus pour montrer qu’ils illustrent bien les principes sous-jacents à ces méthodes. L’aspect pratique est aussi privilégié, avec l’objectif de permettre au lecteur une mise en œuvre rapide et efficace dans son travail concret. L’exploration et la préparation préliminaire des données sont d’ailleurs décrites, ainsi que le processus de sélection des variables. Une synthèse finale est faite de toutes les méthodes présentées et de leurs points forts. La mise en œuvre s’appuie sur le logiciel libre R et sur un jeu de données public. Ce dernier peut être téléchargé sur Internet et présente l’intérêt d’être riche, complet et de permettre des comparaisons grâce aux nombreuses publications dans lesquelles il est cité. Quant au logiciel statistique R, non seulement il est devenu la lingua franca de la statistique et de la data science et le logiciel le plus répandu dans le monde universitaire, mais il a aussi conquis le monde de l’entreprise, à tel point que tous les logiciels commerciaux proposent désormais une interface avec R (ce point est abordé dans une annexe). Outre qu’il est disponible pour tous, dans tous les environnements, il est aussi le plus riche statistiquement et c’est le seul logiciel permettant de mettre en œuvre toutes les méthodes présentées dans cet ouvrage. Enfin, son langage de programmation particulièrement élégant et adapté au calcul mathématique permet de se concentrer dans le codage sur les aspects statistiques sans les difficultés de programmation rencontrées avec d’autres logiciels. R permet d’arriver directement à l’essentiel et de mieux comprendre les méthodes exposées dans l’ouvrage. Le Code R utilisé dans l’ouvrage est disponible sur cette page dans la partie "Bonus/lire". Table des matières : Présentation du jeu de données. Préparation des données. Exploration des données. Discrétisation automatique supervisée des variables continues. La régression logistique. La régression logistique pénalisée ridge. La régression logistique pénalisée lasso. La régression logistique PLS. L’arbre de décision CART. L’algorithme PRIM. Les forêts aléatoires. Le bagging. Les forêts aléatoires de modèles logistiques. Le boosting. Les Support Vector Machines. Les réseaux de neurones. Synthèse des méthodes prédictives. Annexes. Bibliographie. Index des packages R utilisés.

[Lire la suite]

Avez-vous lu ce livre ou pensez-vous le lire ?
Souhaitez-vous ajouter une critique de ce livre sur la page de la rubrique ?
Avez-vous un commentaire à faire ?

couverture du livre Le langage R au quotidien

Détails du livre

Sommaire

Critiques (2)

0 commentaire

Le langage R au quotidien

Traitement et analyse de données volumineuses. Mise en pratique avec exemples en Open Data

de Olivier Decourt

Public visé : Débutant

Résumé de l'éditeur

Le langage R est un langage open source de traitement des données et d'analyse statistique.
L'objectif de cet ouvrage est d'apprendre le traitement des données avec R à tous ceux qui doivent produire des statistiques descriptives, des graphiques et des exports de tableaux.
Le contenu ne se limite pas à la modélisation statistique, mais il montre tout ce qu'il faut savoir faire avant, autour et après la construction du modèle qu'il s'agisse d'importation et de préparation des données ou de restitution des résultats.

Ce livre a été conçu pour tirer pleinement parti de R en se concentrant sur les outils les plus courants (packages de base, reshape2, dplyr, tidyr, data.table) et en proposant des exercices sur de très gros volumes de données.
Ces exercices accessibles en ligne utilisent des données en open data mises à disposition du public par AirBnB (réservation de 35 000 logements parisiens sur 700 jours).

Édition : Dunod - 288 pages, 7 mars 2018

ISBN10 : 2100770764 - ISBN13 : 9782100770762

Commandez sur www.amazon.fr :

32.00 € TTC (prix éditeur 32.00 € TTC)

Découvrir R
- Introduction à R.
- Les principes du langage.
Manipuler des données
- Récupération des données.
- Filtres et requêtes.
- Création de variables.
- Tri, Jointure et Transposition.
Produire des statistiques et des graphiques
- Statistiques descriptives.
- Graphiques
- Export et reporting.

Critique du livre par la rédaction Nicolas Vallée le 3 octobre 2018

R est un langage clairement peu conventionnel dans le monde classique de la programmation. Malgré tout, l'auteur réussit en peu de pages à expliquer clairement comment l'exploiter correctement de manière très didactique. Selon moi, cet ouvrage vise un public allant du débutant à l'initié cherchant à améliorer ses scripts.
Dans une première partie, l'auteur fournit les bases du langage. Ensuite, dès la seconde partie, même un débutant est apte à faire un tour certes rapide mais suffisamment complet des bibliothèques, pour importer et manipuler des données, puis en faire des statistiques. L'auteur s'efforce également de comparer les différentes structures et quelques bibliothèques classiques afin d'optimiser ces traitements. Enfin, la dernière partie aborde le reporting, la mise en forme de livrables ou de pages de présentation des résultats, ainsi qu'une très rapide introduction à Shiny pour obtenir des visualisations plus dynamiques.

Critique du livre par la rédaction grunt2000 le 20 octobre 2018

À titre personnel, je trouve ce livre très rébarbatif.
Le chapitre sur les types de variables, le chapitre sur comment utilise t-on les chaînes de caractères, le chapitre sur comment on fait des listes ou des vecteurs, puis, au chapitre 7, on commence à faire des statistiques.

Mais moi, je suis mort d'ennui déjà. Surtout que le livre s'arrêtera deux chapitres plus tard !

Commenter Signaler un problème

gorgonite - Rédacteur/Modérateur

l 30/09/2018 à 19:44

Le langage R au quotidien
Traitement et analyse de données volumineuses. Mise en pratique avec exemples en Open Data

Le langage R est un langage open source de traitement des données et d'analyse statistique.
L'objectif de cet ouvrage est d'apprendre le traitement des données avec R à tous ceux qui doivent produire des statistiques descriptives, des graphiques et des exports de tableaux.
Le contenu ne se limite pas à la modélisation statistique, mais il montre tout ce qu'il faut savoir faire avant, autour et après la construction du modèle qu'il s'agisse d'importation et de préparation des données ou de restitution des résultats.

Ce livre a été conçu pour tirer pleinement parti de R en se concentrant sur les outils les plus courants (packages de base, reshape2, dplyr, tidyr, data.table) et en proposant des exercices sur de très gros volumes de données.
Ces exercices accessibles en ligne utilisent des données en open data mises à disposition du public par AirBnB (réservation de 35 000 logements parisiens sur 700 jours).

[Lire la suite]

Avez-vous lu ce livre ou pensez-vous le lire ?
Souhaitez-vous ajouter une critique de ce livre sur la page de la rubrique ?
Avez-vous un commentaire à faire ?

couverture du livre Data Scientist et langage R

Détails du livre

Sommaire

Critiques (2)

0 commentaire

Data Scientist et langage R

Guide d'autoformation à l'exploitation des Big Data

de Henri LAUDE

Public visé : Intermédiaire

Résumé de l'éditeur

Tous les experts s'accordent à dire que 90% des usages du Big Data proviennent de l'utilisation des data sciences. L'objectif de ce livre est de proposer une formation complète et opérationnelle sur les data sciences qui permet de délivrer des solutions via l'usage du langage R.

Ainsi, l'auteur propose un parcours didactique et professionnalisant qui, sans autre pré-requis qu'un niveau Bac en mathématiques et une grande curiosité, permet au lecteur :

de s'intégrer à une équipe de data scientists,
d'aborder des articles de recherche possédant une haute teneur en mathématiques,
le cas échéant de développer en langage R, y compris des algorithmes nouveaux et de beaux graphiques,
ou tout simplement de manager une équipe projet comprenant des data scientists, en étant à même de dialoguer avec eux de façon efficace.

Le livre ne se cantonne pas aux algorithmes du "machine learning", il aborde divers sujets importants comme le traitement du langage naturel, les séries temporelles, la logique floue, la manipulation des images.

La dynamique de l'ouvrage soutient le lecteur pas à pas dans sa découverte des data sciences et l'évolution de ses compétences théoriques et pratiques. Le praticien en exercice y découvrira également de nombreux savoir-faire à acquérir et le manager pourra surfer sur l'ouvrage après avoir lu attentivement le bestiaire des data sciences de l'introduction, qui sans inexactitude ou vulgarisation excessive présente le sujet en faisant l'économie de mathématiques ou de formalismes dissuasifs.

Édition : ENI - 663 pages, 1^er mars 2016

ISBN10 : 2409000436 - ISBN13 : 9782409000430

Commandez sur www.amazon.fr :

54.00 € TTC (prix éditeur 54.00 € TTC)

Introduction
Premiers pas avec R
Maîtriser les bases
Techniques et algorithmes incontournables
Cadre méthodologique du data scientist
Traitement du langage naturel
Graphes et réseaux
Autres problèmes, autres solutions
Feature Engineering
Compléments utiles
Annexes

Critique du livre par la rédaction Nicolas Vallée le 25 juillet 2016

Cet ouvrage est destiné à un public soucieux de découvrir le langage R et son utilisation pour manipuler des jeux de données, leur appliquer quelques grands algorithmes classiques et obtenir rapidement un rendu visuel.
Dans le premier chapitre, le lecteur trouvera plus de 50 pages présentant quelques concepts se cachant derrière le terme « big data », la présentation rapide de techniques de classification et d'apprentissage, puis une présentation (trop ?) succincte de l'écosystème Hadoop.
Les chapitres suivants seront une initiation au langage R, illustrée par des exemples de toutes les techniques évoquées au chapitre 1. Cette partie s'avèrera extrêmement dense, et très utile pour se former à l'utilisation pratique de R.

En revanche, un certain lectorat pourra, à juste titre, reprocher l'absence de recul et d'approche théorique. Finalement, le lecteur saura utiliser les outils, mais n'aura pas forcément la maturité nécessaire pour faire mieux qu'appliquer les recettes présentées en espérant que le résultat soit utilisable.

Critique du livre par la rédaction Thibaut Cuvelier le 1^er juillet 2017

La « science des données » se veut à la mode, ce qui incite à la publication de nombreux livres sur ce sujet. Les axes d'approche sont multiples et variés : du côté purement académique (les algorithmes d'apprentissage, étudiés dans l'abstrait) à l'extrême pragmatique (utiliser ces algorithes commes des boîtes noires). Cet ouvrage se place entre ces deux extrêmes, ce qui le rend, de prime abord, intéressant pour un public large. La présence du terme (voire jargonnerie) « big data » donne l'impression qu'il sera sujet de grands volumes de données, mais l'auteur n'en traite que très rapidement, se focalisant sur les aspects de traitement des données, de leur visualisation et de l'application des algorithmes principaux d'apprentissage automatique.

D'une manière générale, ce livre déçoit par son manque de structure. Les sections se succèdent sans nécessairement avoir de lien entre elles, en présentant parfois approximativement des techniques issues des statistiques et de l'apprentissage automatique sans vraiment de recul. Par exemple, on aura droit à une présentation des data frames de R, très rapidement suivie de la notion d'arbre de décision — sans que les deux aient l'air liés d'une quelconque manière — ou encore à RCommander juste après une introduction à la notion de variable aléatoire. Cette construction déstructurée pourrait être avantageuse pour un public plutôt débutant, sans bagage conséquent en mathématiques ou en programmation, qui aura ainsi la possibilité de tester directement la syntaxe de R entre le chargement d'un jeu de données et son exploitation par apprentissage automatique, sans s'allourdir de considérations autres que pratiques. Néanmoins, une structure assumée aiderait certains à comprendre… et surtout à utiliser l'ouvrage comme référence.

Cet ouvrage contient une introduction à la programmation en R de manière intuitive, renforcée par quantité d'exemples : elle devrait donner les bases à ceux qui n'ont que très peu touché à la programmation, des bases suffisantes pour écrire leur propre code proprement — même en utilisant l'approche orientée objet. Cependant, par la suite, l'auteur ne convainc pas réellement que R est l'outil le plus approprié pour ce cas d'utilisation, notamment à cause du nombre d'avertissements égrainés tout au long de l'ouvrage, autant d'indicateurs que le langage est piégeux. Un bon nombre d'outils est présenté, mais très rarement approfondi : par exemple, dplyr est très rapidement présenté, mais tout aussi vite oublié, sans montrer réellement ses apports par rapport aux fonctionnalités de base de R.

Le premier chapitre du livre est néanmoins très intéressant, notamment pour son bestiaire de la science des données : tous les concepts de base y sont représentés, dont une série graphiquement. Les explications sont succinctes, parfois approximatives, mais facilitent la compréhension du domaine dans son ensemble, chaque élément menant au suivant.
L'autre chapitre qui fait sortir ce livre de la moyenne concerne le suivi d'un projet de développement dans le domaine de la science des données. Il devrait aider le lecteur à s'organiser en situation réelle, notamment en pointant les différences par rapport aux cycles de développement logiciel.

Tout au long de l'ouvrage, l'auteur ne suit qu'une seule approche : comprendre le jeu de données (à l'aide de graphiques, principalement) aide à le modéliser, c'est-à-dire à choisir et appliquer un algorithme d'apprentissage automatique. L'approche inverse, qui consiste à exploiter le résultat d'algorithmes d'apprentissage pour analyser les données, n'est reléguée qu'à quelques notes éparses (à peine parle-t-on de l'importance des variables déterminée par une forêt aléatoire). On a là l'impression que l'auteur a une bonne expérience du domaine, avec un biais très fort envers les solutions très pragmatiques, mais nettement moins envers la recherche, toujours florissante dans le domaine — un comble, quand l'un des objectifs annoncés du livre est de mener à un niveau de compréhension suffisant du domaine pour aborder la littérature scientifique de pointe. Les notions théoriques ne sont toutefois pas oubliées, avec des présentations assez détaillées en ce qui concerne les probabilités et variables aléatoires (jusqu'à préciser la définition d'une tribu !) ou encore l'algèbre linéaire — sans que ces rappels soient réellement mis en rapport avec le reste de l'ouvrage.

Certains sujets sont abordés de manière extrêmement superficielle (comme le traitement d'images ou encore la logique floue), les rendant strictement inutiles. D'autres le sont, mais sans que ce soit justifié (le niveau de détail des variables aléatoires ou encore l'optimisation par essaims) : ces outils ne sont pas mis en lien avec le reste des thèmes abordés.

En résumé, ce livre pourrait être utile pour des débutants dans le domaine, qui n'ont pas une grande expérience dans le domaine ou un bagage mathématique poussé. Ces gens pourront profiter du livre, en omettant les parties trop mathématiques abstraites. Cela ne signifie pas que, pour ce public, tous les objectifs annoncés sont atteints. Difficile d'être pleinement opérationnel après uniquement la lecture de ce livre, de « s'autoformer », même en approfondissant chacun des exemples. Par contre, le niveau d'exposition devrait être suffisant pour dialoguer en profondeur avec des personnes dont la science des données est le domaine de prédilection.

Commenter Signaler un problème

gorgonite - Rédacteur/Modérateur

l 25/07/2016 à 11:43

Data Scientist et langage R
Guide d'autoformation à l'exploitation des Big Data

Tous les experts s'accordent à dire que 90% des usages du Big Data proviennent de l'utilisation des data sciences. L'objectif de ce livre est de proposer une formation complète et opérationnelle sur les data sciences qui permet de délivrer des solutions via l'usage du langage R.

Ainsi, l'auteur propose un parcours didactique et professionnalisant qui, sans autre pré-requis qu'un niveau Bac en mathématiques et une grande curiosité, permet au lecteur :

de s'intégrer à une équipe de data scientists,
d'aborder des articles de recherche possédant une haute teneur en mathématiques,
le cas échéant de développer en langage R, y compris des algorithmes nouveaux et de beaux graphiques,
ou tout simplement de manager une équipe projet comprenant des data scientists, en étant à même de dialoguer avec eux de façon efficace.

Le livre ne se cantonne pas aux algorithmes du "machine learning", il aborde divers sujets importants comme le traitement du langage naturel, les séries temporelles, la logique floue, la manipulation des images.

La dynamique de l'ouvrage soutient le lecteur pas à pas dans sa découverte des data sciences et l'évolution de ses compétences théoriques et pratiques. Le praticien en exercice y découvrira également de nombreux savoir-faire à acquérir et le manager pourra surfer sur l'ouvrage après avoir lu attentivement le bestiaire des data sciences de l'introduction, qui sans inexactitude ou vulgarisation excessive présente le sujet en faisant l'économie de mathématiques ou de formalismes dissuasifs.

[Lire la suite]

Avez-vous lu ce livre ou pensez-vous le lire ?
Souhaitez-vous ajouter une critique de ce livre sur la page de la rubrique ?
Avez-vous un commentaire à faire ?

Détails du livre

Sommaire

Critiques (1)

0 commentaire

Data Visualisation

De l'extraction des données à leur représentation graphique

de Nathan Yau

Traducteurs : Xavier Guesnu

Public visé : Débutant

Résumé de l'éditeur

L'essor des nouvelles technologies et du Web a extraordinairement accéléré et simplifié la collecte, le stockage et l'accès aux données. Analysées et présentées de façon explicite et sensée, elles contribuent à faciliter la prise de décision, partager les connaissances et les idées, porter à un regard plus objectif sur le monde.
La data visualisation est ainsi devenue une discipline à part entière, outil privilégié des datajournalistes, scientifiques, statisticiens, ingénieurs, graphistes, designers, chercheurs en sciences de l'information, spécialistes du marketing. Pionnier de cette approche innovante, Nathan Yau présente dans cet ouvrage les meilleurs moyens de collecter, d'explorer, d'analyser et de représenter de façon créative de larges ensembles de données.

Édition : Eyrolles - 355 pages, 1^re édition, 24 octobre 2013

ISBN10 : 2212135998 - ISBN13 : 9782212135992

Commandez sur www.amazon.fr :

33.25 € TTC (prix éditeur 33.25 € TTC)

Introduction
Raconter une histoire avec les données
Manipulation de données
Choix des outils pour la visualisation des données
Visualisation des modèles temporels
Visualisation des proportions
Visualisation des relations
Identification des différences
Visualisation des relations spatiales
Concevoir avec un objectif

Critique du livre par la rédaction stoyak le 19 avril 2014

Besoin d'un livre d'introduction à la visualisation des données ? En français ? Ce livre est pour vous !
Il présente les différents types de graphes et représentations qu'il est possible de réaliser en fonction de leurs applications (modèles temporels, proportions, relations...).
L'auteur propose des données à interpréter et des sites pour en collecter et commencer à travailler. La manipulation et la structuration des données est proposée avec Python ou encore R, avec des exemples de codes simples.

Un bon livre pour appréhender la visualisation des données !

Commenter Signaler un problème

stoyak - Rédactrice

l 19/04/2014 à 9:49

Bonjour,

Une nouvelle critique a été ajoutée pour le livre Data Visualisation. N'hésitez pas à le lire et à ajouter vos commentaires !

couverture du livre Big Data et Machine Learning

Détails du livre

Sommaire

Critiques (3)

0 commentaire

Big Data et Machine Learning

Manuel du data scientist

de Pirmin Lemberger, Marc Batty, Médéric Morel, Jean-Luc Raffaëlli

Public visé : Intermédiaire

Résumé de l'éditeur

Cet ouvrage s’adresse à tous ceux qui réfléchissent à la meilleure utilisation possible des données au sein de l’entreprise, qu’ils soient data scientists, DSI, chefs de projets ou spécialistes métier.
Le Big Data s’est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel grâce à l’exploitation de leurs données clients, fournisseurs, produits, processus, machines, etc.
Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ?
Ce livre est un guide pour comprendre les enjeux d’un projet Big Data, en appréhender les concepts sous-jacents (en particulier le machine learning) et acquérir les compétences nécessaires à la mise en place d’un data lab.
Il combine la présentation :

de notions théoriques (traitement statistique des données, calcul distribué...) ;
d’outils (écosystème Hadoop, Storm...) ;
d’exemples de machine learning ;
d’une organisation typique d’un projet de data science.

Édition : Dunod - 240 pages, 1^re édition, 18 février 2015

ISBN10 : 2100720740 - ISBN13 : 9782100720743

Commandez sur www.amazon.fr :

29.90 € TTC (prix éditeur 29.90 € TTC)

Sommaire Les fondements du Big Data.

Les origines du Big Data.
- Le Big Data dans les organisations.
- Le mouvement NoSQL.
- L’algorithme MapReduce et le framework Hadoop.
Le métier de data scientist.
- Le quotidien du data scientist.
- Exploration et préparation de données.
- Le machine learning.
- La visualisation des données.
Les outils du Big Data.
- L’écosystème Hadoop.
- Analyse de logs avec Pig et Hive.
- Les architectures λ.
- Apache Storm.

Critique du livre par la rédaction Mickael BARON le 31 mars 2015

La couverture du livre donne le ton, c'est un ouvrage qui s'adresse aux personnes intéressées par le métier de « Data Scientist », le buzz word du moment. L'ouvrage se décompose en trois grandes parties. La première discute du Big Data, de ses origines, comment il est intégré dans les entreprises et des nouveaux outils pour le stockage (NoSQL) et le traitement (MapReduce). Dans une deuxième partie, les auteurs s'intéressent principalement au cycle de vie de la donnée et présentent essentiellement de nombreux algorithmes de machine Learning. Enfin une dernière partie se focalise sur les outils pour faire du Big Data. De manière générale, cet ouvrage est très agréable à lire. Il propose de nombreux retours d'expérience et d'exemples simples qui illustrent la présentation des algorithmes de machine Learning.

Cet ouvrage n'est pas du tout technique, vous ne trouverez pas de code Java sur comment développer un algorithme MapReduce. Il ne demande pas de connaissance approfondie. Il s'agit d'un livre qui présente les concepts autour du machine Learning et donne un horizon de l'écosystème existant concernant les outils dédiés. De mon point de vue, ce livre a su compléter mes connaissances en termes d'usage des technologies BigData. En effet, je me suis intéressé au monde du Big Data en commençant par la technique via Hadoop et certains NoSQL. Toutefois, il m'était toujours difficile de savoir à quel moment exploiter ces technologies, les cas réels. Il est difficile de s'y émerger quand on ne travaille pas explicitement dessus. Ce livre apporte des débuts de réponse. J'apprécie aussi l'honnêteté des auteurs qui mettent en garde les lecteurs : tout problème ne se résout pas forcément par un problème Big Data !

Concernant les quelques points négatifs, j'en ai relevé quelques-uns qui sont globalement très légers.

Le premier concerne la troisième partie qui se focalise sur les outils pour faire du Big Data. Je trouve qu'un grand nombre de chapitres de cette dernière partie auraient pu être mis en première partie et consacrer une partie exclusive aux études de cas. Certes, il y a un chapitre sur l'utilisation de Hive et Pig pour le traitement de logs, mais un chapitre spécifique avec plusieurs études de cas aurait pu être intéressant. J'ai eu quelque mal à trouver comment appliquer les algorithmes de machine Learning sur le modèle de programmation MapReduce.
Le deuxième concerne l'utilisation exclusive MapReduce comme unique modèle de programmation. Certes les auteurs citent clairement qu'il y a un nouveau besoin de modèle de programmation temps réel, que le modèle de programmation de Spark est plus efficace face à MapReduce, mais tout au long de la lecture, on peut penser qu'il n'y a que celui-ci. J'ai hésité à donner ce point négatif, mais le livre est quand même récent, il date de 2015.

En conclusion, il s'agit d'un très bon livre, qui structure le cycle de vie de la donnée et donne des informations pertinentes.

Critique du livre par la rédaction Nassima BENAMMAR le 31 mars 2015

Ce livre expose des notions de base sur big data, comme l'indique son titre, et du data science. Il se compose de trois parties.

La première et la troisième partie portent principalement sur le big data et les technologies nouvelles dans ce domaine telles que l'algorithme Map Reduce, l'architecture Lambda et la plateforme Hadoop.

La deuxième partie porte sur le data science et principalement sur l'application du machine learning en citant ses différents algorithmes et en exposant les démarches d'un data scientist dans la conception de sa solution.

Le livre présente des explications simples de multiples notions liées au big data et au data science, grâce à des illustratifs faciles à comprendre, notamment dans la deuxième partie où il expose quelques exemples concrets sur l'impact du data science sur le succès des entreprises ainsi que sur l'interprétation des données dans des cas réels.

Ce qui doit être pris en considération (et qui est d'ailleurs mentionné au début du livre) est le fait que ces trois parties sont indépendantes et peuvent être lues séparément, autrement le lecteur risque de se perdre, car il n'y a pas d’enchaînement logique entre ces trois parties.

Enfin, ce livre est un bon manuel pour les professionnels de l'informatique décisionnelle qui veulent mieux exploiter leurs données et aussi pour les développeurs et architectes qui souhaitent connaitre des généralités sur le big data et le data science.

Critique du livre par la rédaction Lucas Girardin le 15 janvier 2016

Big Data et Data Scientist deux mots (quatre en réalité mais qui ne marche que par deux) que l'on entend et trouve un peu partout. Cependant dur de réussir à comprendre ce qui se cache derrière. Qu'est-ce qui fait qu'un gisement de donnée est appelé Big Data alors que d'autre non ? Quel est le véritable boulot d'un Data Scientist et comment le devient-on ? Comment différencier le baratin commercial de la réalité du terrain ? Voila déjà a quoi sert ce livre et rien que pour ça il mérite d'être lu. Mais il va encore plus loin en expliquant quel outil existe pour faire du big data et les différents algorithmes. Sans connaissance mathématique et notamment en statistique ces passages sont assez durs à lire et à comprendre mais il reste nécessaire de connaitre leurs utilités et leurs cas d’utilisations.

Ce livre explique aussi ce qu'est le célèbre algorithme MapReduce. A quoi il sert et les problématique qu'il résout. Hadoop est aussi passer à la moulinette pour comprendre son principe, des rappels sur le NoSQL sont abordés sans trop rentrer dans le détail toute fois. Avec ce livre on fait un grand bon dans la compréhension de l'informatique aujourd'hui. Pour quiconque qui s’intéresse au différent mouvement de nos jours, c'est le livre à lire. Mieux même, toute personne souhaitant aborder le big data pour la première fois, c'est aussi le meilleurs point de départ que l'on puisse conseiller. En plus des étudiants en informatique, des DSI, des développeurs et de toute personne qui est informaticiens à qui on conseille de lire des livres en général, celui-ci je le conseillerai aussi au métier car en plus de peaufiner leur culture sur le Big Data ils se doivent de connaitre le métier de Data Scientist qui a mon sens représente une véritable évolution dans la relation Métier-DSI.

Avec ce livre j’ai pu participer à des conférences et des présentations d’outils de Big Data comme Zepelin ou Spark et comprendre ce qui m’était raconté. Je ne regrette définitivement pas la lecture de ce livre.

Commenter Signaler un problème

Lana.Bauer - Expert éminent sénior

l 31/03/2015 à 23:51

Bonjour,

La rédaction Developpez a lu pour vous :

Big Data et machine learning, manuel du data scientist

Cet ouvrage s’adresse à tous ceux qui réfléchissent à la meilleure utilisation possible des données au sein de l’entreprise, qu’ils soient data scientists, DSI, chefs de projets ou spécialistes métier.
Le Big Data s’est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel grâce à l’exploitation de leurs données clients, fournisseurs, produits, processus, machines, etc.
Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ?
Ce livre est un guide pour comprendre les enjeux d’un projet Big Data, en appréhender les concepts sous-jacents (en particulier le machine learning) et acquérir les compétences nécessaires à la mise en place d’un data lab.
Il combine la présentation :

de notions théoriques (traitement statistique des données, calcul distribué...) ;
d’outils (écosystème Hadoop, Storm...) ;
d’exemples de machine learning ;
d’une organisation typique d’un projet de data science.

Avez-vous lu ce livre ou pensez-vous le lire ?
Souhaitez-vous ajouter une critique de ce livre sur la page de la rubrique ?
Avez-vous un commentaire à faire ?