Livres en français

3 livres et 6 critiques, dernière mise à jour le 25 juillet 2016 , note moyenne : 4.1

  1. Data Scientist et langage R - Guide d'autoformation à l'exploitation des Big Data
  2. Data Visualisation - De l'extraction des données à leur représentation graphique
  3. Big Data et Machine Learning - Manuel du data scientist
couverture du livre Data Scientist et langage R

Note 3 drapeau
Détails du livre
Sommaire
Critiques (2)
0 commentaire
 
 

Data Scientist et langage R

Guide d'autoformation à l'exploitation des Big Data

de
Public visé : Intermédiaire

Résumé de l'éditeur

Tous les experts s'accordent à dire que 90% des usages du Big Data proviennent de l'utilisation des data sciences. L'objectif de ce livre est de proposer une formation complète et opérationnelle sur les data sciences qui permet de délivrer des solutions via l'usage du langage R.

Ainsi, l'auteur propose un parcours didactique et professionnalisant qui, sans autre pré-requis qu'un niveau Bac en mathématiques et une grande curiosité, permet au lecteur :
  • de s'intégrer à une équipe de data scientists,
  • d'aborder des articles de recherche possédant une haute teneur en mathématiques,
  • le cas échéant de développer en langage R, y compris des algorithmes nouveaux et de beaux graphiques,
  • ou tout simplement de manager une équipe projet comprenant des data scientists, en étant à même de dialoguer avec eux de façon efficace.


Le livre ne se cantonne pas aux algorithmes du "machine learning", il aborde divers sujets importants comme le traitement du langage naturel, les séries temporelles, la logique floue, la manipulation des images.

La dynamique de l'ouvrage soutient le lecteur pas à pas dans sa découverte des data sciences et l'évolution de ses compétences théoriques et pratiques. Le praticien en exercice y découvrira également de nombreux savoir-faire à acquérir et le manager pourra surfer sur l'ouvrage après avoir lu attentivement le bestiaire des data sciences de l'introduction, qui sans inexactitude ou vulgarisation excessive présente le sujet en faisant l'économie de mathématiques ou de formalismes dissuasifs.

Édition : ENI - 663 pages , 1er mars 2016

ISBN10 : 2409000436 - ISBN13 : 9782409000430

Commandez sur www.amazon.fr :

54.00 € TTC (prix éditeur 54.00 € TTC)
  • Introduction
  • Premiers pas avec R
  • Maîtriser les bases
  • Techniques et algorithmes incontournables
  • Cadre méthodologique du data scientist
  • Traitement du langage naturel
  • Graphes et réseaux
  • Autres problèmes, autres solutions
  • Feature Engineering
  • Compléments utiles
  • Annexes
Critique du livre par la rédaction Nicolas Vallée le 25 juillet 2016
Cet ouvrage est destiné à un public soucieux de découvrir le langage R et son utilisation pour manipuler des jeux de données, leur appliquer quelques grands algorithmes classiques et obtenir rapidement un rendu visuel.
Dans le premier chapitre, le lecteur trouvera plus de 50 pages présentant quelques concepts se cachant derrière le terme « big data », la présentation rapide de techniques de classification et d'apprentissage, puis une présentation (trop ?) succincte de l'écosystème Hadoop.
Les chapitres suivants seront une initiation au langage R, illustrée par des exemples de toutes les techniques évoquées au chapitre 1. Cette partie s'avèrera extrêmement dense, et très utile pour se former à l'utilisation pratique de R.

En revanche, un certain lectorat pourra, à juste titre, reprocher l'absence de recul et d'approche théorique. Finalement, le lecteur saura utiliser les outils, mais n'aura pas forcément la maturité nécessaire pour faire mieux qu'appliquer les recettes présentées en espérant que le résultat soit utilisable.
Critique du livre par la rédaction Thibaut Cuvelier le 1er juillet 2017
La « science des données » se veut à la mode, ce qui incite à la publication de nombreux livres sur ce sujet. Les axes d'approche sont multiples et variés : du côté purement académique (les algorithmes d'apprentissage, étudiés dans l'abstrait) à l'extrême pragmatique (utiliser ces algorithes commes des boîtes noires). Cet ouvrage se place entre ces deux extrêmes, ce qui le rend, de prime abord, intéressant pour un public large. La présence du terme (voire jargonnerie) « big data » donne l'impression qu'il sera sujet de grands volumes de données, mais l'auteur n'en traite que très rapidement, se focalisant sur les aspects de traitement des données, de leur visualisation et de l'application des algorithmes principaux d'apprentissage automatique.

D'une manière générale, ce livre déçoit par son manque de structure. Les sections se succèdent sans nécessairement avoir de lien entre elles, en présentant parfois approximativement des techniques issues des statistiques et de l'apprentissage automatique sans vraiment de recul. Par exemple, on aura droit à une présentation des data frames de R, très rapidement suivie de la notion d'arbre de décision — sans que les deux aient l'air liés d'une quelconque manière — ou encore à RCommander juste après une introduction à la notion de variable aléatoire. Cette construction déstructurée pourrait être avantageuse pour un public plutôt débutant, sans bagage conséquent en mathématiques ou en programmation, qui aura ainsi la possibilité de tester directement la syntaxe de R entre le chargement d'un jeu de données et son exploitation par apprentissage automatique, sans s'allourdir de considérations autres que pratiques. Néanmoins, une structure assumée aiderait certains à comprendre… et surtout à utiliser l'ouvrage comme référence.

Cet ouvrage contient une introduction à la programmation en R de manière intuitive, renforcée par quantité d'exemples : elle devrait donner les bases à ceux qui n'ont que très peu touché à la programmation, des bases suffisantes pour écrire leur propre code proprement — même en utilisant l'approche orientée objet. Cependant, par la suite, l'auteur ne convainc pas réellement que R est l'outil le plus approprié pour ce cas d'utilisation, notamment à cause du nombre d'avertissements égrainés tout au long de l'ouvrage, autant d'indicateurs que le langage est piégeux. Un bon nombre d'outils est présenté, mais très rarement approfondi : par exemple, dplyr est très rapidement présenté, mais tout aussi vite oublié, sans montrer réellement ses apports par rapport aux fonctionnalités de base de R.

Le premier chapitre du livre est néanmoins très intéressant, notamment pour son bestiaire de la science des données : tous les concepts de base y sont représentés, dont une série graphiquement. Les explications sont succinctes, parfois approximatives, mais facilitent la compréhension du domaine dans son ensemble, chaque élément menant au suivant.
L'autre chapitre qui fait sortir ce livre de la moyenne concerne le suivi d'un projet de développement dans le domaine de la science des données. Il devrait aider le lecteur à s'organiser en situation réelle, notamment en pointant les différences par rapport aux cycles de développement logiciel.

Tout au long de l'ouvrage, l'auteur ne suit qu'une seule approche : comprendre le jeu de données (à l'aide de graphiques, principalement) aide à le modéliser, c'est-à-dire à choisir et appliquer un algorithme d'apprentissage automatique. L'approche inverse, qui consiste à exploiter le résultat d'algorithmes d'apprentissage pour analyser les données, n'est reléguée qu'à quelques notes éparses (à peine parle-t-on de l'importance des variables déterminée par une forêt aléatoire). On a là l'impression que l'auteur a une bonne expérience du domaine, avec un biais très fort envers les solutions très pragmatiques, mais nettement moins envers la recherche, toujours florissante dans le domaine — un comble, quand l'un des objectifs annoncés du livre est de mener à un niveau de compréhension suffisant du domaine pour aborder la littérature scientifique de pointe. Les notions théoriques ne sont toutefois pas oubliées, avec des présentations assez détaillées en ce qui concerne les probabilités et variables aléatoires (jusqu'à préciser la définition d'une tribu !) ou encore l'algèbre linéaire — sans que ces rappels soient réellement mis en rapport avec le reste de l'ouvrage.

Certains sujets sont abordés de manière extrêmement superficielle (comme le traitement d'images ou encore la logique floue), les rendant strictement inutiles. D'autres le sont, mais sans que ce soit justifié (le niveau de détail des variables aléatoires ou encore l'optimisation par essaims) : ces outils ne sont pas mis en lien avec le reste des thèmes abordés.

En résumé, ce livre pourrait être utile pour des débutants dans le domaine, qui n'ont pas une grande expérience dans le domaine ou un bagage mathématique poussé. Ces gens pourront profiter du livre, en omettant les parties trop mathématiques abstraites. Cela ne signifie pas que, pour ce public, tous les objectifs annoncés sont atteints. Difficile d'être pleinement opérationnel après uniquement la lecture de ce livre, de « s'autoformer », même en approfondissant chacun des exemples. Par contre, le niveau d'exposition devrait être suffisant pour dialoguer en profondeur avec des personnes dont la science des données est le domaine de prédilection.




 Poster une réponse

Avatar de gorgonite gorgonite - Rédacteur/Modérateur https://www.developpez.com
le 25/07/2016 à 11:43
Data Scientist et langage R
Guide d'autoformation à l'exploitation des Big Data
Tous les experts s'accordent à dire que 90% des usages du Big Data proviennent de l'utilisation des data sciences. L'objectif de ce livre est de proposer une formation complète et opérationnelle sur les data sciences qui permet de délivrer des solutions via l'usage du langage R.

Ainsi, l'auteur propose un parcours didactique et professionnalisant qui, sans autre pré-requis qu'un niveau Bac en mathématiques et une grande curiosité, permet au lecteur :
  • de s'intégrer à une équipe de data scientists,
  • d'aborder des articles de recherche possédant une haute teneur en mathématiques,
  • le cas échéant de développer en langage R, y compris des algorithmes nouveaux et de beaux graphiques,
  • ou tout simplement de manager une équipe projet comprenant des data scientists, en étant à même de dialoguer avec eux de façon efficace.


Le livre ne se cantonne pas aux algorithmes du "machine learning", il aborde divers sujets importants comme le traitement du langage naturel, les séries temporelles, la logique floue, la manipulation des images.

La dynamique de l'ouvrage soutient le lecteur pas à pas dans sa découverte des data sciences et l'évolution de ses compétences théoriques et pratiques. Le praticien en exercice y découvrira également de nombreux savoir-faire à acquérir et le manager pourra surfer sur l'ouvrage après avoir lu attentivement le bestiaire des data sciences de l'introduction, qui sans inexactitude ou vulgarisation excessive présente le sujet en faisant l'économie de mathématiques ou de formalismes dissuasifs.

[Lire la suite]




couverture du livre Data Visualisation

Note 5 drapeau
Détails du livre
Sommaire
Critiques (1)
0 commentaire
 
 

Data Visualisation

De l'extraction des données à leur représentation graphique

de
Traducteurs : Xavier Guesnu
Public visé : Débutant

Résumé de l'éditeur

L'essor des nouvelles technologies et du Web a extraordinairement accéléré et simplifié la collecte, le stockage et l'accès aux données. Analysées et présentées de façon explicite et sensée, elles contribuent à faciliter la prise de décision, partager les connaissances et les idées, porter à un regard plus objectif sur le monde.
La data visualisation est ainsi devenue une discipline à part entière, outil privilégié des datajournalistes, scientifiques, statisticiens, ingénieurs, graphistes, designers, chercheurs en sciences de l'information, spécialistes du marketing. Pionnier de cette approche innovante, Nathan Yau présente dans cet ouvrage les meilleurs moyens de collecter, d'explorer, d'analyser et de représenter de façon créative de larges ensembles de données.

Édition : Eyrolles - 355 pages , 1re édition, 24 octobre 2013

ISBN10 : 2212135998 - ISBN13 : 9782212135992

Commandez sur www.amazon.fr :

33.25 € TTC (prix éditeur 33.25 € TTC)
  • Introduction
  • Raconter une histoire avec les données
  • Manipulation de données
  • Choix des outils pour la visualisation des données
  • Visualisation des modèles temporels
  • Visualisation des proportions
  • Visualisation des relations
  • Identification des différences
  • Visualisation des relations spatiales
  • Concevoir avec un objectif
Critique du livre par la rédaction stoyak le 19 avril 2014
Besoin d'un livre d'introduction à la visualisation des données ? En français ? Ce livre est pour vous !
Il présente les différents types de graphes et représentations qu'il est possible de réaliser en fonction de leurs applications (modèles temporels, proportions, relations...).
L'auteur propose des données à interpréter et des sites pour en collecter et commencer à travailler. La manipulation et la structuration des données est proposée avec Python ou encore R, avec des exemples de codes simples.

Un bon livre pour appréhender la visualisation des données !




 Poster une réponse

Avatar de stoyak stoyak - Rédactrice https://www.developpez.com
le 19/04/2014 à 9:49
Bonjour,

Une nouvelle critique a été ajoutée pour le livre Data Visualisation. N'hésitez pas à le lire et à ajouter vos commentaires !

couverture du livre Big Data et Machine Learning

Note 4.5 drapeau
Détails du livre
Sommaire
Critiques (3)
0 commentaire
 
 

Big Data et Machine Learning

Manuel du data scientist

de
Public visé : Intermédiaire

Résumé de l'éditeur

Cet ouvrage s’adresse à tous ceux qui réfléchissent à la meilleure utilisation possible des données au sein de l’entreprise, qu’ils soient data scientists, DSI, chefs de projets ou spécialistes métier.
Le Big Data s’est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel grâce à l’exploitation de leurs données clients, fournisseurs, produits, processus, machines, etc.
Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ?
Ce livre est un guide pour comprendre les enjeux d’un projet Big Data, en appréhender les concepts sous-jacents (en particulier le machine learning) et acquérir les compétences nécessaires à la mise en place d’un data lab.
Il combine la présentation :
  • de notions théoriques (traitement statistique des données, calcul distribué...) ;
  • d’outils (écosystème Hadoop, Storm...) ;
  • d’exemples de machine learning ;
  • d’une organisation typique d’un projet de data science.

Édition : Dunod - 240 pages , 1re édition, 18 février 2015

ISBN10 : 2100720740 - ISBN13 : 9782100720743

Commandez sur www.amazon.fr :

29.90 € TTC (prix éditeur 29.90 € TTC)
Sommaire Les fondements du Big Data.
  • Les origines du Big Data.
    • Le Big Data dans les organisations.
    • Le mouvement NoSQL.
    • L’algorithme MapReduce et le framework Hadoop.
  • Le métier de data scientist.
    • Le quotidien du data scientist.
    • Exploration et préparation de données.
    • Le machine learning.
    • La visualisation des données.
  • Les outils du Big Data.
    • L’écosystème Hadoop.
    • Analyse de logs avec Pig et Hive.
    • Les architectures λ.
    • Apache Storm.

Critique du livre par la rédaction Mickael BARON le 31 mars 2015
La couverture du livre donne le ton, c'est un ouvrage qui s'adresse aux personnes intéressées par le métier de « Data Scientist », le buzz word du moment. L'ouvrage se décompose en trois grandes parties. La première discute du Big Data, de ses origines, comment il est intégré dans les entreprises et des nouveaux outils pour le stockage (NoSQL) et le traitement (MapReduce). Dans une deuxième partie, les auteurs s'intéressent principalement au cycle de vie de la donnée et présentent essentiellement de nombreux algorithmes de machine Learning. Enfin une dernière partie se focalise sur les outils pour faire du Big Data. De manière générale, cet ouvrage est très agréable à lire. Il propose de nombreux retours d'expérience et d'exemples simples qui illustrent la présentation des algorithmes de machine Learning.

Cet ouvrage n'est pas du tout technique, vous ne trouverez pas de code Java sur comment développer un algorithme MapReduce. Il ne demande pas de connaissance approfondie. Il s'agit d'un livre qui présente les concepts autour du machine Learning et donne un horizon de l'écosystème existant concernant les outils dédiés. De mon point de vue, ce livre a su compléter mes connaissances en termes d'usage des technologies BigData. En effet, je me suis intéressé au monde du Big Data en commençant par la technique via Hadoop et certains NoSQL. Toutefois, il m'était toujours difficile de savoir à quel moment exploiter ces technologies, les cas réels. Il est difficile de s'y émerger quand on ne travaille pas explicitement dessus. Ce livre apporte des débuts de réponse. J'apprécie aussi l'honnêteté des auteurs qui mettent en garde les lecteurs : tout problème ne se résout pas forcément par un problème Big Data !

Concernant les quelques points négatifs, j'en ai relevé quelques-uns qui sont globalement très légers.
  • Le premier concerne la troisième partie qui se focalise sur les outils pour faire du Big Data. Je trouve qu'un grand nombre de chapitres de cette dernière partie auraient pu être mis en première partie et consacrer une partie exclusive aux études de cas. Certes, il y a un chapitre sur l'utilisation de Hive et Pig pour le traitement de logs, mais un chapitre spécifique avec plusieurs études de cas aurait pu être intéressant. J'ai eu quelque mal à trouver comment appliquer les algorithmes de machine Learning sur le modèle de programmation MapReduce.
  • Le deuxième concerne l'utilisation exclusive MapReduce comme unique modèle de programmation. Certes les auteurs citent clairement qu'il y a un nouveau besoin de modèle de programmation temps réel, que le modèle de programmation de Spark est plus efficace face à MapReduce, mais tout au long de la lecture, on peut penser qu'il n'y a que celui-ci. J'ai hésité à donner ce point négatif, mais le livre est quand même récent, il date de 2015.

En conclusion, il s'agit d'un très bon livre, qui structure le cycle de vie de la donnée et donne des informations pertinentes.
Critique du livre par la rédaction Nassima BENAMMAR le 31 mars 2015
Ce livre expose des notions de base sur big data, comme l'indique son titre, et du data science. Il se compose de trois parties.

La première et la troisième partie portent principalement sur le big data et les technologies nouvelles dans ce domaine telles que l'algorithme Map Reduce, l'architecture Lambda et la plateforme Hadoop.

La deuxième partie porte sur le data science et principalement sur l'application du machine learning en citant ses différents algorithmes et en exposant les démarches d'un data scientist dans la conception de sa solution.

Le livre présente des explications simples de multiples notions liées au big data et au data science, grâce à des illustratifs faciles à comprendre, notamment dans la deuxième partie où il expose quelques exemples concrets sur l'impact du data science sur le succès des entreprises ainsi que sur l'interprétation des données dans des cas réels.

Ce qui doit être pris en considération (et qui est d'ailleurs mentionné au début du livre) est le fait que ces trois parties sont indépendantes et peuvent être lues séparément, autrement le lecteur risque de se perdre, car il n'y a pas d’enchaînement logique entre ces trois parties.

Enfin, ce livre est un bon manuel pour les professionnels de l'informatique décisionnelle qui veulent mieux exploiter leurs données et aussi pour les développeurs et architectes qui souhaitent connaitre des généralités sur le big data et le data science.
Critique du livre par la rédaction Lucas Girardin le 15 janvier 2016
Big Data et Data Scientist deux mots (quatre en réalité mais qui ne marche que par deux) que l'on entend et trouve un peu partout. Cependant dur de réussir à comprendre ce qui se cache derrière. Qu'est-ce qui fait qu'un gisement de donnée est appelé Big Data alors que d'autre non ? Quel est le véritable boulot d'un Data Scientist et comment le devient-on ? Comment différencier le baratin commercial de la réalité du terrain ? Voila déjà a quoi sert ce livre et rien que pour ça il mérite d'être lu. Mais il va encore plus loin en expliquant quel outil existe pour faire du big data et les différents algorithmes. Sans connaissance mathématique et notamment en statistique ces passages sont assez durs à lire et à comprendre mais il reste nécessaire de connaitre leurs utilités et leurs cas d’utilisations.

Ce livre explique aussi ce qu'est le célèbre algorithme MapReduce. A quoi il sert et les problématique qu'il résout. Hadoop est aussi passer à la moulinette pour comprendre son principe, des rappels sur le NoSQL sont abordés sans trop rentrer dans le détail toute fois. Avec ce livre on fait un grand bon dans la compréhension de l'informatique aujourd'hui. Pour quiconque qui s’intéresse au différent mouvement de nos jours, c'est le livre à lire. Mieux même, toute personne souhaitant aborder le big data pour la première fois, c'est aussi le meilleurs point de départ que l'on puisse conseiller. En plus des étudiants en informatique, des DSI, des développeurs et de toute personne qui est informaticiens à qui on conseille de lire des livres en général, celui-ci je le conseillerai aussi au métier car en plus de peaufiner leur culture sur le Big Data ils se doivent de connaitre le métier de Data Scientist qui a mon sens représente une véritable évolution dans la relation Métier-DSI.

Avec ce livre j’ai pu participer à des conférences et des présentations d’outils de Big Data comme Zepelin ou Spark et comprendre ce qui m’était raconté. Je ne regrette définitivement pas la lecture de ce livre.




 Poster une réponse

Avatar de Lana.Bauer Lana.Bauer - Expert éminent sénior https://www.developpez.com
le 31/03/2015 à 23:51
Bonjour,

La rédaction Developpez a lu pour vous :

Cet ouvrage s’adresse à tous ceux qui réfléchissent à la meilleure utilisation possible des données au sein de l’entreprise, qu’ils soient data scientists, DSI, chefs de projets ou spécialistes métier.
Le Big Data s’est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel grâce à l’exploitation de leurs données clients, fournisseurs, produits, processus, machines, etc.
Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ?
Ce livre est un guide pour comprendre les enjeux d’un projet Big Data, en appréhender les concepts sous-jacents (en particulier le machine learning) et acquérir les compétences nécessaires à la mise en place d’un data lab.
Il combine la présentation :

  • de notions théoriques (traitement statistique des données, calcul distribué...) ;
  • d’outils (écosystème Hadoop, Storm...) ;
  • d’exemples de machine learning ;
  • d’une organisation typique d’un projet de data science.


Responsable bénévole de la rubrique R : djibril -