Recherche
0

Dr Yoan Bidart – La Data Science, c’est quoi ?

Qu’est-ce que la data science 

Si il y a une question qui revient souvent dans mes discussions, c’est bien celle-ci :

Mais qu’est ce que tu fais exactement, en tant que data scientist ?”

Répondre correctement pourrait s’apparenter à un monologue assez long et abrupt pour un novice. Le but de ce court article est, à l’inverse, à tenter de répondre à cette question de manière simple et concise.

À l’origine : la data

Assez logiquement, le data scientist a besoin de données. En 2017 nous avons des quantités de données astronomiques à analyser, on peut dire à juste titre que nous sommes dans l’aire du Big Data. Le professionnel obtient des données de qualité pour les traiter et en extraire diverses conclusions.

L’objectif de la data science

De façon totalement arbitraire et didactique, nous allons décrire l’objectif final avant de discuter des moyens à notre disposition pour y arriver.

Le but de la data science est toujours de répondre à une problématique. Cette question centrale peut être très variable en fonction des domaines.

Par exemple Gmail pourrait demander : “L’e-mail reçu est un mail désirable ou un SPAM ?”, la CIA : “Cette personne arrivant sur le territoire est-elle ami ou ennemi du pays ?”, Nespresso : “Comment vendre plus de dosettes sur notre site internet?”, ou Siri : “Que puis-je faire pour vous ?”. Soit dit en passant, Siri est ce qu’on appelle un produit de Data Science.

La data science est donc un outil permettant de répondre à des problèmes divers et variés en s’appuyant sur les preuves que les données peuvent nous offrir.

Les moyens à notre disposition

data science 1

Maintenant que nous avons une origine et un objectif, on peut s’intéresser au processus permettant de répondre à une problématique à partir des données. Une définition du travail de data scientist pourrait donc être “donner la parole aux données”, mais comment s’y prend-t-on ?

Comme présenté dans la figure précédente, la data science se base sur un socle théorique mathématique et l’utilisation d’outils technologiques pour analyser les données au service d’une stratégie définie pour répondre à notre problématique.

Différents types de stratégies

Selon notre objectif nous pourrons utiliser différentes stratégies, portant des noms très à la mode et parfois mal compris. Voici un schéma des deux types de stratégies :

data science 2

Ces deux approches peuvent coexister pour certaines problématiques.

Nous pourrons maintenant énumérer les termes souvent utilisés tels que machine learning ou AI pour les rapprocher des stratégies et les définir rapidement. Bien sûr, la liste n’est pas exhaustive.

  • Recherche de corrélations :

– Data analysis : l’analyse des données pour rechercher des corrélations intéressantes.

– Feature engineering : l’analyse des variables de nos données, et parfois la création de nouvelles variables, dans un but analytique ou prédictif.

  • Développement de produits de données :

– Machine learning : algorithme permettant à un ordinateur ou un serveur d’apprendre à partir de données reçues. La machine pourra améliorer ses compétences en temps réel, à mesure qu’elle reçoit de nouvelles données.

– Deep learning : ici, l’apprentissage sera moins supervisé que dans le machine learning, et la machine pourra reconnaître des types de données, les traiter automatiquement pour rechercher des corrélations ou créer des modèles de prédiction. Les modèles de deep learning peuvent être qualifiés de plus “intelligents” que les modèles de machine learning.

– AI : Artificial Intelligence, ce terme est complexe et comporte un idéal de reconstitution d’une intelligence semblable à l’humain, voire supra-humaine. La définition même de ce terme prête aujourd’hui à controverse. Il existe déjà plusieurs intelligences artificielles, dépassant le cerveau humain dans certains domaines. On peut citer en exemple le programme de Google DeepMind qui a appris à jouer puis battu au jeu de Go le champion Lee Sedol, en trois jours.

Quelques exemples concrets

L’avènement de la data science a permis de grandes avancées dans nos vies, en voici quelques exemples très divers

  • Siri, Amazon Echo ou Google Home sont des produits de data science, qui peuvent comprendre des ordres et les exécuter.
  • Le filtre spam de nos adresses e-mail.
  • La traque de Ben Laden, aurait été grandement aidée par la société de Data Science Palantir, qui n’a cependant pas confirmé l’information (source : govtech.com).
  • Les propositions de film de Netflix sont directement guidés par nos données.

Conclusion

Pour conclure, la data science s’applique aujourd’hui à développer tous les aspects de notre écosystème industriel, médical, sécuritaire et personnel. Nous pouvons anticiper de grandes avancées comme la voiture autonome par exemple, à mesure que la technologie permet de traiter efficacement de grandes quantités de données et que les cerveaux de nombreux data scientists curieux et talentueux proposeront de nouvelles solutions à tous les problèmes que l’esprit humain saura trouver.

Suivez-moi sur Linkedin !  https://www.linkedin.com/in/yoan-bidart/

Partagez :
  • googleplus
  • linkedin
  • tumblr
  • rss
  • pinterest
  • mail

Data Scientist - Docteur en Chirurgie-Dentaire

Il y a 0 commentaires

Laisser un commentaire

Un avis ?
Laissez un commentaire !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retourner en haut de page