À l’origine : la data
Assez logiquement, le data scientist a besoin de données. En 2017 nous avons des quantités de données astronomiques à analyser, on peut dire à juste titre que nous sommes dans l’aire du Big Data. Le professionnel obtient des données de qualité pour les traiter et en extraire diverses conclusions.
L’objectif de la data science
De façon totalement arbitraire et didactique, nous allons décrire l’objectif final avant de discuter des moyens à notre disposition pour y arriver.
Le but de la data science est toujours de répondre à une problématique. Cette question centrale peut être très variable en fonction des domaines.
Par exemple Gmail pourrait demander : “L’e-mail reçu est un mail désirable ou un SPAM ?”, la CIA : “Cette personne arrivant sur le territoire est-elle ami ou ennemi du pays ?”, Nespresso : “Comment vendre plus de dosettes sur notre site internet?”, ou Siri : “Que puis-je faire pour vous ?”. Soit dit en passant, Siri est ce qu’on appelle un produit de Data Science.
La data science est donc un outil permettant de répondre à des problèmes divers et variés en s’appuyant sur les preuves que les données peuvent nous offrir.
Les moyens à notre disposition
Comme présenté dans la figure précédente, la data science se base sur un socle théorique mathématique et l’utilisation d’outils technologiques pour analyser les données au service d’une stratégie définie pour répondre à notre problématique.
Différents types de stratégies
Selon notre objectif nous pourrons utiliser différentes stratégies, portant des noms très à la mode et parfois mal compris. Voici un schéma des deux types de stratégies :
Ces deux approches peuvent coexister pour certaines problématiques.
Nous pourrons maintenant énumérer les termes souvent utilisés tels que machine learning ou AI pour les rapprocher des stratégies et les définir rapidement. Bien sûr, la liste n’est pas exhaustive.
- Recherche de corrélations :
- Data analysis : l’analyse des données pour rechercher des corrélations intéressantes.
- Feature engineering : l’analyse des variables de nos données, et parfois la création de nouvelles variables, dans un but analytique ou prédictif.
- Développement de produits de données :
- Machine learning : algorithme permettant à un ordinateur ou un serveur d’apprendre à partir de données reçues. La machine pourra améliorer ses compétences en temps réel, à mesure qu’elle reçoit de nouvelles données.
- Deep learning : ici, l’apprentissage sera moins supervisé que dans le machine learning, et la machine pourra reconnaître des types de données, les traiter automatiquement pour rechercher des corrélations ou créer des modèles de prédiction. Les modèles de deep learning peuvent être qualifiés de plus “intelligents” que les modèles de machine learning.
- AI : Artificial Intelligence, ce terme est complexe et comporte un idéal de reconstitution d’une intelligence semblable à l’humain, voire supra-humaine. La définition même de ce terme prête aujourd’hui à controverse. Il existe déjà plusieurs intelligences artificielles, dépassant le cerveau humain dans certains domaines. On peut citer en exemple le programme de Google DeepMind qui a appris à jouer puis battu au jeu de Go le champion Lee Sedol, en trois jours.
Quelques exemples concrets
L’avènement de la data science a permis de grandes avancées dans nos vies, en voici quelques exemples très divers
- Siri, Amazon Echo ou Google Home sont des produits de data science, qui peuvent comprendre des ordres et les exécuter.
- Le filtre spam de nos adresses e-mail.
- La traque de Ben Laden, aurait été grandement aidée par la société de Data Science Palantir, qui n’a cependant pas confirmé l’information (source : govtech.com).
- Les propositions de film de Netflix sont directement guidés par nos données.
Conclusion
Pour conclure, la data science s’applique aujourd’hui à développer tous les aspects de notre écosystème industriel, médical, sécuritaire et personnel. Nous pouvons anticiper de grandes avancées comme la voiture autonome par exemple, à mesure que la technologie permet de traiter efficacement de grandes quantités de données et que les cerveaux de nombreux data scientists curieux et talentueux proposeront de nouvelles solutions à tous les problèmes que l’esprit humain saura trouver.
Suivez-moi sur Linkedin ! https://www.linkedin.com/in/yoan-bidart/








Ce site respecte les principes de la charte HONcode.
Il y a 0 commentaires
Laisser un commentaire
Un avis ?
Laissez un commentaire !