Qu’est-ce que le Data Engineering et pourquoi est-il si important ?

Data Engineering

Le data engineering est de plus en plus populaire. Pour de bonnes raisons, cette étude est désormais une partie distincte des data sciences. Le data engineering se concentre sur la conception et la structure des flux de données afin d’en permettre la meilleure utilisation. Compte tenu du nombre croissant de flux de données et du volume des données, cette phase du processus de traitement des données est essentielle.

Qu’est-ce que le data engineering ?


Le data engineering est un domaine qui se concentre sur l’organisation, la classification et le choix des données afin de garantir leur traitement approprié. L’objectif de cette discipline est de sélectionner, classer et organiser les données de manière à garantir leur qualité et leur pertinence. Par conséquent, elle constitue un complément essentiel à la data science. Les deux domaines qui se chevauchaient auparavant sont désormais différents.

Le data engineering est donc la discipline qui consiste à rendre des données acceptables accessibles et utilisables par différents types de consommateurs de données (notamment les Data scientists, les Business Analysts, les Data Analysts et autres).

La popularité de la discipline est en expansion, et les statistiques le confirment. Les besoins en data engineers augmentent à un rythme de plus de 30% chaque année. Alors que le data scientist était sous les feux de la rampe il y a quelques années, les organisations font désormais les yeux doux aux datas engineers.

Qu’est-ce qui a donné naissance au data engineering ?

Beaucoup diraient que le data engineering en tant que profession existe depuis plus d’une décennie. Voire deux, depuis que les bases de données, les serveurs Microsoft SQL et l’ETL ont vu le jour. Certains diraient même depuis qu’IBM a popularisé les systèmes de gestion de bases de données dans les années 1970. Sur ce, voici un très bref rappel historique.
Dans les années 1980, le terme “ingénierie logicielle” a été inventé pour décrire en grande partie la conception des bases de données et pour inclure le génie logiciel dans l’analyse des données. Quelque part après l’essor de l’internet dans les années 1990 et 2000, le “big data” est apparu. Pourtant, les administrateurs de bases de données, les développeurs SQL et les professionnels de l’informatique travaillant dans ce domaine n’ont pas été étiquetés ” Data Engineers ” à cette époque.

Alors pourquoi ce nouveau titre professionnel ?

Résumons en disant qu’il y a eu beaucoup d’énormes changements technologiques qui ont augmenté les volumes, la variété et la vitesse des données. Vers 2011, le terme ” Data Engineer ” a commencé à apparaître dans les cercles des nouvelles entreprises axées sur les données. Telles que Facebook et AirBnB. Assis sur des montagnes de données en temps réel potentiellement précieuses, les ingénieurs logiciels de ces entreprises devaient développer des outils pour traiter toutes ces données rapidement et correctement.

Le terme ” data engineering ” a évolué pour décrire un rôle qui s’éloignait de l’utilisation des outils ETL traditionnels et développait ses propres outils pour traiter les volumes croissants de données. Avec l’essor du big data, le terme ” data engineering ” en est venu à décrire un type d’ingénierie logicielle profondément axé sur les données. Comme l’infrastructure de données, l’entreposage de données, l’exploration de données, la modélisation de données, le traitement de données ou encore la gestion des métadonnées.

Pourquoi le data engineering est-il si important aujourd’hui ?

Sans data engineering, les entreprises risquent de se noyer sous le poids de données sans signification. Vous souvenez-vous de l’expression “trouver une aiguille dans une botte de foin” ? C’est un excellent exemple de l’une des tâches clés de la data engineering. L’objectif du data engineer est de trouver, d’accéder et d’utiliser des données pertinentes.

Vous avez peut-être déjà entendu ou lu que Gartner, un organisme de conseil renommé, a constaté en 2017 que 85 % des projets de big data échouent. Cela était largement dû à un manque d’infrastructures de données fiables. On ne pouvait pas faire suffisamment confiance aux données pour fonder des décisions commerciales clés sur elles. Avance rapide jusqu’en 2019 et les choses ne s’étaient pas améliorées. Le directeur technique d’IBM a déclaré que 87 % des projets de data science n’arrivaient jamais en production. Gartner a réitéré sa prédiction selon laquelle désormais seuls 80 % des projets échoueraient. Un rapport de New Vantage a produit des statistiques similaires.

Pourquoi en est-il ainsi ?

Au cours de la dernière décennie, la plupart des entreprises ont réalisé une transformation digitale. Cela a produit des volumes inimaginables de nouveaux types de données et des données beaucoup plus complexes à une fréquence plus élevée. S’il était auparavant évident que les Data Scientists étaient nécessaires pour donner un sens à tout cela, il était moins évident que quelqu’un devait organiser et assurer la qualité, la sécurité et la disponibilité de ces données pour que les Data Scientists puissent faire leur travail.

Ainsi, au début de l’analyse des big data, on attendait très souvent des spécialistes des données qu’ils mettent en place l’infrastructure et les pipelines de données nécessaires à leur travail. Cela ne faisait pas nécessairement partie de leurs compétences ou de leurs attentes pour ce poste. Le résultat était que la modélisation des données n’était pas effectuée correctement. Il y avait des travaux redondants et une incohérence dans l’utilisation des données parmi les scientifiques des données. Ce genre de problèmes empêchait les entreprises d’être en mesure d’extraire une valeur optimale de leurs projets de données, de sorte qu’ils échouaient. Cela a également conduit à un taux élevé de rotation des Data Scientists, qui existe encore aujourd’hui.

Aujourd’hui, avec l’assaut des transformations digitales achevées des entreprises, l’Internet des objets et la course à l’IA, il est clair que les entreprises ont besoin de Data Engineers en abondance pour établir les fondations de la réussite des initiatives de la data science.
C’est pourquoi nous continuerons à voir le rôle des Data Engineers gagner en importance et en ampleur. Les entreprises ont besoin d’équipes de personnes dont le seul objectif est de traiter les données de manière à pouvoir en extraire de la valeur.


Alexis

Depuis plus de 15 ans maintenant, je travaille sur des sujets liés à la BI et à l’amélioration des processus. J’ai participé à un grand nombre de projets en tant que leader technique sur de nombreuses technologies.

N’hésitez pas à me faire un retour sur cet article ou à me contacter sur LinkedIn pour échanger sur ces sujets !

Alexis

Partager sur twitter
Partager sur linkedin

Vous aimerez aussi ...

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Recevez nos articles

Recevez chaque mois par e-mail les derniers articles et livres blancs publiés, ainsi que des informations concernant l’actualité IT ! 

Livres blancs

Partagez nos articles

Partager sur linkedin
Partager sur twitter
Partager sur email

Rechercher

une organisation rayonnante

Nous utilisons des cookies pour vous garantir la meilleure expérience sur notre site. Si vous continuez à utiliser ce dernier, nous considérerons que vous acceptez l’utilisation des cookies. Voir notre Politique de confidentialité.