Les éditeurs d’outils ETL font face actuellement, à une concurrence rude. Cette situation tire son origine de l’utilisation de logiciels et d’outils de plus en plus nombreux par les entreprises. Elles désirent sans répit procéder à des analyses, des croisements de leurs données dans l’optique d’une maîtrise et d’une fiabilité optimale. C’est ainsi que de nombreux outils permettant l’extraction, la transformation et le loading de données abondent sur le marché. Les 3 ETL phares sont Informatica, Genio et DataStage. Pour une entreprise souhaitant disposer d’un outil ETL efficace et complet, DataStage s’avère parfait.
Qu’est-ce que DataStage ? Quel rôle joue-t-il ? Quels modules offre-t-il ? Quelles sont ses différentes versions ? Comment l’installer ? Le présent article répond à toutes ces interrogations.
Qu’est-ce que DataStage ?
Lancé pour la première fois par VMark au milieu des années 90, DataStage est un outil ETL utilisé pour extraire, transformer et charger des données de la source vers la destination cible. La source de ces données peut inclure des fichiers séquentiels, des fichiers indexés, des bases de données relationnelles, des sources de données externes, des archives, des applications d’entreprise, etc. L’outil est utilisé pour faciliter l’analyse commerciale en fournissant des données de qualité et pour obtenir une intelligence économique.
Quel est le rôle de cette solution ?
La solution permet notamment :
- La construction d’un flux de données qui extrait les informations issues de plusieurs sources. La transformation desdites données au format attendu et leur remise aux bases de données ou applications cibles ;
- La connexion directe aux applications de l’entreprise en tant que sources ou cibles, veillant ainsi à ce que les données soient pertinentes, complètes et exactes ;
- La réduction des temps de développement ;
- L’amélioration de la cohérence de la conception et du déploiement à l’aide de plusieurs fonctions prédéfinies ;
- La réduction du cycle de réalisation du projet en travaillant avec un ensemble d’outils commun.
Modules
L’outil, compatible avec un environnement de travail Windows ou Linux, propose les modules suivants :
- DataStage Designer : c’est une interface de conception utilisée pour créer des applications ou des tâches DataStage. En effet, elle spécifie la source, la transformation requise et la destination des données. Les travaux sont compilés pour créer un exécutable qui est planifié par le directeur et exécuté par le serveur. En résumé, DataStage Designer permet la création, l’édition et l’exécution des travaux avec une interface graphique.
- DataStage Director : module utilisé pour valider, planifier, exécuter et surveiller les travaux du serveur DataStage ainsi que les travaux parallèles. Ce module permet notamment de suivre l’évolution des travaux au sein des projets de l’utilisateur. Il fournit des statistiques pour entrevoir la qualité des résultats obtenus. Si un travail rencontre une difficulté, il donne les détails de l’opération pour y remédier grâce à un journal d’activités.
- DataStage Administrator : module utilisé pour les tâches d’administration. Cela inclut la configuration des utilisateurs DataStage, la configuration des critères de purge et la création et le déplacement de projets.
- DataStage Manager : interface principale du Repository d’ETL DataStage. Elle est utilisée pour le stockage et la gestion des métadonnées réutilisables.
Versions de l’outil
Les différentes versions de DataStage disponibles sur le marché jusqu’à présent étaient Enterprise Edition (PX), Server Edition, MVS Edition, DataStage pour PeopleSoft, etc. La dernière édition est IBM InfoSphere DataStage.
Installation de la solution
Pour installer et configurer la solution, vous devez avoir les fichiers suivants dans votre configuration :
Pour Windows :
- EtlDeploymentPackage-windows-oracle.pkg
- EtlDeploymentPackage-windows-db2.pkg
Pour Linux :
- EtlDeploymentPackage-linux-db2.pkg
- EtlDeploymentPackage-linux-oracle.pkg
DataStage est un produit très complet et bien fini. C’est la raison pour laquelle ses fonctions très prisées le démarquent aisément du reste du marché des ETL.
Depuis plus de 15 ans maintenant, je travaille sur des sujets liés à la BI et à l’amélioration des processus. J’ai participé à un grand nombre de projets en tant que leader technique sur de nombreuses technologies.
N’hésitez pas à me faire un retour sur cet article ou à me contacter sur LinkedIn pour échanger sur ces sujets !
Alexis