Premièrement on va définir ce terme “ETL”.
C’est un Acronyme de “ Extract Transform Load”
Cela peut définir des logiciels ou une fonctionnalité de logiciels uniquement, permettant d’extraire des données puis de les convertir dans un format adapté au stockage dans votre data Warehouse.
Et…. C’est quoi une Data Warehouse ? 🧐
c’est une base de données relationnelles, hébergée la plupart du temps sur un serveur dans un data center ou dans le cloud. Cette base de données intelligente va vous permettre de croiser vos datas dans le cadre de votre boulot.
Revenons donc à notre terme ETL. Vous avez compris le gros du processus mais si on essaye d’être plus précis sur les explications ça donne quoi ?
Les données vont être extraites de la source choisie afin d’être centralisées puis réinjectées dans la data Warehouse. Cependant il se peut que les données soient toutes de format différent et incompatibles avec le format de la data Warehouse.
Aucun problème le logiciel gère cela efficacement et met toutes les données dans un format compatible pour qu’elles puissent être stockées et utilisées. Qu’elles soient structurées ou non cela n’importe peu car les ETL ont énormément évolués pour répondre aux attentes de BIG data actuelles et à venir.
Petit schéma pour illustrer les trois grandes étapes :
Dans le fond quel est l’intérêt me direz-vous ?
Et bien il y en a des tonnes ! A l’air du Big data et des clouds les données migrent souvent. On change plus régulièrement de logiciels et/ou d’hébergeur et ce serait dommage de perdre les données à chaque changement.
D’où l’intérêt de logiciels et ou de fonctionnalités permettant le transfert de données : les ETL.
Dans le cadre de notre travail nous utilisons des ETL lorsqu’il s’agit de :
- Migrer des bases de données d’un vieux logiciel vers une version plus récente.
- Changer d’hébergeur si le client le souhaite.
En bref maintenant vous savez ce que signifie le terme ETL 😁
N’hésitez pas aussi à rejoindre notre communauté Discord pour poser toutes vos questions.