Profil de OM

OM
519.00€ /j
Data Engineer Python / Scala / Spark Consultant de l’ESN
Disponible le : 13/01/2021
Localisation : France
Mobilité : Mobilité nationale
4 années d'expérience
0 missions réalisées
GCPHadoopPySparkScalaSparkSQL

OM en quelques mots

Technologies : Spark, Scala, Hadoop, AWS, GCP, Nifi, SQL, PySpark
Gestion de projet : Scrum, Agile, Git
Derniers Clients : KERING, RTE, ALLIANCE, …
Expérience : 4 ans
Perso : TB
Dispo : asap

Kering: Data Engineer
09/2019 – Aujourd’hui

Alimentation d’un datalake pour Kering et ses marques (Gucci, Saint Laurent, Balenciaga, …) dans le but d’apporter une offre de données de qualité (ingestion, traitement, analyse et visualisation) et pour en faire du dashboarding client (comportement des achats, engagement client, vente par segmentation, …) et des prédictions avec des outils de data science / machine learning

Equipe : 17 Personnes / 2 Equipes
Equipe Projet : 4 Data Engineer / 1 QA Tester / 1 Product Owner / 1 Tech Leader /

1) Ingestion et processing des données :
* Récupération des données en mode delta depuis SFTP (CSV) et des tables Cassandra vers une zone RAW, conversion en Parquet sur la zone Bronze, enrichissement des données par des indicateurs dans la zone Silver, calcul et génération des cubes de données en zone Gold.
* Création des workflows de données correspondants sur Nifi
* Stockage des alimentations sur Cassandra

2) Enrichissement et exposition :
* Croisement des données client, vente, tickets de vente, store, currency

* Attribution des tickets de vente aux campagnes publicitaires (Emails, Postal mails, SMS, MMS, WeChat)

* Calcul des indicateurs : segmentation, définition du profil client (retained, regained, new), classification des produits, localité de la transaction, la génération, …

* Génération des dashboards Clients/ Evènements/ Employés : Calcul des métriques (nombre de clients, montant des ventes, nombre de visites, nombre de clients contactables..) par rapport à une période d’analyse, la géographie (Worldwide, zone, country, store), la segmentation, le type du client, …

* Stockage des calculs résultants sur Aurora
* Mise en Production des scripts et rédaction des spécifications techniques

3) Gestion du Projet :
* Cérémonies de Scrum : DSM, Sprint Planning, Démo & Rétro, Grooming
* Participations aux ateliers de refinement des sujets et 3 amigos
* Morning Health Check et résolution des incidents de la Production

Environnement
Amazon EMR, S3, Nifi, Zeppelin, Spark Scala, PySpark, Git, Cassandra, Aurora, Tableau, JIRA, Scrum

RTE (Réseau de transport d’électricité) : Data Engineer
02/2019 – 09/2019

Le projet ODESSA, piloté au sein de l’équipe Big Data Factory et hébergé sur les plateformes de recette, vise la mise en place d’un datalake d’entreprise ouvert à différents besoins et assurer sa migration en Datacenter.

Equipe : 30 Personnes / 2 Equipes
Equipe Projet : 2 Data Engineer/ 1 Team Leader / 1 Product Owner

1) Maintenance Corrective et Adaptative :
* Prendre connaissance des développements existants afin d’en assurer la maintenance corrective et adaptative (scripts python, pyspark et bash) : Réception des données sur les Edge Nodes (FTP, FTM, Kafka Confluent, API REST), traitement en local/cluster (format initial : CSV, XML, Avro), historisation sur HDFS et mise en place des vues Hive (de CSV vers Parquet)
* Résolution des incidents en tâches prioritaires : services arrêtés, fichiers bloqués en local, problèmes liés à des MEP, …
* Réalisation des scripts de supervision sur la chaîne et de contrôle de qualité de la donnée en générant un tableau de bord
* Génération des logs exploitables par une solution Elastic Search : Format JSON
2) Ingestion et processing de données :
* Captation des données brutes en fonction des besoins qui arrivent et étudier comment mettre en place un nouveau flux : gérer les patterns des fichiers, transposition des fichiers, classification des fichiers sur HDFS en Annee/Mois/Jour, imports depuis les BD Oracle avec Sqoop
* Intégration des flux dans supervisord (Système de contrôle de processus sur Linux)
* Préparation de la migration de certains flux vers Nifi afin d’avoir un raisonnement Data Flow.
3) Industrialisation :
* Déployer le code d’installation des machines à l’aide d’Ansible (Implémentation d’un playbook): Création des users, export des variables d’environnement, installation des librairies Python depuis Nexus, création de l’arborescence, génération des keytabs, adaptation des volumes logiques des machines, …
* Déployer le code applicatif en assurant la CI/CD à l’aide de Git et Jenkins : variabilisation des environnements, avoir des fichiers de configuration séparés, ..
* Documenter les flux et chaines de transformation, l’installation des briques logicielles en mettant à jour la base de connaissance Confluence.
4) Gestion du projet :
* Interaction avec les équipes des échanges, d’administration, et l’architecte.
* Participation aux ateliers liés à la gouvernance technique du datalake où sont abordés entre autre les thèmes de la configuration et de la gestion des environnements.
* Suivi et traitements des tickets JIRA selon les priorités du Product Owner.

Environnement
Cloudera, HDFS, Hive/Impala, Python, Pyspark 2, Bash, Linux, PyCharm, Oracle, Parquet, Git, Ansible, Jenkins, Nexus, JIRA, Confluence, Scrum, FTP

Allianz : Data Engineer
04/2018 – 11/2018

Industrialisation du Data Process pour une application de détection de fraude:
Mise en œuvre d’une application Web permettant de détecter et identifier les phénomènes de fraude et de faciliter le travail des gestionnaires indemnisateurs et référents fraudes en faisant passer à la moulinette l’ensemble des sinistres à travers différents scénarios affûtés.
Equipe : 1 Project Leader/ 1 Scrum Master/ 1 Data Engineer/ 2 Data Scientist / 1 FrontEnd Developer

1) Ingestion des données :
* Identification et récupération des données depuis une zone landing en automatisant l’extraction des fichiers zippés.
* Conversion des fichiers CSV délimités vers Parquet en se basant sur les fichiers MDM ou à partir d’un schéma donné.
2) Processing :
* Intégration du delta au stock full (identification des clés primaires, opérations de jointure et de répartition, filtrage et aggrégations..)
*Optimisation des aggrégations (partitionnement dynamique des datasets, redimensionnement des exécuteurs)
3) Persistance :
* Persistance des données résultantes sur PostgreSQL et création des indexes correspondants
* Persistance des tables d’analytics depuis PostgreSQL vers Parquet et sauvegarde du backup
4) Industrialisation :
* Refactoring du code des Data Scientists en modules et fonctions génériques.
* Assurer l’intégration continue avec GitLab-CI
* Ordonnancement des batchs sur l’environnement de production
5) Gestion du Projet :
* Ateliers de scrum : Sprint Planning, DSM, Démo et Rétrospectives
* Ateliers avec les différents acteurs du projet : Data Scientists, Data Owners, Développeurs Front End
* Points hebdomadaires avec les Data Engineers (Site de Berlin)
Environnement Isilon OneFS, Pyspark 2, Luigi, PyCharm, Docker, Nomad, PostgreSQL, Parquet, GitLab CI, JIRA, Confluence, Scrum

Malakoff Mederic: Développeur Big Data
11/2016 – 03/2018

Alimentation d’un datalake pour différents cas d’usages :
churn (anticipation des résiliations), reporting churn, fraude optique, individualisation de la tarification lors du renouvellement, anticipation hospitalisation, génération de lead, contrôle médical de l’arrêt de travail

Equipe : 1 Project Leader/ 1 Scrum Master/ 1 Data Engineer/ 1 Technical Architect
1) Ingestion des données :
* Structuration du datalake en étages et compartiments
* Identification et spécification des alimentations en aval du Datalake
* Import des données sur HDFS : bases de données (Sybase, MySQL, SQLServer), fichiers CSV et fichiers Excel (Implémentation en Shell)
* Reconstitution des schémas à partir des dictionnaires des données
* Création des tables Hive correspondantes en tenant compte des alimentations en full et en incrémental
* Intégration des mécanismes de la reprise automatique dans les scripts
3) Processing :
* Consolidation des tables Hive dans le cadre d’implémentation des indicateurs sous Qlickview (couvrir l’analyse du portefeuille, stabilité des contrats, des entrées et sorties …)
4) Industrialisation :
* Ordonnancement des scripts d’ingestion avec Oozie puis TWS IBM
* Rédaction de la documentation technique et les procédures d’installation
* Gestion des incidents de Production
5) Gestion du Projet :
* Accompagnement des intégrateurs Linux pour la mise en place des scripts
* Accompagnement des Datascientists pour la mise en œuvre des algorithmes.
* Participation aux réunions de suivi de projet, ateliers d’architectures, planning des livrables et SCRUM Meetings

Environnement Hadoop, HDFS, Cloudera, HUE, Parquet, Sqoop, Pig, Hive, Impala, Kerberos, Oozie, YARN, Bash, Scala, Linux, JIRA, Scrum

Ysance: Développeur Big Data
04/2016 – 10/2016
Développement d’un système de traitement des logs en temps réel à l’aide des technologies Big Data:
La Data Management Platform (DMP) d’Ysance réconcilie les informations « First Party » générées par les utilisateurs et elle les enrichie de données « Second Party » et « Third Party » afin d’unifier les profils consommateurs qui peuvent être assemblés en segments homogènes par la suite.
• Assurer la migration du projet DMP v1 (mode batch) vers le projet DMP v2 (mode streaming)
• Développement de fonctions utilitaires génériques en vue de faciliter l’appréhension du langage
• Réalisation du Data Integration Services au sein de la DMP :
• Consommation des messages d’un topic Kafka
• Filtrage des logs et reconstruction des sessions de navigation
• Conception et calcul des indicateurs KPI
• Enrichissement des visites
• Persistance sur HDFS et Cassandra
Environnement Hortonworks, Spark 1.5, Spark Streaming, Scala, Avro, Kafka, Cassandra, Bash, Linux, Git, Jenkins, Sonar

Langues

English
Bon niveau

Historiques (0)

  • Il n'y a aucune activité.