DEVELOPPEUR BIG DATA / DATA SCIENTIST
+ 5 années d’expérience
COMPETENCES
TECHNIQUES
Data Engineering / Environnement Big Data: Spark, SBT, Maven, Hadoop, Shell, Hive, Yarn, Scala, Python, R, Hive, SQL , Oracle, Web Scrapping ( rvest, beautifulsoup, Selenium, … ) ,MongoDB, Cloudera.
Data Science: R, Python, Scala, Pandas, Numpy, Kears, OpenCV, CSPRO, QLICK SENSE,
Data visualization: Tableau, python (Matplotlib,Pandas Visualization, Seaborn), R(ggplot, plotly, Knitr, rmarkdown, leaflet, shiny, …).
• Apprentissage supervisé : Régression linéaire, Régression Logistique, Support Vector Machine (SVM), Arbre de Décision, k Nearest Neighbors (KNN), Naïve Bayes, Classification.
• Apprentissage non-supervisé : K-means, clustering.
• Statistiques : Analyse en composantes Principales, Analyse de données, Modélisation, DataMining, Séries temporelles, Prévisions, Prédictions, Tests et Estimations, Méthodes de sondages, TextMining.
Préparation et nettoyage des données : ETL, ELT, gestion des anomalies.
Systèmes d’exploitation : Linux, Windows.
Langages de programmation : Java, Python, R, Scala, SQL, JavaScript.
IDE : Jupiter, Spyder, Intellij, RStudio.
Web : RShiny, HTML, CSS,JavaScript.
Bureautique : Microsoft Word, Excel, PowerPoint, Access, Latex.
Gestion de projet : SCRUM,GitHub,GitLab.
Langues : Anglais confirmé (TOEIC 920)
EXPERIENCES
MARS 2019 – à ce jour : DEVELOPPEUR BIG DATA / DATA SCIENTIST- FONCIA – Paris
Mission réalisée
Contexte : Migration des données des clients FONCIA de l’Oracle vers un DataLake
Réalisation :
• Création des modèles de données.
• Préparation et nettoyage de données.
• Mise en place du paterne ELT (Extract Load Transfrom).
• Mise en place d’un DataLake pour avoir une vision 360 des données.
• Traduction des scripts JS de migration vers Hive QL/ Spark SQL.
• Développement des mappeurs de collections.
• Détections et corrections des erreurs et anomalies.
• Gestions des tickets et besoins métiers.
• Mise en place du connecteur spark-mongo pour la gestion des types natifs (ObjectID, ISODate…).
• Utilisation du SBT pour la gestion des dépendances du projet et Gitlab pour le versioning.
• Création des scripts Bash pour le déploiement du jar via spark-submit.
• Développement des patchs pour l’évolution de la data dans l’environnement de la production.
• Surveillance des jobs Spark de migration des données.
Environnement technique :
Spark, SBT, Hadoop, Shell, Hive, Yarn, Scala, Python, Hive, AWS, JavaScript, Oracle, MongoDB, Cloudera, R, Rshiny
DECEMBRE 2017 – FEVRIER 2019 : DEVELOPPEUR BIG DATA / DATA SCIENTIST- Renault – Nanterre
Mission réalisée
Contexte : Mise en place d’une architecture technique applicative BigData (DataLake)
Réalisation :
• Développement des pipelines d’ingestion de flux de données.
• Préparation et nettoyage des données.
• Mise en place du paterne ELT (Extract Load Transfrom)
• Collecte et analyse en temps réel des données.
• Création des tableaux de restitution des donnés.
• Ordonnancement des jobs Batch avec Oozie.
Environnement technique :
Spark, Hadoop, Hive, Yarn, Scala, Python, Oozie, Sqoop, Hortonworks, R, Rshiny
OCTOBRE 2016 – NOVEMBRE 2017 : DEVELOPPEUR BIG DATA / DATA SCIENTIST (MULTI PROJETS)- OpenWay – Tunisie
Mission réalisée
Contexte : Détections des visages et des émotions à partir des photos et des vidéos (Octobre 2017 Novembre)
Réalisation:
• Spécifications techniques et choix des technologies.
• Collecte des données.
• Préparation et nettoyage des données.
• Développement des modèles statistiques (Deep Learning).
• Analyse de données.
• Tests et estimations.
Environnement technique :
Python, Kears, OpenCV, Pandas, Numpy.
Contexte : Analyses sentimentales sur les réseaux sociaux. (Aout 2017 – Septembre 2017)
Réalisation:
• Spécifications techniques et choix des technologies.
• Collecte des données (Web Scrapping).
• Préparation et nettoyage des données.
• Développement des modèles statistiques (Deep Learning).
• Analyse de données.
• Tests et estimations.
Environnement technique :
Python, Selenium, Pandas, Numpy.
Contexte : Elaboration d’une application de visualisation de la variation du commerce extérieur de la Tunisie. (Mai 2017 – Juillet 2017)
Réalisation:
• Spécifications techniques et choix des technologies.
• Planning et conception.
• Collecte des données (Web Scrapping).
• Visualisation des graphiques.
• Analyses statistiques.
• Création d’un dashboard.
Environnement technique :
R(Rshiny), Python, SQL, CSS, HTML, Selenium ,BeautifulSoup, Pandas, Numpy.
Contexte : Modélisation des préférences des consommateurs en fonction des caractéristiques descriptives des produits. (Avril 2017)
Réalisation:
• Spécifications techniques et choix des technologies.
• Planning et conception.
• Préparation des données.
• Visualisation des graphiques.
• Analyses statistiques.
• Création d’un dashboard.
Environnement technique :
R (Rshiny), Python, SQL, Javascript, CSS, HTML.
Contexte : Mise en place des applications d’automatisation des techniques de Machine Learning de prévision du prix d’un bien d’occasion. (Octobre 2016 – Mars 2017)
Réalisation:
• Spécifications techniques et choix des technologies.
• Planning et conception.
• Collecte des données (Web Scrapping).
• Préparation et nettoyage de données.
• Modélisation (Machine Learning et Deep Learning).
• Tests et Estimations.
• Visualisation des graphiques.
• Analyses statistiques.
• Création d’un dashboard.
Environnement technique :
R(Rshiny), Python, SQL, CSS, HTML, Selenium ,BeautifulSoup, Pandas, Numpy.
JUIN 2016 – AOUT 2016 : Stage DATA SCIENTIST- Institut Pasteur – Tunisie
Mission réalisée
Contexte: Mise en place d’une application d’automatisation des différents types de modélisation.
Réalisation:
• Spécifications techniques et choix des technologies.
• Simulation des données.
• Création d’une application web.
Environnement technique :
R(Rshiny), Javascript, CSS, HTML.
JUIN 2015 – AOUT 2015 : Stage DATA ANALYST- TUNISIE-TELECOM – Tunisie
Mission réalisée
Contexte : Les facteurs agissant sur l’utilisation des clés 3G.
Réalisation:
• Création d’un questionnaire.
• Analyse en Composantes Principales. (ACP)
• Analyse des données.
Environnement technique :
R, CSPRO, WAMP
QUELQUES PROJETS REALISES
• Prédictions sur les élections législatives. (R et Excel):
o Création d’un questionnaire.
o Collecte, Analyse des données et Prédictions.
• Modélisation des préférences des consommateurs en fonction des caractéristiques descriptives des produits (R Shiny et Excel) :
o Nettoyage et Analyse des données.
o Développement d’une application de visualisation.
• Mise en place d’une application de gestion des données des étudiants. (JAVA et Wamp).
• Classification supervisée et non supervisée. Développement d’une fonction de classification. (R)
• Analyse multi-variée et visualisation des données (R Shiny, Qlik Sence et Wamp)
FORMATION
09/20 – 12/20
2019- 2020 Formation Google Cloud Platform
Formation officielle Hortonworks ;DEV 343 – HDP Developer : SSpark 2.x Developer. (en cours)
2013-2016 Diplôme National d’ingénieur en Statistiques et Analyse de l’il’information
Ecole Supérieure de la Statistique et de l’Analyse de l’Information -EESSAI – Tunisie
2012-2013 Certificat de passage aux écoles d’ingénieurs, Etudes préparatoires o Option Mathématiques-Physiques
Institut Préparatoire aux études d’Ingénieurs d’El Manar (IIPEIEM)Tunisie
2011-2012 Baccalauréat en Mathématiques.
Lycée Monji Slim, Tunisie
FeelanceDay, date création entreprise 12-05-2017 - Il y a 7 ans, forme juridique : SARL unipersonnelle, noms commerciaux REESK DIGITAL SOLUTION, adresse postale 28 RUE DE LONDRES 75009 PARIS, numéro SIREN : 829739622, numéro SIRET (siège) : 2973962200019, numéro TVA Intracommunautaire : FR28829739622, numéro RCS Paris B 829 739 622, activité (Code NAF ou APE), edition de logiciels applicatifs (5829C)
Nous passerons en revue les rapports du Freelance et du client afin de rendre la meilleure décision. Il faudra 3-5 jours ouvrables pour l’examen après avoir reçu les deux rapports.