IDOS DIGITAL, France 12/2022 –Aujourd’hui
Data Scientist
Contexte du Projet : Classification des mails
Mission :
-Collecter les mails et les stocker dans une base de données.
– Appliquer des algorithmes non supervisés afin de labéliser les mails et créer des nouvelles catégories.
– Entrainer le modèle afin de classifier les nouveaux mails
Environnement Technique : Python/Machine/Deep Learnin
DATAMOTOR 08/ 2021 – 12/2022
Data Engineer
Projet 1 : Plateforme de tracking des produits
Méthodologie : Scrum/Agile
Mission :
– Développer un microservice afin de crawler quotidiennement une énorme quantité de données à partir de différents sites tels que : Amazon, Idealo, Zalando, Ebay.. et à partir des réseaux sociaux (Facebook et Instagram).
– Utiliser les meilleurs Proxies et Anti-captcha pour réduire les bans dans les sites sécurisés.
– Examiner le code en suivant les meilleures pratiques (code propre et simple, tests continus, contrôle de version)
– Créer des APIs afin de faciliter la communication entre les microservices du projet.
– Prétraiter et nettoyer les données texte en utilisant les bibliothèques et les méthodes de NLP comme tokenization, suppression de stop words, stemming, vectorization, etc.
-Tester plusieurs algorithmes de Machine Learning et Deep Learning (SVM, linear regression,
BERT,LSTM..) afin de choisir l’algorithme le plus performant pour classifier les commentaires des produits en se basant sur les métriques d’évaluation comme l’accuracy, la précision, F1-score, etc.
– Sauvegarder les données crawlées et analysées dans une base NoSql.
-Documenter le travail avec OpenAPI (API Swagger RESTFul)
-Superviser l’état de micro-service sur gcp (consulter les logs afin de savoir s’il y a des erreurs, vérifier si tous les pods sont up, suivre les consommations des ressources pour le service…)
-Créer un job afin de lancer le micro-service de scraping chaque jour pour collecter les données.
Equipe : 4 Data scientist/engineer, Scrum master, équipe fullStack, équipe devops
Environnement Technique : Python, Machine/Deep Learning, Selenium Flask Elasticsearch Gitlab GCP
Projet 2 : Prédiction et analyse des données de Techno Design GmbH
Mission :
-Visualiser les données historiques de 3 ans de l’entreprise afin de comprendre les trafics de vente.
-Uploader les différentes ressources des données dans un Data Lake.
-Prétraiter et nettoyer les données.
-Ajouter d’autres features pour faciliter la prédiction (ajout de météo en utilisant des Api, ajout de localisation des stores, ajout des jours fériés,etc).
-Préparer des modèles afin de prédire la quantité de stock à préparer pour la saison prochaine, les ventes des produits sélectionnés pour la prochaine période
Environnement Technique : Python Machine/Deep Learning ETL SQL Gitlab GCP
AUTOBIZ 10/2019-08/2021
Team lead équipe Big Data
Méthodologie : Scrum/Agile
Projet 1 : Analyse des marchés automobile
Mission :
-Superviser les deux équipes de Big data (équipe Crawl et équipe Prod).
-Assurer la liaison entre les équipes commerciales (Berlin, Paris) et informatiques pour répondre convenablement au besoin des clients.
-Préparer les charges de travail pour l’équipe et coordonner l’allocation quotidienne du travail.
-Gérer la performance et le progrès de l’équipe.
-Automatiser l’utilisation des scripts Shell pour l’équipe Production avec Jenkins.
-Diriger et guider l’équipe Crawl.
-Traiter et résoudre les problèmes techniques quand il y a un blocage dans l’équipe.
-Mentorer et former les nouveaux membres de l’équipe et préparer les documentations nécessaires
-Crawler des données massives à partir des sites immobiliers et automobiles en utilisant le langage de programmation Python et le scripting avec Bash/Shell.
-Traiter et nettoyer les données en utilisant Jupiter-Lab, Pandas, Numpy.
-Développer des scripts d’extraction et de transformation des données en utilisant SQL.
-Sauvegarder les données dans une base de données SQL.
Equipe : 12 développeurs (data scientist/engineer), Team lead, 2 Tech lead, Scrum master
Environnement Technique :Python SQL Bash/Shell Scrapy/BeautifulSoup/requests Pandas/Numpy Jenkins Redmine Gitlab Linux
Projet 2 : Système de recommandation
Mission :
-Analyser des données des évaluations des utilisateurs sur un ensemble des voitures.
-Extraire les produits les plus/moins évalués.
-Créer un système de recommandation pour recommander les produits les plus préférés aux utilisateurs en se basant sur leurs évaluations.
Environnement Technique :Python Hadoop HDFS Hive PySpark MLLib ALS
SOPRA HR 01/ 2019 – 08/2019
Data Scientist
Contexte du Projet : Réalisation d’un moteur NLP pour la classification des documents
Mission :
-Convertir les fichiers PDF ou bien papiers scannés en texte en utilisant OCR.
-Prétraiter et nettoyer les données afin de les rendre compréhensibles par les algorithmes de Deep Learning.
-Modéliser des modèles performants basés sur des algorithmes de DL, capables de classifier les documents et extraire les informations demandées.
-Déployer les modèles dans des interfaces afin de les rendre simples à utiliser.
Environnement Technique :Python Machine/Deep learning NLP OCR MongoDB NodeJs Angular7
Ajouter une formation professionnelle à votre profil. (optionnelle)
FeelanceDay, date création entreprise 12-05-2017 - Il y a 9 ans, forme juridique : SARL unipersonnelle, noms commerciaux REESK DIGITAL SOLUTION, adresse postale 28 RUE DE LONDRES 75009 PARIS, numéro SIREN : 829739622, numéro SIRET (siège) : 2973962200019, numéro TVA Intracommunautaire : FR28829739622, numéro RCS Paris B 829 739 622, activité (Code NAF ou APE), edition de logiciels applicatifs (5829C)
Nous passerons en revue les rapports du Freelance et du client afin de rendre la meilleure décision. Il faudra 3-5 jours ouvrables pour l’examen après avoir reçu les deux rapports.