Data Scientist spécialisé en MLOps et Intelligence Artificielle – Activité indépendante
Prestations de services en data science, automatisation des processus, développement de modèles de machine learning et solutions d’intelligence artificielle.
En tant qu’expert en data science, je vous accompagne dans la transformation de vos données en leviers stratégiques. Grâce à l’extraction d’insights pertinents et au développement de modèles intelligents, j’apporte une vision éclairée pour optimiser vos prises de décision. Mon agilité, ma curiosité analytique et mon approche proactive constituent des atouts majeurs pour toute entreprise souhaitant affiner sa stratégie et améliorer l’efficacité de ses processus décisionnels.
Je privilégie des solutions analytiques performantes, durables et adaptées aux enjeux spécifiques de votre activité.
- Machine Learning Enginner
- Master Data Science
- Certificat Data Science
Compétences clés.
Machine Learning :
- Machine Learning & Deep Learning
- Scikit-Learn, tensorflow, XGBoost, Random Forest
- Forecasting (prévision de séries temporelles)
- NLP (transformers, embeddings), clustering
- Feature engineering & optimisation des modèles
- Optimisation : GridSearch, Optuna, Random Search
- Évaluation : AUC, F1-Score, confusion matrice
- Interprétabilité : SHAP, LIME
- Évaluation robuste : cross-validation, tests statistiques
IA & NLP :
- Systèmes RAG (Retrieval-Augmented Generation)
- LLMs (GPT, Mistral, Zephyr, LLaMA 3)
- Fine-tuning modèles open-source (HuggingFace)
- Tokenisation, embeddings, FAISS, vector databases
- Prompt engineering & prompt optimisation
MLOps & Déploiement :
- Docker, Docker Compose
- GitHub Actions (CI/CD)
- MLflow (tracking, versioning, registry)
- Déploiement Streamlit Cloud, HuggingFace Spaces, Render, Azure ML
- Monitoring des modèles (drift, performance, latence)
- Packaging, pipelines, automatisation
Backend & Dev :
- Python (avancé), FastAPI (API ML), Streamlit (UI ML)
- Pipelines ETL/ELT
- Gestion des environnements (conda, venv), Makefile
- Tests unitaires (pytest), logging structuré
Data Engineering :
- SQL, PostgreSQL
- Data modeling, star schema
- Extraction et transformation de données
- Gestion de données semi-structurées (JSON, XML, parquet)
Cloud & DevOps :
- Azure ML / Azure Storage
- HuggingFace Spaces
- Streamlit Cloud
- Git & GitHub avancé
- Automatisation CI/CD
Expériences
🔹Data Scientist | Covéa | [Dates]
📍 Paris, France.
- Développement de modèles ML (fraude, scoring sinistres, tarification MRH) sur plusieurs centaines de milliers d’observations.
- Amélioration des performances modèles via feature engineering et tuning (gain estimé de +10 à +20% sur le recall selon les cas d’usage).
- Réduction d’environ 10% des faux positifs sur un modèle de détection, améliorant la pertinence opérationnelle.
- Industrialisation des modèles via API FastAPI conteneurisées (Docker) avec suivi de performance post-déploiement.
- Collaboration étroite avec équipes métier pour cadrage, interprétation et restitution des résultats.
🔹Data Scientist | Ufirst Advisory | [Dates]
📍 Paris, France.
- Pilotage de projets data end-to-end : cadrage, préparation des données, modélisation et restitution.
- Modèles prédictifs et segmentation contribuant à une amélioration estimée de 5–10% de la performance sur cas d’usage métier.
- Production de livrables techniques exploitables (notebooks structurés, scripts, documentation, supports décisionnels).
- Interaction directe avec parties prenantes pour traduction des enjeux business en solutions analytiques.
🔹 Chargé d’études statistiques | Altocis-P.S.| [Dates]
📍 Paris, France.
- Analyses statistiques sur données internes pour appuyer la prise de décision opérationnelle.
- Production et automatisation de tableaux de bord KPI contribuant à une meilleure visibilité sur la performance d’activité.
- Structuration et fiabilisation de volumes importants de données, améliorant la qualité des analyses.
Projets DATA & IA:
Projet 1 : Assistant RH Intelligent basé sur l’IA Générative (RAG + LLM + FAISS).
Code source GitHub | Démo interactive
Démo :

Objectif du projet
Les entreprises, disposent des informations RH (télétravail, congés, formation, primes…) sont souvent dispersé dans des fichiers PDF longs et difficiles à consulter.
Ce projet a pour objectif La mise en palce d’un assistant IA capable de :
- Comprendre une question RH en langage naturel
- Rechercher automatiquement la réponse dans les documents PDF internes
- Générer une réponse claire et contextualisée.
Technos
- OpenAI, HuggingFace, LangChain, FAISS
- Streamlit, GitHub Actions
Fonctionnalités
- Extraction PDF RH
- Embeddings MiniLM + index FAISS
- RAG complet : recherche + génération
- Streamlit UI
- CI/CD GitHub Actions
- Déploiement Streamlit Cloud
Impact
- Accélère l’accès à l’information RH
- Réduction du temps RH / collaborateurs
- Démonstration complète d’un projet IA bout-en-bout
Solution technique
Développement d’un système RAG complet (PDF → embeddings → LLM)
- 0% hallucinations grâce à un filtrage strict basé sur la similarité vectorielle
- Gestion multi-PDF pour un référentiel RH complet
- Architecture modulaire : API indépendante de l’UI
- Compatible 100% Open-Source (version HuggingFace)
- Compatible OpenAI pour une qualité premium
Compétences démontrées
- IA Générative (RAG complet)
- NLP avancé
- Vector Search (FAISS)
- HuggingFace embeddings + LLM
- Streamlit front-end
- Gestion des secrets & configuration streamlit cloud
- Structuration professionnelle de projet IA
Projet 2 : Prédiction du Statut de Compte Client
Code source GitHub | Démo interactive
Démo :

Objectif du projet
- Développement et industrialisation d’un système complet capable de prédire automatiquement le statut d’un compte client (actif, dormant, à risque…)
grâce à un pipeline Machine Learning entièrement orchestré en MLOps.
Le projet combine FastAPI, Docker, GitHub Actions, MLflow, Streamlit Cloud et SHAP pour un cycle de vie ML industrialisé, traçable et explicable.
Ce projet vise à :
- Réduire la charge opérationnelle de tri et contrôle manuel des comptes.
- Fiabiliser la prise de décision via un modèle explicable.
- Automatiser l’entraînement, l’évaluation, le déploiement et le monitoring du modèle.
Résultats obtenus
- Pipeline MLOps complet : entraînement → tests → tracking → déploiement → monitoring.
- API FastAPI conteneurisée (Docker) mise en production via GitHub Actions (CI/CD).
- Dashboard Streamlit Cloud pour réaliser des prédictions en ligne.
- Tests unitaires (pytest) automatisés à chaque push GitHub.
- Analyse SHAP pour expliquer les prédictions en détail.
- Versioning complet des modèles et métriques via MLflow.
- Monitoring continu : suivi des dérives de données et de performance.
Stack technique
- Python, FastAPI, Docker, GitHub Actions, MLflow,
- Streamlit, SHAP, scikit-learn, pandas, pytest
Caractéristiques techniques du pipeline
Préparation & Feature Engineering
- Nettoyage, encodage, imputation.
- Sélection d’attributs basée sur importance.
- Standardisation dynamique pour éviter les fuites.
Entraînement du modèle
- Modèle choisi : Random Forest.
- Hyperparameter tuning automatisé.
- Logging automatique dans MLflow Tracking : métriques (accuracy, f1-score, recall…), paramètres, artefacts, modèle picklé
CI/CD avec GitHub Actions
- Déclenchement automatique à chaque push : Installation de l’environnement, Exécution des tests unitaires (pytest), Construction Docker,
Déploiement automatique de l’API
API FastAPI
Endpoint principal : POST /predict -> renvoie :
- classe prédite
- explication SHAP
Interface Streamlit
Accessible en ligne :
- upload direct de CSV
- prédiction individuelle
Explicabilité (Explainable AI)
Analyse produite par SHAP :
- Importance globale des variables
- Importance locale pour chaque prédiction
Cela rend le modèle audit-compatible pour les métiers (finance, risque, conformité).
Impact business
- Automatisation d’un processus métier critique
- Suppression des erreurs humaines
- Explicabilité conforme aux attentes légales
- Accélération du temps de décision
- Solution déployée en environnement cloud
Projet 3 : Segmentation Client Avancée - RFM, K-Means & DBSCAN
Code source GitHub | Démo interactive
Démo :

Technologies :
- Python
- Pandas
- Scikit-learn
- Plotly
- Streamlit
Méthodes :
- RFM
- Means
- DBSCAN
Domaine :
- Customer Analytics
- Marketing Intelligence
Objectif
Concevoir une segmentation client exploitable business pour prioriser les actions marketing, CRM et fidélisation dans un contexte e-commerce réel.
Approche
- RFM : mesure de la valeur client (VIP, à risque, nouveaux, perdus)
- K-Means : segmentation comportementale non supervisée
- DBSCAN : détection des clients atypiques / anomalies
- Fusion des résultats dans une vue stratégique unique
Résultats
- Typologie finale : VIP · À Risque · Standard · Atypiques
- Interprétation automatique des segments
- Dashboard interactif Streamlit
- Export de clients actionnables
- Projet orienté décision business, prêt pour un déploiement cloud.