Maxime Scibona

// 002

Expériences

2025 — 8 semaines

Ipsum Tek

Startup deeptech · Avignon

Stage Ingénieur

Ingénieur IA Robotique — Robot de service ONYRO

Développement de la stack IA complète d'ONYRO, robot de service autonome pour l'hôtellerie-restauration. Travail sur l'ensemble de la chaîne de perception, navigation et interaction.

Amélioration du système VSLAM (Visual Simultaneous Localization and Mapping) propriétaire d'Ipsum Tek par intégration de features ORB-SLAM3 / SuperPoint

Développement d'un système d'estimation de pose 6-DoF (PnP / FoundationPose) pour la localisation précise d'objets à saisir par le bras robotisé

Entraînement d'un agent par Deep Reinforcement Learning (PPO / SAC) sous Gazebo pour la planification de trajectoire en environnement encombré

Conception d'un contrôleur de bras robotisé (MoveIt 2 / IK solver) pour la saisie et le dépôt d'objets sur plateaux avec retour haptique visuel

Mise en place d'un pipeline de transfer learning (ResNet / EfficientNet) pour l'adaptation du modèle de vision à de nouveaux environnements avec peu de données

Mise en place d'un pipeline MLOps (MLflow / DVC) pour le versioning des modèles, le suivi des expériences et le déploiement continu sur l'architecture embarquée (Jetson Orin)

Implémentation d'un pipeline de détection d'objets en temps réel (YOLOv8) pour la reconnaissance de verres, bouteilles et plateaux sur flux vidéo embarqué

Développement d'un module de segmentation sémantique (DeepLab / Mask R-CNN) pour la compréhension de scènes intérieures dynamiques (couloirs, ascenseurs, tables)

Conception et simulation d'environnements hôteliers dans Gazebo (ROS 2) pour les tests de navigation et d'évitement d'obstacles 3D

Intégration d'un modèle de reconnaissance vocale (Whisper / Wav2Vec 2.0) multilingual pour l'interprétation des commandes clients en temps réel

Développement d'un module de dialogue (NLU/NLG) basé sur un LLM fine-tuné pour la gestion des requêtes clients en hôtellerie-restauration

Développement d'un nœud ROS 2 (C++/Python) pour la fusion de capteurs LiDAR 2D et caméras RGB-D (odométrie visuelle-inertielle)

Implémentation d'un algorithme de planification de chemin global/local (Nav2 + DWB) avec adaptation dynamique aux obstacles mobiles (piétons, chariots)

Construction d'un dataset annoté (CVAT) d'images d'environnements hôteliers et entraînement d'un modèle de détection de personnes robuste aux occlusions partielles

Développement d'un module de synthèse vocale (TTS) multilingue (Coqui TTS / ElevenLabs API) pour les interactions verbales personnalisées avec les clients

Implémentation d'un système de cartographie multi-étages avec association de cartes 2D par couche et gestion de la montée/descente d'ascenseur via ROS 2 Actions

Évaluation et benchmarking des performances de navigation (métriques : SPL, NE, SR) en simulation Gazebo et sur site pilote réel (hôtel)

Conception d'un module d'explicabilité (Grad-CAM, SHAP) pour l'audit et la validation des décisions de perception visuelle du robot en conditions réelles

Développement d'une interface de supervision temps réel (RViz 2 / Foxglove) pour la visualisation de l'état du robot, des cartes et des flux de perception

Rédaction de la documentation technique des modules IA développés et contribution à l'écriture d'un rapport R&D en vue d'un dépôt de brevet additionnel

Plus de détails↓

ROS 2 YOLOv8 VSLAM MoveIt 2 Gazebo Jetson Orin MLflow Nav2

2025 — 8 semaines

LIA

Labo. Informatique d'Avignon

Stage Recherche

Chercheur — Safe Reinforcement Learning pour la navigation sociale

Recherche sur l'application du Safe RL à la navigation sociale de robots mobiles en environnement réel, en vue d'une soumission à un workshop ICRA/IROS.

Implémentation et entraînement d'un agent CPO (Constrained Policy Optimization) avec projection de gradient sur la variété des politiques satisfaisant les contraintes, comparaison avec la baseline PPO non contrainte

Implémentation d'une fonction de coût différentiable basée sur les Control Barrier Functions (CBF) pour garantir des contraintes de sécurité en continu entre deux pas de temps de décision du policy network

Intégration d'un module de prédiction de trajectoires de piétons (LSTM / Social-LSTM) pour l'anticipation des violations de contraintes à horizon court (predictive safety representation)

Ablation study systématique sur la valeur du seuil de contrainte κ : analyse de la frontière Pareto reward/safety et identification du point de compromis optimal pour le cas d'usage hôtelier d'ONYRO

Déploiement du pipeline d'entraînement sur le cluster de calcul du LIA (200+ cœurs) avec parallélisation multi-seed via Ray RLlib pour la reproductibilité statistique des résultats

Rédaction d'un rapport de recherche structuré (introduction, related work, méthodologie, expériences, discussion) conforme aux standards de soumission d'un workshop ICRA ou IROS (4–6 pages, LaTeX IEEE format)

Revue systématique de la littérature (ICRA, NeurIPS, ICLR 2022–2025) sur les algorithmes Safe RL appliqués à la navigation sociale de robots mobiles (CPO, PPO-Lagrangian, TRPO-Lagrange, IPO)

Formalisation du problème de navigation d'ONYRO en CMDP (Constrained Markov Decision Process) : définition formelle de l'espace d'états, de l'espace d'actions continu, de la fonction de récompense et des fonctions de coût multiples (distance piétons, zones interdites, budget batterie)

Modélisation probabiliste des trajectoires de piétons via un Social Force Model (SFM) étendu pour la génération d'agents virtuels réalistes en environnement hôtelier

Étude comparative des formulations de contraintes : contraintes en espérance (E-CMDP), contraintes en pire cas (Robust CMDP) et contraintes basées sur les Control Barrier Functions (CBF)

Analyse du compromis reward/safety dans le contexte de la robotique de service : définition des seuils de tolérance aux violations de contraintes (κ) à partir de normes ISO 13482 sur la sécurité des robots de service

Construction de 4 environnements Gazebo (ROS 2 Humble) représentatifs : hall d'entrée, couloir étroit, salle de restaurant et zone d'ascenseur, avec agents piétons pilotés par ORCA (Optimal Reciprocal Collision Avoidance)

Implémentation d'un nœud ROS 2 de collecte de données de coût en temps réel (publisher/subscriber) pour la mesure continue de la distance minimum aux obstacles dynamiques et statiques via LiDAR 2D simulé

Implémentation et entraînement d'un agent PPO-Lagrangian (OmniSafe / Safety-Gymnasium) avec réseau acteur-critique double tête (reward value + cost value) sur les environnements Gazebo via l'interface gym-gazebo2

Développement d'un curriculum d'entraînement progressif (Curriculum Learning) : démarrage en environnement vide, augmentation progressive du nombre d'agents dynamiques (1 → 5 → 10 → 20 piétons)

Conception du protocole de benchmarking : définition de 5 métriques quantitatives (Success Rate, SPL, Collision Rate, Constraint Violation Rate, Average Episode Return) sur 100 épisodes de test par configuration

Évaluation de la généralisation zero-shot des politiques entraînées sur de nouveaux layouts Gazebo non vus durant l'entraînement (test de transfert sim-to-sim)

Visualisation et analyse qualitative des politiques apprises via RViz 2 : représentation des champs de coût appris, des trajectoires générées et des zones d'évitement adaptées selon la densité de piétons

Comparaison quantitative avec deux baselines classiques de navigation sociale : Dynamic Window Approach (DWA) de Nav2 et Social Force Model (SFM) pur, sur les métriques du protocole de benchmarking

Mise en open source du code expérimental (GitHub) avec documentation technique complète (README, scripts de reproduction, fichiers de configuration Hydra/YAML) pour maximiser la reproductibilité et la visibilité du travail

Plus de détails↓

Safe RL PPO-Lagrangian CPO OmniSafe CBF Ray RLlib Gazebo ROS 2

// Autres expériences

Mai–Oct. 2024
Mai 2025–Jan. 2026

Lacoste Dactyl
Bureau & École

Logistique

CDD

Dispatcheur & Préparateur de commandes

Gestion logistique et préparation de commandes au sein d'une entreprise spécialisée dans la fourniture de bureau et matériel scolaire. Deux missions en parallèle des études.

Organisation et dispatch des commandes clients — gestion des flux et des priorités

Préparation de commandes — rigueur, cadence et gestion des stocks

MAXIME
SCIBONA

À propos
de moi

Expériences

Ingénieur IA Robotique — Robot de service ONYRO

Chercheur — Safe Reinforcement Learning pour la navigation sociale

// Autres expériences

Dispatcheur & Préparateur de commandes

Compétences IA
& Robotique

Navigation & SLAM

Reinforcement Learning

Vision par ordinateur

NLP & Parole

ROS 2 & Simulation

MLOps & Génie logiciel

Stack technique

Formation

Master Informatique — Intelligence Artificielle

Bachelor Intelligence Artificielle — 3ème année

Licence Informatique — Parcours Mathématiques-Informatique

L1 Maths — Informatique — Physique — Mécanique

Softskills &
Centres d'intérêt

Compétences humaines

Centres d'intérêt

On se
contacte ?

À proposde moi

Expériences

Ingénieur IA Robotique — Robot de service ONYRO

Chercheur — Safe Reinforcement Learning pour la navigation sociale

// Autres expériences

Dispatcheur & Préparateur de commandes

Compétences IA& Robotique

Navigation & SLAM

Reinforcement Learning

Vision par ordinateur

NLP & Parole

ROS 2 & Simulation

MLOps & Génie logiciel

Stack technique

Formation

Master Informatique — Intelligence Artificielle

Bachelor Intelligence Artificielle — 3ème année

Licence Informatique — Parcours Mathématiques-Informatique

L1 Maths — Informatique — Physique — Mécanique

Softskills &Centres d'intérêt

Compétences humaines

Centres d'intérêt

On secontacte ?

MAXIME
SCIBONA

À propos
de moi

Compétences IA
& Robotique

Softskills &
Centres d'intérêt

On se
contacte ?