RATP Smart Systems est un opérateur MaaS offrant une large gamme d'options de transport sur une seule application. Nous intégrons plusieurs offres de transport pour toutes les lignes de train, RER, métro, tramway et bus dans la région Île-de-France. Nous avons observé que l'offre théorique de transport peut présenter des problèmes, par exemple, l'absence de service sur une ligne pendant de courtes périodes ou des variations inexpliquées du nombre de trajets sur une ligne. Ces erreurs entraînent des recherches d'itinéraires inexactes et une expérience utilisateur de moindre qualité sur notre application MaaS. Pour y remédier, nous proposons un outil de détection d'anomalies automatisé basé sur l'IA conçu pour garantir la qualité de l'offre théorique.
Notre solution est conçue pour identifier des comportements inhabituels, des valeurs aberrantes et des écarts dans les horaires des lignes de transport. C'est un détecteur d'anomalies conçu pour surveiller la planification des transports publics. Pour détecter les anomalies, nous proposons un modèle initial qui compare le service prévu de chaque ligne de transport sur la période d'offre (30 jours). Toute date présentant des différences par rapport aux autres est alors considérée comme une anomalie. De plus, nous proposons un second modèle qui analyse le comportement global de chaque ligne en le comparant à d'autres lignes au sein du même mode de transport. Si une ligne présente une offre significativement différente par rapport aux autres, elle est alors signalée comme une anomalie. La figure suivante montre les différentes étapes de notre pipeline.
Anomaly Detection Pipeline
La première étape de notre pipeline est la préparation des données. Après l'extraction des données, nous procédons au calcul des séries temporelles. Pour chaque jour, pour chaque ligne, nous construisons un signal représentant le nombre de trajets pour chaque intervalle de 30 minutes.
La figure montre les variations du nombre de trajets sur la ligne de métro 12 tout au long de la journée pour chaque jour de décembre 2024. Nous pouvons observer que les jours de travail ont généralement un nombre de trajets similaire, tandis que les week-ends suivent un emploi du temps différent. De cela, nous pouvons conclure qu'il existe un schéma quotidien régulier qui ne devrait pas dévier de manière significative.
Le modèle des dates aberrantes analyse chaque ligne de transport individuellement. Pour une ligne spécifique, il évalue la différence entre le service offert à une date donnée et celui des autres jours pour la même ligne. Plus la différence par rapport aux valeurs observées les autres jours est grande, plus il est probable qu'elle soit identifiée comme une anomalie.
Pour identifier les anomalies, il est crucial de définir une mesure de distance appropriée, car cela influence directement la précision de la détection des valeurs aberrantes. Dans notre approche, nous avons utilisé le Dynamic Time Warping (DTW) pour calculer les distances entre les paires de séries temporelles.
Pour chaque ligne de transport, nous avons construit une matrice de distance qui quantifie les différences entre les séries temporelles quotidiennes, représentant le nombre de trajets enregistrés toutes les 30 minutes tout au long de chaque jour. Cette matrice a ensuite été utilisée pour identifier les jours atypiques pour chaque ligne de transport.
Une fois la matrice de distance établie, nous calculons la distance moyenne entre la série temporelle d'un jour donné et celles de tous les autres jours pour la même ligne de transport. Ce calcul prend en compte la nature du jour en question, qu'il s'agisse d'un jour de semaine, d'un week-end, d'un jour férié ou d'une période de vacances scolaires.
Par la suite, l'analyse des distances moyennes nous permet d'identifier les jours les plus similaires. Si le comportement d'un jour particulier dévie de manière significative de celui de ses jours voisins, il est signalé comme une anomalie. Un seuil est fixé pour déterminer ce qui constitue une anomalie : si la distance d'un jour à ses voisins dépasse ce seuil, le jour est classé comme une anomalie.
Les comptes de trajets quotidiens pour la ligne de transport public reflètent les schémas typiques de jours de travail et de week-end dans le calendrier théorique. Cependant, pendant le week-end du 23 novembre, il y a une augmentation des niveaux de service par rapport aux autres week-ends du calendrier. En conséquence, les 23 et 24 novembre sont identifiés comme des anomalies.
Pour un ensemble de lignes au sein du même mode de transport (train, tram, métro, etc.), le modèle des lignes aberrantes identifie les lignes dont le service diffère de celui des autres lignes au sein du même mode.
Ce modèle prend en compte l'ensemble du service des lignes sur les 30 jours suivants. Les séries temporelles utilisées représentent donc le nombre de trajets par intervalle de 30 minutes sur l'ensemble de la période de service.
En comparant les services théoriques des trams parisiens en octobre 2024, nous observons que le Tramway T1 présente un comportement différent des autres lignes. Contrairement aux autres, il cesse de fonctionner à partir du 23 octobre. Par conséquent, il est identifié comme une anomalie.
Pour chaque mode de transport (train, tram, etc.), nous évaluons la similarité entre les lignes en analysant les composants dérivés de Prophet pour chaque ligne. Pour chacun des quatre composants, nous calculons la distance DTW moyenne entre une ligne donnée et les autres lignes au sein du même mode de transport. En utilisant ces trois caractéristiques calculées, nous appliquons ensuite DBSCAN (Density-Based Spatial Clustering of Applications with Noise) pour identifier les lignes dont les comportements sont anormaux par rapport aux autres.
DBSCAN est un algorithme de clustering qui regroupe les données en fonction de leur densité. DBSCAN identifie les régions de haute densité comme des clusters et marque les points isolés avec une faible densité comme du bruit ou des anomalies.
Trend Analyzer a été utilisé avec succès pendant plusieurs mois sur diverses offres de transport public théorique. Nous avons mis en place des tableaux de bord intuitifs qui offrent un accès facile aux résultats. Cela a permis la détection précoce d'irrégularités à plusieurs reprises, permettant aux équipes opérationnelles d'agir rapidement et de manière proactive.
Trend Analyzer s'intègre facilement dans diverses applications et s'adapte à différents formats de données de transport. Avec cet outil, vous pouvez non seulement optimiser vos services, mais aussi améliorer considérablement l'expérience utilisateur en fournissant des informations précises et fiables.