Le Datalab RATP Smart Systems, la data au service de votre quotidien

Mobilité améliorée : Validateur de Données de Transit basé sur l'IA

Rédigé par Asma | 18 déc. 2024 14:39:17

 

En France, la mobilité est gérée par de nombreux opérateurs de transport, chacun s'occupant de divers modes (métro, RER, bus, tram, etc.) sur une infrastructure partagée. Pour garantir un voyage fluide, les opérateurs doivent collaborer pour offrir des services coordonnés et intégrés. Une collaboration étroite est essentielle pour définir les conditions de partage des données, les accords financiers et les modalités réglementaires. En particulier, avec l'ouverture à la concurrence dans le secteur des transports, la coordination devrait être renforcée entre les nouveaux et les anciens contributeurs.
 
Un partage efficace des données permet aux plateformes MaaS (Mobility as a Service) de fournir des informations précises et de promouvoir l'utilisation des transports multimodaux. Cependant, la présence de sources, de formats et d'outils divers complique ce processus. En effet, l'intégration de divers réseaux de transport public introduit souvent des redondances, des incohérences et des erreurs, ce qui compromet finalement la fiabilité des informations fournies.
 
Pour garantir l'exactitude des données de transport public, divers outils, comme le Validateur GTFS, peuvent détecter des erreurs de format et des problèmes structurels. Cependant, ces outils ne peuvent pas identifier les anomalies temporelles, telles que les fluctuations des volumes de trajets ou les tendances basées sur le temps. Pour y remédier, nous avons développé un Validateur de Données de Transit Basé sur l'IA, un outil qui détecte ces irrégularités tôt, permettant aux opérateurs de transport d'agir rapidement.

 

1. Cas d'utilisation 

RATP Smart Systems est un opérateur MaaS offrant une large gamme d'options de transport sur une seule application. Nous intégrons plusieurs offres de transport pour toutes les lignes de train, RER, métro, tramway et bus dans la région Île-de-France. Nous avons observé que l'offre théorique de transport peut présenter des problèmes, par exemple, l'absence de service sur une ligne pendant de courtes périodes ou des variations inexpliquées du nombre de trajets sur une ligne. Ces erreurs entraînent des recherches d'itinéraires inexactes et une expérience utilisateur de moindre qualité sur notre application MaaS. Pour y remédier, nous proposons un outil de détection d'anomalies automatisé basé sur l'IA conçu pour garantir la qualité de l'offre théorique.

 

2. Validateur de données de transit basé sur l'IA

Notre solution est conçue pour identifier des comportements inhabituels, des valeurs aberrantes et des écarts dans les horaires des lignes de transport. C'est un détecteur d'anomalies conçu pour surveiller la planification des transports publics. Pour détecter les anomalies, nous proposons un modèle initial qui compare le service prévu de chaque ligne de transport sur la période d'offre (30 jours). Toute date présentant des différences par rapport aux autres est alors considérée comme une anomalie. De plus, nous proposons un second modèle qui analyse le comportement global de chaque ligne en le comparant à d'autres lignes au sein du même mode de transport. Si une ligne présente une offre significativement différente par rapport aux autres, elle est alors signalée comme une anomalie. La figure suivante montre les différentes étapes de notre pipeline.

Anomaly Detection Pipeline

2.1. Préparation des données

La première étape de notre pipeline est la préparation des données. Après l'extraction des données, nous procédons au calcul des séries temporelles. Pour chaque jour, pour chaque ligne, nous construisons un signal représentant le nombre de trajets pour chaque intervalle de 30 minutes.

La figure montre les variations du nombre de trajets sur la ligne de métro 12 tout au long de la journée pour chaque jour de décembre 2024. Nous pouvons observer que les jours de travail ont généralement un nombre de trajets similaire, tandis que les week-ends suivent un emploi du temps différent. De cela, nous pouvons conclure qu'il existe un schéma quotidien régulier qui ne devrait pas dévier de manière significative.

 

2.2. Modèle 1 - Dates aberrantes

Le modèle des dates aberrantes analyse chaque ligne de transport individuellement. Pour une ligne spécifique, il évalue la différence entre le service offert à une date donnée et celui des autres jours pour la même ligne. Plus la différence par rapport aux valeurs observées les autres jours est grande, plus il est probable qu'elle soit identifiée comme une anomalie.

 

Mesure de distance

Pour identifier les anomalies, il est crucial de définir une mesure de distance appropriée, car cela influence directement la précision de la détection des valeurs aberrantes. Dans notre approche, nous avons utilisé le Dynamic Time Warping (DTW) pour calculer les distances entre les paires de séries temporelles.

Pour chaque ligne de transport, nous avons construit une matrice de distance qui quantifie les différences entre les séries temporelles quotidiennes, représentant le nombre de trajets enregistrés toutes les 30 minutes tout au long de chaque jour. Cette matrice a ensuite été utilisée pour identifier les jours atypiques pour chaque ligne de transport.

 

Détection des dates en anomalies

Une fois la matrice de distance établie, nous calculons la distance moyenne entre la série temporelle d'un jour donné et celles de tous les autres jours pour la même ligne de transport. Ce calcul prend en compte la nature du jour en question, qu'il s'agisse d'un jour de semaine, d'un week-end, d'un jour férié ou d'une période de vacances scolaires.

Par la suite, l'analyse des distances moyennes nous permet d'identifier les jours les plus similaires. Si le comportement d'un jour particulier dévie de manière significative de celui de ses jours voisins, il est signalé comme une anomalie. Un seuil est fixé pour déterminer ce qui constitue une anomalie : si la distance d'un jour à ses voisins dépasse ce seuil, le jour est classé comme une anomalie.

Les comptes de trajets quotidiens pour la ligne de transport public reflètent les schémas typiques de jours de travail et de week-end dans le calendrier théorique. Cependant, pendant le week-end du 23 novembre, il y a une augmentation des niveaux de service par rapport aux autres week-ends du calendrier. En conséquence, les 23 et 24 novembre sont identifiés comme des anomalies.

 

 

2.3. Modèle 2 – Lignes aberrantes

Pour un ensemble de lignes au sein du même mode de transport (train, tram, métro, etc.), le modèle des lignes aberrantes identifie les lignes dont le service diffère de celui des autres lignes au sein du même mode.

Ce modèle prend en compte l'ensemble du service des lignes sur les 30 jours suivants. Les séries temporelles utilisées représentent donc le nombre de trajets par intervalle de 30 minutes sur l'ensemble de la période de service.

En comparant les services théoriques des trams parisiens en octobre 2024, nous observons que le Tramway T1 présente un comportement différent des autres lignes. Contrairement aux autres, il cesse de fonctionner à partir du 23 octobre. Par conséquent, il est identifié comme une anomalie.

 

Prophet
Prophet est un outil de prévision développé par Facebook, conçu pour les données de séries temporelles qui présentent des tendances saisonnières et des effets potentiels de jours fériés. En décomposant la série temporelle en composants de tendance et de saisonnalité, Prophet peut aider à la détection d'anomalies et à l'analyse des tendances. En utilisant Prophet, le service de transport pour les 30 jours suivants d'une ligne est décomposé en quatre composants distincts :
  • tendance générale
  • saisonnalité hebdomadaire
  • saisonnalité quotidienne des jours de travail
  • saisonnalité quotidienne des week-ends

 

Détection d'anomalies avec l'apprentissage automatique non supervisé

Pour chaque mode de transport (train, tram, etc.), nous évaluons la similarité entre les lignes en analysant les composants dérivés de Prophet pour chaque ligne. Pour chacun des quatre composants, nous calculons la distance DTW moyenne entre une ligne donnée et les autres lignes au sein du même mode de transport. En utilisant ces trois caractéristiques calculées, nous appliquons ensuite DBSCAN (Density-Based Spatial Clustering of Applications with Noise) pour identifier les lignes dont les comportements sont anormaux par rapport aux autres.

DBSCAN est un algorithme de clustering qui regroupe les données en fonction de leur densité. DBSCAN identifie les régions de haute densité comme des clusters et marque les points isolés avec une faible densité comme du bruit ou des anomalies.

 

3. Le moment d'agir est Maintenant


Trend Analyzer a été utilisé avec succès pendant plusieurs mois sur diverses offres de transport public théorique. Nous avons mis en place des tableaux de bord intuitifs qui offrent un accès facile aux résultats. Cela a permis la détection précoce d'irrégularités à plusieurs reprises, permettant aux équipes opérationnelles d'agir rapidement et de manière proactive.

4. Essayez le maintenant !


Trend Analyzer s'intègre facilement dans diverses applications et s'adapte à différents formats de données de transport. Avec cet outil, vous pouvez non seulement optimiser vos services, mais aussi améliorer considérablement l'expérience utilisateur en fournissant des informations précises et fiables.