Sujet EDF REDOCS’19

Détection d’intrusion par machine learning

Dans un environnement où les menaces sont de plus en plus complexes et où la quantité de données à traiter est croissante, les outils traditionnels de détection d’intrusion soulignent leurs propres limites. Les techniques issues de l’intelligence artificielle et particulièrement du machine learning et du deep learning apparaissent alors comme un outil complémentaire à la détection d’intrusion.

Si les algorithmes de machine learning reconnaissent facilement des cyberattaques similaires à celles qui se sont déjà produites, les résultats restent à prouver pour identifier de nouveaux types d’attaques.

L’objectif est donc d’identifier les tentatives d’intrusion d’attaquants dans un trafic réseau en utilisant deux méthodes d’apprentissage :

  • Un apprentissage non supervisé afin de détecter les flux ne respectant pas le processus métier (séquencement des messages, fréquence, données métiers, etc.) ;
  • Un apprentissage supervisé pour détecter les attaques connues et identifiées dans le jeu de données d’apprentissage.

De premiers tests ont été réalisés en utilisant un apprentissage supervisé dont les résultats obtenus sont encourageant. Afin d’affiner ces premiers résultats, de futurs tests permettront de préciser les modèles d’apprentissage, d’affiner les hyperparamètres (comme le taux d’apprentissage par exemple), d’ajouter plus de cellules dans les couches récurrentes, d’ajouter une nouvelle couche de neurones récurrents LSTM et de généraliser l’approche sur un plus grand volume de données.

Concernant la détection des attaques inconnues, un apprentissage non supervisé sera préféré. Pour cela, il est envisagé de tester les méthodes d’auto-encodage pour que le réseau apprenne à se prédire lui-même. De cette manière, si l’on soumet au réseau des valeurs suspectes, il n’est pas censé savoir les « auto-prédire », ce qui sera donc une indication d’attaque.

Les données utilisées pour tester les algorithmes seront issues d’un moyen d’essai d’EDF à échelle réelle simulant un réseau de téléconduite utilisé pour la distribution électrique. Le trafic réseau collecté sera à analyser afin de détecter les écarts par rapport au fonctionnement nominal du réseau de téléconduite. Un parser du protocole métier de téléconduite concerné sera fourni.