Trafic Internet et Lois d'échelle
P. Abry,
P. Borgnat
S. Roux
P. Flandrin
Principaux collaborateurs :
Kensuke Fukuda (NII, WIDE; Tokyo, Japan) ;
Kenjiro Cho (NII, WIDE; Tokyo, Japan) ;
Philippe Owezarski (CNTS, LAAS; Toulouse) ;
D. Veitch . (Dept. of Elec. Eng., University of Melbourne, Australia) ;
Fabio Ricciato (FTW; Wien, Austria)
Cette thématique s'est poursuivie dans le cadre de projets multi-partenaires :
Description du contexte et des travaux passés
Travaux depuis 2005
Voir le
rapport d'activité du laboratoire 2005-2009, chapitre IV, pages 26 et après.
Travaux de 2000 à 2005
- Télétrafic Informatique
On appelle télétrafic informatique les flux de paquets
IP (Internet Protocol : ensemble d'octets constituant la cellule
élémentaire de transmission de l'information) circulant sur les
grands réseaux d'ordinateurs. La description statistique de ces
flux, nécessaire pour contrôler l'état des réseaux, pour les
concevoir, les dimensionner, a d'abord été réalisée à partir
des modèles statistiques (Markov, Poisson, Gauss) communément
utilisés sur le précédent grand réseau de
télécommunication, le réseau téléphonique.
Rapidement, l'inadéquation des
prévisions réalisées à partir de ces modèles a été
avérée et le paradigme d'invariance d'échelle mis en avant pour
les remplacer. L'hétérogénéité extrême de la nature des
flux d'informations (web, mail, vidéo, audio) circulant sur ces
réseaux, des protocoles (TCP, UDP), des séries temporelles (nombre
de paquets, de connexions, listes de temps d'attentes, processus
ponctuels) qu'on peut en extraire et des outils d'analyse a rendu
délicate l'étude expérimentale des lois d'échelles.
- Lois d'échelle.
Nous avons d'abord
montré comment les outils ondelettes décrits plus haut
permettent de mettre
en évidence l'existence de lois d'échelle
existant dans les données de télétrafic informatique
et d'en mesurer de
façon fine, fiable et robuste les paramètres.
Cette existence a été longuement controversée car la présence
de lois d'échelle dans les données étaient, parfois avec raison,
attribuée à des phénomènes non stationnaires. Nous avons
montré comment les outils d'analyses proposés permettaient, dans
certaines situations, de discriminer entre ces différents
phénomènes [VEITCH:2001:A] et d'établir l'existence
réelle de phénomènes d'invariance d'échelle.
Nous avons comparé les lois d'échelle observées sur le trafic en
fonction des différents protocoles (http, ftp,...) et des différentes
applications
[Hohn:2002:C]. La description du trafic Internet est réalisée soit au
niveau paquets
(tous les paquets IP issus de différentes connexions sont analysés de façon
indifférenciée),
soit au niveau connexions (les paquets IP correspondants à une même
connexions sont regroupés et
on étudie le flux d'arrivées des connexions). Nous avons mis en évidence
et caractérisé les lois d'échelle
existants à ces deux niveaux de description. Nous avons montré que celles-ci
sont largement
indépendantes et résultent donc vraisemblablement de mécanismes ou
causes différents [Hohn:2002:B].
- Modélisation : processus infiniment divisibles,
processus multifractals et processus ponctuels de grappe.
En collaboration avec le groupe WAND de l'université de
Waikato (Nelle-Zélande), nous avons disposé de traces Internet de
grande qualité
enregistrées, collectées de 2000 à 2002 sur un lien ATM haut-débit, qui
dessert
l'université d'Auckland et donc quasiment toute la
Nouvelle-Zélande. Sur ces données, nous avons mis en évidence
la pertinence de modélisation par processus infiniment divisibles
des données Internet aux niveaux des flux de connexions
[ROUX:2001:A]. Cette
analyse rassemble dans un même modèle des échelles de temps
allant de $10^{-3}$s (temps technologique, caractéristique du fonctionnement
des
commutateurs, routeurs, etc) à $10^{3}$s (temps humain, caractéristique du
comportement
des utilisateurs).
L'augmentation
rapide des volumes de trafic, la nature sans cesse
renouvelée des informations, l'évolution des protocoles, la
création de nouvelles applications ou l'amélioration de celles
existantes, l'accroissement des performances technologiques
contribuent à faire du télétrafic informatique, internet en
particulier, un objet d'étude vivant, dynamique en évolution. Il
convient donc de repérer dans cette évolution les éléments
constants et robustes de ceux spécifiques d'une circonstance. Pour
ce faire, nous avons procédé à une analyse systématique
et comparée des propriétés multifractales de la quasi-totalité des traces
Internet disponibles
dans le monde et ayant été utilisées dans les publications majeures. Nous
avons alors montré
que les preuves expérimentales
ayant été avancées pour justifier le choix des modèles multifractals sont minces
et
ne permettent pas de rejeter objectivement les modèles autosimilaires
plus simples [Hohn:2005:A].
Poursuivant dans la même direction,
nous avons travaillé à la mise en
oeuvre de modèles alternatifs (les processus ponctuels par
grappe - Cluster Point Process) [Hohn:2003:A]. Ces modèles présentent
deux
qualités majeures.
D'une part, ils peuvent théoriquement
posséder des propriétés d'autosimilarité et longue mémoire et peuvent également
produire des lois d'échelle
apparentes et ressemblant à celles du multifractal (c'est-à-dire,
détectées comme des propriétés multifractals par les outils d'analyse
considérés comme référence à
l'heure actuelle) qui n'ont pourtant pas d'existence théorique. D'autre part,
ces modèles, parce qu'ils consistent, par définition et contrairement aux
processus multifractals, en un processus ponctuel, s'interprètent naturellement
en terme de processus d'arrivée de paquets. Ainsi, les
paramètres qui les définissent peuvent-ils être interprétés directement,
de façon simple et pertinente comme
des quantités trafic (volume, débit,...). Ces modèles offrent
enfin la possibilité de proposer
des conjectures relatives à l'évolution future des propriétés statistiques
du trafic Internet [Hohn:2003:A].
- Vulgarisation scientifique.
Ces travaux ont fait l'objet
de plusieurs articles de vulgarisation, l'un publié dans les actes d'un
colloque de Sciences Humaines [ABRY:2005:B], l'autre dans le magazine
grand public La Recherche [ABRY:2005:A], un troisième dans
la Proc. of the IEEE Magazine [Abry:2002:A].
- Projet METROSEC (2004-2007)
Dans le cadre de
l'ACI Sécurité et Informatique, a été développé le projet METROlogie pour la
SECurité (Collaboration de l'équipe SISYPHE avec le LAAS, Toulouse,
le LIP6, Paris VI, le LIAFA, Paris VI, l'IUT de Mont-de-Marsan,
univ. Pau, le projet RAINBOW, Sofia-Antipolis). Celui-ci a pour
objectif la détection de ruptures (pannes ou attaques) dans le
fonctionnement des réseaux informatiques, la caractérisation et
l'étude de la propagation d'attaques et de leurs impacts sur les
performances du réseaux et la qualité de service. Ce projet a
concentré une part importante des efforts de recherches de l'équipe
SISYPHE. Le programme de recherche de ce projet comprend de nombreux
volets. En collaboration avec le Centre de Ressources Informatique de
l'ENSLyon, et en harmonie avec les autres partenaires du projet, nous
avons instrumenté le "Metropolitan Area Network"
auquel est connecté l'ENSLyon. Cela permet de collecter de façon
synchrone en plusieurs points du territoire français du trafic réel.
Celui-ci peut servir de référence et nourriture aux simulations d'attaques
jouées en plate-forme fermée par les partenaires du LAAS. Les outils
traditionnels de traitement du signal pour la détection de rupture ont été
ensuite revisités pour être adaptés aux propriétés effectivement observées
sur la trafic réel, non-stationarité, non-gaussianité, non-linéarité,
invariance
d'échelle. Cette phase de travail très exploratoire, constituait un
défi important intégrant instrumentations, collectes, simulations,
analyses et interprétations sur un objet en perpétuelle évolution
(Internet) et pour des objets mal connus (qu'est ce qu'une
attaque ? multiplicité des formes,
des effets, des aspects dynamiques,...).