L’analyse de séries chronologiques en apprentissage machine
Valérie Bécaert Valérie Bécaert
13 février 7 min

L’analyse de séries chronologiques en apprentissage machine

Bien que l’apprentissage machine ait gagné en popularité au cours des dernières années, il reste un obstacle important pour les algorithmes les plus courants, ceux qui servent à l’analyse de séries chronologiques. La plupart des types d’apprentissage machine se spécialisent dans la recherche d’un résultat ou d’un attribut associé à une variable fixe – avec une logique dérivée d’autres relations attribut-variable similaires. La traduction automatique en est un bon exemple : elle permet de trouver l’équivalent d’un terme dans une autre langue en utilisant des renseignements obtenus à partir de traductions similaires.

Quand il prend en considération les tendances et les informations temporelles, l’algorithme d’apprentissage machine doit composer avec un ensemble très distinct de variables – et avec les nouveaux problèmes qui leur sont associés. Pour surmonter ces difficultés, différents types d’algorithmes sont nécessaires. Dans cet article, nous abordons l’analyse de séries chronologiques et les moyens par lesquels l’apprentissage machine commence à relever ces défis.

En quoi consiste une série chronologique?

Une série chronologique (ou time series en anglais) est une séquence de données en ordre chronologique, chaque point de données étant attribué à un moment précis dans le temps. L’exemple le plus simple serait le suivi de la température dans le temps, avec des variations saisonnières en fonction de l’évolution du climat. La prévision des variables futures dans ces ensembles de données, connue sous le nom de prévision en série chronologique, est un objectif important que cherche à atteindre l’apprentissage machine. Cette technologie a plusieurs applications dans le monde réel, notamment les prévisions météorologiques, les prévisions de tremblements de terre, les statistiques et, celle qui est probablement la plus utile pour les entreprises : la prévision du marché.

En matière d’analyse de séries chronologiques, il existe deux principaux types d’ensembles de données : à une variable et à plusieurs variables.

  • Une série chronologique à une variable suit le temps et une autre variable, par exemple la température. Une analyse de la température à chaque point temporel peut donner un indice sur ce que l’avenir réserve.
  • Une série chronologique à plusieurs variables tient compte d’autres facteurs qui peuvent influencer cette variable, par exemple la vitesse du vent, la pression et les précipitations.

Dans la pratique, les séries chronologiques à plusieurs variables sont plus souvent utilisées que les séries à une variable. En effet, le temps est rarement le seul facteur qui influence une variable.

Les différents types de séries

Les résultats obtenus à partir des deux types d’analyse de séries chronologiques peuvent être regroupés en quatre catégories, en fonction des tendances qu’ils révèlent au fil du temps.

Tendance

    Lorsque les données évoluent généralement dans une seule direction pendant une période donnée, soit à la hausse, soit à la baisse, on parle de tendance. C’est le cas par exemple de l’inflation.

    Variations saisonnières

      Des variations saisonnières surviennent lorsque les fluctuations et les tendances dans les données correspondent en gros aux saisons, comme la température en été ou la demande des consommateurs pour des cadeaux pendant les Fêtes.

      Variations cycliques

        Une série chronologique cyclique se produit lorsque des tendances et des variations se produisent sans période fixe. Les tendances d’achat d’habitations en sont un exemple, car elles ont tendance à fluctuer sur de longues périodes sans facteur saisonnier ou temporel particulier.

        Variations irrégulières

          Une série chronologique irrégulière ne montre aucune variation évidente pendant une période donnée. Ces ensembles de données sont les plus difficiles à analyser et à prévoir.

          En comprenant les différents types d’ensembles de données de séries chronologiques, nous pouvons mieux comprendre comment l’apprentissage machine cherche à analyser ces informations et à prédire les variables futures.

          Le défi de l’analyse de séries chronologiques

          À première vue, on pourrait croire que le temps n’est qu’un autre type de variable auquel les algorithmes d’apprentissage machine peuvent apprendre à s’adapter. En réalité, plusieurs caractéristiques de l’analyse de séries chronologiques rendent les algorithmes d’apprentissage machine classiques difficiles à appliquer. Continuons avec l’exemple de la température. Voici quelques-unes des difficultés possibles :

          • Un ensemble de données limité. Si vous créez un point de données pour chaque jour, semaine ou mois, vous devrez disposer de plusieurs années de données avant de pouvoir créer les milliers de points de données dont l’apprentissage machine classique a besoin pour être le plus efficace. La plupart du temps, cette quantité de données n’est pas accessible, ou devient non pertinente après un certain point.
          • Des variables comme la vitesse du vent ou la pression peuvent contribuer davantage à la température que d’autres, et ça peut changer selon le moment – mais nous ne savons pas dans quelle mesure chacune de ces variables est un facteur.
          • Dans une série chronologique, la probabilité que se produisent des événements de type « cygne noir » est beaucoup plus élevée; il s’agit de variables aberrantes imprévisibles qui exercent une influence importante sur les résultats. La prévision en série chronologique a tendance à être peu efficace pour prédire ces événements.
          • Prévoir l’avenir nécessite un élément de probabilité, et les algorithmes d’apprentissage machine classiques ne sont pas conçus pour traiter cette fonction.

          Ces difficultés liées à l’analyse de séries chronologiques ne sont pas des problèmes qui peuvent être surmontés par la simple modification d’un algorithme. Dans une certaine mesure, il faudra toujours faire des suppositions; aucun algorithme ne peut prédire l’avenir avec une précision absolue. La technologie s’améliore, et des algorithmes plus perfectionnés sont conçus pour relever ces défis.

          L’autorégression vectorielle, par exemple, peut être utile pour analyser l’effet de variables qui s’influencent mutuellement, comme la vitesse du vent et la pression, qui ont toutes deux une incidence sur la température. L’apprentissage machine par inférence statistique bayésienne peut également apprendre à surmonter les difficultés liées aux données aberrantes et à produire des résultats basés sur des probabilités. Ce ne sont là que deux des moyens grâce auxquels l’analyse de séries chronologiques et la prévision deviennent plus faciles et plus fiables.

          L’essor de l’analyse de séries chronologiques

          Grâce à ces améliorations, l’analyse de séries chronologiques est de plus en plus répandue. L’analyse financière, les prévisions météorologiques, les projections de rendement, les prévisions du comportement du consommateur et bien d’autres choses encore s’améliorent grâce à la capacité de mieux comprendre la relation entre les variables qui contribuent à un résultat particulier.

          À mesure que les technologies de prévision en série chronologique s’améliorent, on pourrait constater une amélioration exponentielle de la qualité de vie des entreprises et des particuliers partout dans le monde. De la météo du matin jusqu’à la prévision améliorée des ventes annuelles, ce qui est encore considéré comme une technologie naissante devient rapidement un élément essentiel de notre vie quotidienne.