10-12-2021 · Vision

La modélisation quantitative peut aussi utiliser des données non chiffrées

Nous constatons que l’analyse de texte permet de prédire les caractéristiques de risque et de rendement des obligations d’entreprise.

    Auteurs

  • Patrick Houweling - Head of Quant Fixed Income

    Patrick Houweling

    Head of Quant Fixed Income

  • Robbert-Jan 't Hoen - Researcher

    Robbert-Jan 't Hoen

    Researcher

On estime que plus de 80 % des informations relatives aux entreprise se présentent sous une forme non structurée, à savoir du texte, de la vidéo ou de l’audio1. Cependant, les modèles financiers n’utilisent habituellement que des données chiffrées, telles que les prix du marché et les données comptables des entreprises. Il semble donc possible d’enrichir les modèles existants en exploitant le réservoir immense de données non structurées. Nous avons étudié les opportunités qu’offrent les données non structurées pour ce qui est d’investir dans les obligations d’entreprise1.

Exploiter des sources abondantes de données non chiffrées

Les données textuelles constituent une source importante de données non chiffrées. Il s’agit notamment d’articles d’actualité, de messages sur les réseaux sociaux, de transcriptions de présentations de la direction et de rapports d’entreprise. Il y a peu de temps encore, l’utilisation dans l’analyse de ces sources de données textuelles nécessitait une intervention humaine pour coder les attributs sous forme chiffrée, un processus lent et fastidieux. Aujourd’hui, grâce aux progrès du traitement automatique du langage naturel (TALN) et à l’explosion de la puissance de calcul des ordinateurs, les techniques d’exploration de texte peuvent être utilisées pour analyser systématiquement de grandes quantités de données textuelles.

Les universitaires et les spécialistes ont commencé à analyser des données textuelles dans le but de prédire les risques et les rendements des actions et des obligations. Un des volets de cette recherche porte sur les informations contenues dans les rapports d’entreprise déposés auprès de la Securities and Exchange Commission (SEC) par les sociétés cotées en bourse aux États-Unis. L’attention s’est particulièrement portée sur les rapports annuels (formulaire 10-K) et trimestriels (formulaire 10-Q). Ces rapports sont très détaillés en raison des lois et règlements qui interdisent aux sociétés de faire des déclarations fausses ou trompeuses ayant une incidence notable, ou d’omettre des informations importantes dont l’absence rendrait les déclarations trompeuses. Outre les données chiffrées des états financiers, ces rapports contiennent de grandes quantités d’informations textuelles non structurées.

Les informations contenues dans les formulaires 10-K et 10-Q devraient permettre à tout investisseur d’avoir une bonne compréhension de la situation d’une entreprise. Dans les faits, cependant, ces informations précieuses sont rarement consultées, car il est difficile de lire et de comprendre un grand nombre de pages rédigées dans un style formel et souvent très technique3. Ces rapports constituent donc une piste de recherche intéressante pour utiliser l’analyse de texte assistée par ordinateur.

Découvrez les dernières perspectives grâce aux mises à jour mensuelles par e-mail

Recevez notre lettre d'information Robeco et soyez le premier à lire les dernières informations et à construire le portefeuille le plus vert.

Restez connectés

Collecte et prétraitement des données

Nous nous sommes procuré tous les formulaires 10-K et 10-Q des émetteurs américains d’obligations d’entreprise cotées dans les indices Bloomberg US Corporate Investment Grade et High Yield, hors sociétés financières. L’échantillon couvre la période allant de 1994 à 2017 et se compose d’un total de 212 400 formulaires, dont 57 952 sont des 10-K et 154 448 des 10-Q.

Graphique 1 | Taille des formulaires

Graphique 1 | Taille des formulaires

Source : Robeco, EDGAR. Période d’échantillonnage de 1994 à 2017

Pour faciliter les analyses ultérieures, nous commençons par nettoyer chaque document de manière à ne conserver que le texte, les chiffres et les symboles dans le corps du texte du formulaire original. Le graphique 1 montre l’évolution au fil du temps de la taille moyenne des fichiers nettoyés, mesurée par le nombre total de caractères. Sans surprise, nous constatons que les 10-K sont en moyenne nettement plus volumineux que les 10-Q. De plus, on observe une forte tendance à la hausse de la taille des deux types de formulaire. Cela s’explique en grande partie par l’augmentation progressive, les années passant, des déclarations obligatoires.

Analyse du texte

L’étape suivante de la recherche consiste à traiter les données textuelles nettoyées afin qu’elles puissent être exploitables par un ordinateur. Une technique couramment utilisée pour représenter un document dans un format chiffré est le modèle BoW (« Bag-of-Words »). Il s’agit d’une technique appartenant au TALN qui réduit la complexité des données textuelles en supprimant les informations sur l’ordre des mots et le contexte. Tout ce qui reste d’un formulaire est une liste des mots associés à leur fréquence, c’est-à-dire le nombre de fois où chaque mot apparaît dans le formulaire. Ce modèle repose sur l’hypothèse que plus un mot est utilisé, plus il est important4.

« Changers » et « non-changers »

Un article universitaire publié récemment montre qu’un facteur prédictif notable du rendement et de la volatilité des actions d’une société est lié au niveau de similitude entre deux formulaires 10-K ou 10-Q consécutifs : les sociétés qui apportent le plus de changements au texte de leur rapport de l’année précédente (appelées dans l’article « changers ») sous-performent largement les sociétés qui apportent peu de changements (appelées « non changers »)5. Cette conclusion s’explique par le fait que les entreprises ont tendance à répéter ce qu’elles ont déclaré dans les rapports antérieurs et qu’elles sont tenues de modifier le texte uniquement si des changements importants ont affecté l’entreprise ou sa situation au cours de la période considérée. Les changements apportés sont donc interprétés comme étant défavorables. Bien que des modifications importantes du texte ne soient pas forcément mauvais signe, l’analyse montre qu’elles sont majoritairement liées à des événements défavorables et à des rendements boursiers futurs négatifs.

Dans le cadre de nos recherches, nous effectuons des tests pour vérifier l’existence d’un effet similaire pour les obligations d’entreprise. Si le niveau de similitude entre les formulaires 10-K et 10-Q consécutifs reflète réellement la performance de l’entreprise, nous anticipons un même constat du côté des rendements des obligations d’entreprise. Afin de déterminer le niveau de similitude, nous comparons le texte d’un même rapport d’une année sur l’autre : un 10-K est comparé au 10-K de l’année précédente et un 10-Q au 10-Q du même trimestre de l’année précédente.

Nous évaluons la performance des « changers » par rapport aux « non-changers » dans notre échantillon d’émetteurs américains d’obligations Investment Grade et High Yield sur la période 1997-2017. La stratégie d’investissement hypothétique que nous avons choisie pour cette recherche consiste à prendre une position longue sur les obligations des sociétés dont les rapports ont subi le moins de changements, et courte sur celles des sociétés dont les rapports ont subi le plus de changements.

Nous constatons, tant pour les obligations Investment Grade que pour les obligations High Yield, que les « non-changers » ont surperformé les « changers » de plus de 50 pb par an tout en présentant moins de risques qu’eux, ce qui se traduit par des ratios de Sharpe plus élevés pour les « non-changers ». Globalement, nous constatons que le niveau de similitude entre les rapports consécutifs est un facteur prédictif du risque et du rendement des obligations d’entreprise, avec une corrélation statistique plus élevée pour le segment Investment Grade que pour le segment High Yield.