belgiumfr
La modélisation quantitative peut aussi utiliser des données non chiffrées

La modélisation quantitative peut aussi utiliser des données non chiffrées

10-12-2021 | Vision

Nous constatons que l’analyse de texte permet de prédire les caractéristiques de risque et de rendement des obligations d’entreprise.

  • Patrick  Houweling
    Patrick
    Houweling
    Co-Head of Quant Fixed Income and Lead Portfolio Manager
  • Robbert-Jan 't Hoen
    Robbert-Jan
    't Hoen
    Researcher

Points clés

  • Plus de 80 % des informations relatives aux entreprise se présentent sous une forme non structurée
  • Le texte contenu dans les formulaires de la SEC permet de prédire le rendement et la volatilité des actions
  • Nous montrons que ce constat vaut également pour les obligations d’entreprise

On estime que plus de 80 % des informations relatives aux entreprise se présentent sous une forme non structurée, à savoir du texte, de la vidéo ou de l’audio1. Cependant, les modèles financiers n’utilisent habituellement que des données chiffrées, telles que les prix du marché et les données comptables des entreprises. Il semble donc possible d’enrichir les modèles existants en exploitant le réservoir immense de données non structurées. Nous avons étudié les opportunités qu’offrent les données non structurées pour ce qui est d’investir dans les obligations d’entreprise2.

Découvrez les dernières perspectives
Découvrez les dernières perspectives
Inscrivez-vous

Exploiter des sources abondantes de données non chiffrées

Les données textuelles constituent une source importante de données non chiffrées. Il s’agit notamment d’articles d’actualité, de messages sur les réseaux sociaux, de transcriptions de présentations de la direction et de rapports d’entreprise. Il y a peu de temps encore, l’utilisation dans l’analyse de ces sources de données textuelles nécessitait une intervention humaine pour coder les attributs sous forme chiffrée, un processus lent et fastidieux. Aujourd’hui, grâce aux progrès du traitement automatique du langage naturel (TALN) et à l’explosion de la puissance de calcul des ordinateurs, les techniques d’exploration de texte peuvent être utilisées pour analyser systématiquement de grandes quantités de données textuelles.

Les universitaires et les spécialistes ont commencé à analyser des données textuelles dans le but de prédire les risques et les rendements des actions et des obligations. Un des volets de cette recherche porte sur les informations contenues dans les rapports d’entreprise déposés auprès de la Securities and Exchange Commission (SEC) par les sociétés cotées en bourse aux États-Unis. L’attention s’est particulièrement portée sur les rapports annuels (formulaire 10-K) et trimestriels (formulaire 10-Q). Ces rapports sont très détaillés en raison des lois et règlements qui interdisent aux sociétés de faire des déclarations fausses ou trompeuses ayant une incidence notable, ou d’omettre des informations importantes dont l’absence rendrait les déclarations trompeuses. Outre les données chiffrées des états financiers, ces rapports contiennent de grandes quantités d’informations textuelles non structurées.

Les informations contenues dans les formulaires 10-K et 10-Q devraient permettre à tout investisseur d’avoir une bonne compréhension de la situation d’une entreprise. Dans les faits, cependant, ces informations précieuses sont rarement consultées, car il est difficile de lire et de comprendre un grand nombre de pages rédigées dans un style formel et souvent très technique3. Ces rapports constituent donc une piste de recherche intéressante pour utiliser l’analyse de texte assistée par ordinateur.

Collecte et prétraitement des données

Nous nous sommes procuré tous les formulaires 10-K et 10-Q des émetteurs américains d’obligations d’entreprise cotées dans les indices Bloomberg US Corporate Investment Grade et High Yield, hors sociétés financières. L’échantillon couvre la période allant de 1994 à 2017 et se compose d’un total de 212 400 formulaires, dont 57 952 sont des 10-K et 154 448 des 10-Q.

Graphique 1 | Taille des formulaires

Source : Robeco, EDGAR. Période d’échantillonnage de 1994 à 2017.

Pour faciliter les analyses ultérieures, nous commençons par nettoyer chaque document de manière à ne conserver que le texte, les chiffres et les symboles dans le corps du texte du formulaire original. Le graphique 1 montre l’évolution au fil du temps de la taille moyenne des fichiers nettoyés, mesurée par le nombre total de caractères. Sans surprise, nous constatons que les 10-K sont en moyenne nettement plus volumineux que les 10-Q. De plus, on observe une forte tendance à la hausse de la taille des deux types de formulaire. Cela s’explique en grande partie par l’augmentation progressive, les années passant, des déclarations obligatoires.

Analyse du texte

L’étape suivante de la recherche consiste à traiter les données textuelles nettoyées afin qu’elles puissent être exploitables par un ordinateur. Une technique couramment utilisée pour représenter un document dans un format chiffré est le modèle BoW (« Bag-of-Words »). Il s’agit d’une technique appartenant au TALN qui réduit la complexité des données textuelles en supprimant les informations sur l’ordre des mots et le contexte. Tout ce qui reste d’un formulaire est une liste des mots associés à leur fréquence, c’est-à-dire le nombre de fois où chaque mot apparaît dans le formulaire. Ce modèle repose sur l’hypothèse que plus un mot est utilisé, plus il est important4.

« Changers » et « non-changers »

Un article universitaire publié récemment montre qu’un facteur prédictif notable du rendement et de la volatilité des actions d’une société est lié au niveau de similitude entre deux formulaires 10-K ou 10-Q consécutifs : les sociétés qui apportent le plus de changements au texte de leur rapport de l’année précédente (appelées dans l’article « changers ») sous-performent largement les sociétés qui apportent peu de changements (appelées « non changers »)5. Cette conclusion s’explique par le fait que les entreprises ont tendance à répéter ce qu’elles ont déclaré dans les rapports antérieurs et qu’elles sont tenues de modifier le texte uniquement si des changements importants ont affecté l’entreprise ou sa situation au cours de la période considérée. Les changements apportés sont donc interprétés comme étant défavorables. Bien que des modifications importantes du texte ne soient pas forcément mauvais signe, l’analyse montre qu’elles sont majoritairement liées à des événements défavorables et à des rendements boursiers futurs négatifs.

Dans le cadre de nos recherches, nous effectuons des tests pour vérifier l’existence d’un effet similaire pour les obligations d’entreprise. Si le niveau de similitude entre les formulaires 10-K et 10-Q consécutifs reflète réellement la performance de l’entreprise, nous anticipons un même constat du côté des rendements des obligations d’entreprise. Afin de déterminer le niveau de similitude, nous comparons le texte d’un même rapport d’une année sur l’autre : un 10-K est comparé au 10-K de l’année précédente et un 10-Q au 10-Q du même trimestre de l’année précédente.

Nous évaluons la performance des « changers » par rapport aux « non-changers » dans notre échantillon d’émetteurs américains d’obligations Investment Grade et High Yield sur la période 1997-2017. La stratégie d’investissement hypothétique que nous avons choisie pour cette recherche consiste à prendre une position longue sur les obligations des sociétés dont les rapports ont subi le moins de changements, et courte sur celles des sociétés dont les rapports ont subi le plus de changements.

Nous constatons, tant pour les obligations Investment Grade que pour les obligations High Yield, que les « non-changers » ont surperformé les « changers » de plus de 50 pb par an tout en présentant moins de risques qu’eux, ce qui se traduit par des ratios de Sharpe plus élevés pour les « non-changers ». Globalement, nous constatons que le niveau de similitude entre les rapports consécutifs est un facteur prédictif du risque et du rendement des obligations d’entreprise, avec une corrélation statistique plus élevée pour le segment Investment Grade que pour le segment High Yield.

1 http://breakthroughanalysis.com/2008/08/01/unstructured-data-and-the-80-percent-rule/
2 Cet article est basé sur un extrait du document « Continuous innovation in factor credit strategies » publié en avril 2021 par Patrick Houweling, Frederik Muskens et Robbert-Jan ‘t Hoen.
3 Loughran et McDonald, « Measuring readability in financial disclosures », The Journal of Finance, 69(4), 1643-1671 (2014).
4 Nous éliminons les mots non informatifs à l’aide de la liste de rejet (les « stop words » les plus courants) de Loughran et McDonald : https://sraf.nd.edu/textual-analysis/resources/#StopWords.
5 Cohen, Malloy et Nguyen, « Lazy prices », The Journal of Finance, 75(3), 1371-1415 (2020).

Logo

Décharge légale Agree

Les informations présentes sur ce site Web sont destinées exclusivement aux professionnels. Un investisseur professionnel est : un investisseur qui, à titre professionnel, dispose d'assez de connaissances et d'une expertise et d'une expérience suffisantes pour pouvoir évaluer de manière adéquate les risques financiers liés aux décisions d'investissement prises par lui-même.

Les visiteurs de ce site Web doivent être conscients du fait qu’ils sont eux-mêmes tenus de respecter toutes les lois et règlements en vigueur dans leur pays.

En cliquant sur J'accepte, vous confirmez que vous êtes un investisseur professionnel. Si vous cliquez sur Je n'accepte pas, vous êtes orienté vers la partie réservée aux particuliers.

Je n’accepte pas