La prime de risque sur les actions est une donnée essentielle pour mesurer le rendement des investissements risqués dans une économie en sus du rendement dit sans risque mesuré en général par le rendement d'un bon du Trésor à court terme. Cette prime varie dans le temps mais, en moyenne, elle demeure substantielle dans les pays industrialisés dotés de bourses organisées. Pendant de nombreuses années, depuis l'article de Mehra et Prescott (1985), les chercheurs se sont heurtés à une énigme car ils ne parvenaient pas à la rationaliser avec le modèle de référence d'évaluation des actifs financiers de Lucas (1978). L'idée fondamentale de ce modèle est de lier, à l'équilibre, les prix et les rendements des actifs financiers aux décisions de consommation et d'épargne des investisseurs. Ainsi le désir des agents de substituer des unités de consommation dans le temps et leur attitude à l'égard du risque joueront un rôle essentiel pour expliquer l'écart qu'ils sont prêts à supporter entre le rendement d'un actif risqué et celui d'un actif sans risque qui produit une unité de consommation de façon certaine.
Après un rappel des statistiques historiques relatives à la prime de risque, nous expliquons cette énigme et passons en revue les diverses tentatives de généralisation du modèle de base pour parvenir à la résoudre, notamment par la modification des préférences de l'investisseur représentatif. Dans les deux dernières décennies, les chercheurs ont introduit la notion de risques de long terme associés à la croissance de la consommation. Des chocs persistants dans le niveau de croissance économique ou dans l'incertitude économique produisent à l'équilibre des primes de rendement sur les actions qui sont plus en adéquation avec les primes observées. Nous évoquons aussi les contraintes de participation des agents comme solution à l'énigme et terminons sur une littérature récente relative à la structure à terme de ces primes.
La prime de risque sur les actions :
une perspective historique
Nous présentons au tableau (infra) des statistiques sur la prime de risque sur les actions aux États-Unis depuis 1927 pour différentes sous-périodes1. Une première constatation est que les rendements sur les actions ont été nettement supérieurs au rendement des bons du Trésor. Sur la période la plus longue, de 1927 à 2018, la prime s'élève à plus de 8 %, tout comme d'ailleurs sur la période de l'après-guerre. La prime s'est affaissée sur les derniers vingt ans à la suite de la crise financière de 2008 (–38 % sur l'année).
Le graphique 1 (infra) montre que cette prime varie beaucoup d'une année à l'autre et qu'elle a été négative à plusieurs reprises, notamment en 1973-1974 et au début des années 2000, en plus de la crise de 2008. Par contre, pour des moyennes mobiles de vingt ans, elle demeure positive bien que la prime moyenne varie beaucoup d'une cohorte à l'autre.
La prime de risque sur les actions : une énigme ?
Étant donné l'amplitude de la prime de risque, les chercheurs se sont demandé si le modèle de référence de Lucas (1978) parviendrait à la rationaliser. Dans ce modèle un agent représentatif optimise l'espérance de l'utilité future de sa consommation sous sa contrainte de budget qui incorpore la possibilité d'investir dans des actifs risqués. La fonction d'utilité de l'agent implique une certaine aversion pour le risque et une propension à substituer des unités de consommation entre le présent et le futur. À l'équilibre, le coût en termes d'utilité d'épargner une unité de consommation pour l'investir dans un actif risqué doit être égal au gain espéré toujours en termes d'utilité à la période suivante, soit l'augmentation du prix de l'actif plus le dividende reçu sur cet actif.
L'article de Mehra et Prescott (1985) concluait que la prime était loin d'être expliquée par un tel modèle et son titre en faisait une énigme à résoudre. Leur approche était une version simplifiée du modèle de Lucas dans laquelle le taux de croissance de la consommation pouvait prendre deux valeurs et évoluait selon un processus de Markov. Grâce à cette structure, ils parvenaient à obtenir des formules analytiques pour l'espérance de rendement de l'actif risqué et de l'actif sans risque et donc de leur différence, la prime de risque. En calibrant le modèle sur les données de consommation agrégée par tête et les probabilités de transition d'un état à l'autre, ils calculaient la prime pour diverses combinaisons de valeurs jugées raisonnables du coefficient d'aversion pour le risque et du taux subjectif d'escompte du temps. La valeur maximale de 0,35 % obtenue pour la prime de risque avec le modèle était loin de la valeur de 6 % estimée dans les données.
Les chercheurs ont dès lors redoublé d'efforts pour tenter de résoudre l'énigme. Quelle serait la prime si l'on augmentait la valeur de l'aversion pour le risque au-delà des valeurs jugées raisonnables. Après tout, cette aversion peut être évaluée de façon très différente lorsqu'un agent envisage de prendre part à des loteries monétaires de montants plus ou moins importants. En fait, considérer une valeur plus élevée de l'aversion pour le risque conduisait à une autre énigme relative au taux d'escompte du temps qui deviendrait négatif dans le modèle calibré.
Une analyse plus fine de la fonction d'utilité choisie montrait qu'elle impliquait une relation inverse entre l'élasticité de substitution intertemporelle de la consommation et le coefficient d'aversion pour le risque, ce qui imposait des restrictions sur les couples de valeurs admissibles. En outre, conceptuellement, rien ne justifie une telle relation entre ces deux aspects distincts des préférences. L'aversion pour le risque mesure le taux auquel l'agent est disposé à échanger des unités de consommation entre différents états de la nature sans dimension temporelle, alors que l'élasticité de substitution intertemporelle mesure le désir de l'agent d'échanger des unités de consommation entre le présent et le futur, même en situation de certitude. Il fallait donc trouver des fonctions d'utilité qui découplaient ces deux aspects des préférences de l'agent.
Deux modèles concurrents s'y emploient : le modèle d'utilité récursive d'Epstein et Zin (1989) et le modèle de formation des habitudes de Campbell et Cochrane (1999). Ils restent à ce jour les modèles de référence d'évaluation des actifs financiers fondés sur la consommation. Les deux modèles introduisent des dépendances temporelles dans les utilités marginales de la consommation, alors que le modèle de Lucas supposait que l'utilité marginale dépendait uniquement de la consommation au temps présent, sans lien avec la consommation passée ou future.
Dans le modèle d'Epstein et Zin (1989), l'agent fait ses choix de consommation et d'actifs risqués en combinant la consommation au temps présent et l'équivalent certain de l'utilité de la consommation aléatoire future. La récursivité assure la cohérence des choix à travers le temps. Dans cette fonction d'utilité, deux paramètres différents régissent l'aversion pour le risque et l'élasticité de substitution intertemporelle. La prime de risque d'un actif risqué est alors une combinaison linéaire de la covariance des rendements de l'actif risqué avec la croissance de la consommation (comme dans le modèle de Lucas) et de la covariance des rendements de l'actif risqué avec les rendements du marché (comme dans le MEDAF). Les poids de la combinaison dépendent des préférences de l'agent, soit de la force de l'aversion pour le risque par rapport à la substitution intertemporelle.
Dans le modèle de Campbell et Cochrane (1999) l'agent détermine son utilité en comparant sa consommation courante à un niveau de référence dépendant du passé. Ce surplus de consommation affecte directement l'aversion pour le risque de l'agent qui augmente lorsque le surplus se rétrécit. En conséquence, le paramètre de courbure des préférences n'est plus le seul à déterminer l'aversion pour le risque. L'introduction de ce niveau de référence de la consommation rompt la relation rigide entre l'aversion pour le risque et la substitution intertemporelle.
Dans ces deux modèles plus flexibles, on peut reproduire la prime de risque et le taux sans risque réel, mais l'aversion pour le risque requise pour ce faire reste élevée. Plus récemment, les préférences récursives d'Epstein et Zin (1989) ont été utilisées en postulant des risques de long terme associés aux fluctuations de la consommation.
La prime de risque sur les actions :
un risque de long terme ?
Outre la prime de risque du marché des actions, plusieurs faits empiriques relatifs aux actions devaient être rationalisés par les mêmes modèles d'évaluation des actifs financiers, à savoir la volatilité des rendements du marché, le taux sans risque, le ratio cours-dividende du marché, la prévisibilité de la croissance de la consommation et des dividendes et des rendements, la relation entre la volatilité de la consommation et les cours des actions, et la prévisibilité de la volatilité des rendements des actions.
Bansal et Yaron (2004) proposent une explication commune à ces divers faits empiriques dans un modèle de risques de long terme. Dans ce modèle, l'évolution des marchés financiers repose sur les fluctuations des perspectives de croissance à long terme de l'économie et sur le niveau variable de l'incertitude économique (volatilité de la consommation ou de la production). Cette perspective de long terme était absente des travaux précédents. Ainsi les taux de croissance de la consommation et des dividendes contiennent une petite composante de long terme dans leur moyenne. La présence de cette composante fait que les chocs courants à la croissance attendue modifieront les attentes sur la croissance économique future non seulement à court terme, mais aussi pour des horizons plus longs. L'incertitude économique qui varie dans le temps est l'autre source de risque qui fait fluctuer les primes de risque. Ces deux sources de risque, qui peuvent faire diminuer la consommation, la richesse et les cours des actions à l'équilibre, rendent la détention des actions très risquée et font que les agents exigent une prime de risque élevée.
Le modèle postule que les agents ont des préférences d'Epstein-Zin. La position de l'aversion pour le risque par rapport à l'inverse de l'élasticité de substitution intertemporelle détermine si les agents préfèrent résoudre l'incertitude plus tôt ou plus tard. Dans le contexte du modèle de long terme de Bansal et Yaron (2004), les agents préfèrent résoudre cette incertitude plus tôt, ce qui rend la compensation pour le risque de croissance de long terme positive.
En postulant une forte persistance des processus de long terme dans la moyenne et la volatilité de la consommation, les auteurs parviennent à reproduire la plupart des faits empiriques énoncés plus haut. Le risque de croissance de long terme est essentiel pour expliquer la prime de risque sur les actions. Non seulement il compte pour une partie importante de la prime de risque, mais aussi il amplifie la contribution du risque de volatilité. Si l'on élimine la composante de long terme dans la moyenne en gardant le risque de volatilité, la prime de risque est de seulement 1 % par an. Par contre, si le risque de croissance de long terme est présent sans le risque de volatilité, la prime de risque augmente à près de 4 % par an. L'inverse est vrai pour la volatilité des cours des actions. C'est le risque de volatilité qui rend le ratio cours-dividende plus variable.
Le modèle et sa calibration ont créé plusieurs controverses2. L'existence d'une composante de risque de long terme dans la moyenne de la croissance de la consommation est difficile à détecter statistiquement par des méthodes univariées car la consommation est proche d'une marche aléatoire. Or l'effet de cette composante sur les cours des actifs repose sur la capacité des investisseurs de la détecter. La persistance de cette composante rend la croissance de la consommation et des dividendes fortement prévisibles par le ratio cours-dividende, ce qui n'est pas conforme aux statistiques observées dans les données. Une calibration plus récente de Bansal et al. (2012) accroît considérablement la persistance des fluctuations de la volatilité3, ce qui permet de réduire la prévisibilité de la croissance de la consommation. Enfin, Bansal et Yaron (2004) calibrent l'élasticité de substitution intertemporelle à une valeur supérieure à 1 (1,5), sans quoi le modèle n'aurait pas les résultats recherchés. Cela implique que la croissance de la consommation devrait être très fortement reliée aux mouvements des taux d'intérêt réels à court terme, contrairement à ce que suggèrent les données4.
Bonomo et al. (2011) règlent les sources de ces controverses en proposant un modèle de risque de long terme uniquement dans la volatilité. Pour ce faire, ils octroient à l'agent représentatif une autre forme d'utilité récursive qui ajoute aux préférences d'Epstein-Zin la notion d'aversion à la déception. Avec ces préférences, introduites par Gul (1991) et récemment généralisées par Routledge et Zin (2010), un agent est déçu lorsque le ratio de l'utilité future sur son équivalent certain est inférieur à un seuil donné5. Un accroissement persistant de la volatilité rend l'utilité future plus incertaine et augmente la probabilité pour l'agent d'être déçu.
Étant donné le débat sur la nature du processus de consommation, le modèle garde constantes les moyennes de la consommation et des dividendes et limite le risque de long terme à la volatilité afin de déterminer si des fluctuations persistantes de l'incertitude économique associées à l'aversion à la déception sont suffisantes pour expliquer les faits empiriques susmentionnés. Par ailleurs, la valeur de l'élasticité de substitution intertemporelle peut être supérieure ou inférieure à 1. Le modèle parvient à reproduire précisément la prime de risque et le taux sans risque, la volatilité du ratio cours-dividendes et des rendements des actions. Par ailleurs, le ratio cours-dividendes prédit les rendements excédentaires des actions à divers horizons (de un an à cinq ans) malgré l'hypothèse de non-prévisibilité des taux de croissance de la consommation et des dividendes.
Pour avoir une intuition sur le mécanisme fondamental de ce modèle, on peut se placer dans une situation où la seule source d'aversion pour le risque provient de l'aversion à la déception (la fonction d'utilité est par ailleurs linéaire avec un paramètre de courbure égal à zéro et une élasticité de substitution intertemporelle infinie6). Avec de telles préférences, le facteur d'escompte stochastique a seulement deux valeurs dans chaque état de l'économie à chaque période. Les états de l'économie sont déterminés par le niveau de la volatilité fort ou faible. Le rapport entre ces deux valeurs dépend de la force de l'aversion à la déception. Les auteurs montrent qu'il en résulte une covariance négative importante entre le taux d'escompte stochastique et les rendements des actions, créant une prime de risque substantielle.
Comme le seul risque de long terme est la volatilité et en particulier sa persistance, il est important de mesurer la robustesse des résultats par rapport au coefficient de persistance de la volatilité. Le graphique 3 illustre cette robustesse. Six statistiques sont représentées pour quatre versions différentes du modèle7 en fonction de la valeur de la persistance de la volatilité (le paramètre ϕσ dans ce graphique). On fait varier la persistance de 0,9 à 0,999. On voit que la prime de risque, le taux sans risque, le ratio cours-dividendes et la volatilité du taux sans risque sont relativement insensibles à la variation de la persistance de la volatilité. Par contre, la variance de la prime et surtout celle du ratio cours-dividendes augmentent naturellement avec la persistance de la volatilité. La valeur de 0,995 de la persistance nous permet de bien reproduire la prévisibilité de la prime de risque pour des horizons de un an à cinq ans.
Nous avons vu que les modèles fondés sur des préférences plus réalistes des agents parvenaient à mieux expliquer la relation entre la prime de risque sur les actions et sa dynamique et les risques associés à la consommation, notamment les risques de long terme. D'autres avenues peuvent être suivies pour résoudre l'énigme de la prime de risque avec les préférences simples du modèle initial. Nous invoquons dans la prochaine partie les contraintes de participation des agents.
La prime de risque sur les actions :
hétérogénéité des consommateurs
(contraintes de participation)
L'article de Mehra et Prescott (1985) montrait clairement que la croissance de la consommation agrégée ne fluctuait pas suffisamment pour expliquer la prime de risque dans un modèle avec une utilité additive et des marchés financiers complets sans frictions. Outre les développements des préférences exposées dans la troisième et quatrième partie, d'autres efforts ont porté sur l'abandon de l'hypothèse de l'assurance complète contre le risque individuel de revenus et sur l'introduction de l'hétérogénéité des consommateurs. Constantinides et Duffie (1996) montrent que les prix des actions peuvent être supportés par un équilibre dans une économie d'échange, si le revenu du travail est un processus de racine unitaire avec des innovations qui sont plus volatiles lors des récessions agrégées. La participation limitée aux marchés financiers est une autre raison économique importante pour que l'hétérogénéité des agents influe sur les prix des actifs financiers. En effet, ce ne sont pas tous les agents qui investissent des montants importants de leur épargne dans des marchés financiers et parmi ceux qui le font, tous n'investissent pas en actions.
Récemment, Czellar et al. (2018) proposent un modèle d'évaluation des actifs financiers dans lequel des agents hétérogènes ont une participation limitée et variable aux marchés des obligations et des actions. Les agents ont une certaine probabilité de participer en fonction de leur revenu du travail. Les non-participants, les participants au marché des obligations et les participants aux deux marchés des obligations et des actions ont des processus différents d'évolution de leur consommation. Les conditions d'Euler lient leur consommation à leurs conditions de participation et permettent d'inférer les coûts de participation aux marchés financiers.
L'estimation des paramètres du modèle8 permet de répliquer les propriétés des rendements des actions et de l'actif sans risque ainsi que l'hétérogénéité considérable des consommations individuelles observée dans les données. Par ailleurs, le modèle permet de calculer les coûts de participation aux marchés financiers. L'article montre qu'il existe un niveau de coût de participation au marché des actions tel que les agents aux revenus plus élevés sont prêts à investir dans les actions, alors que d'autres préfèrent se limiter au marché des obligations. Le coût annuel moyen de participation estimé est de l'ordre de 330 dollars américains (en dollars de 1980) et diminue sur la période 1980-2004. Ces résultats sont cohérents avec l'étude de Vissing-Jorgensen (2002) et avec les données du Survey of Consumer Finance. Le modèle reproduit un taux de participation au marché des actions de l'ordre de 45 % en 2004, avec une augmentation régulière depuis 1980.
La prime de risque sur les actions :
sa structure À terme
Jusqu'à présent nous nous sommes intéressés à la prime globale sur un indice d'actions. La valeur de cet indice est la somme des paiements actualisés des dividendes futurs. Dans cette partie, nous allons considérer chacun des termes de cette somme, appelés « strips de dividendes »9, afin d'avoir une meilleure évaluation des taux d'actualisation des flux monétaires risqués à divers horizons. L'article de Van Binsbergen et al. (2012) est le premier à avoir fourni une façon d'évaluer les prix des strips de dividendes afin d'étudier la structure à terme de la prime de risque10.
L'objectif principal de cet article est de déterminer si les dividendes de court terme ont une prime de risque supérieure aux dividendes de long terme ou l'inverse. La quatrième partie nous suggère que ce sont les risques de long terme qui sont le plus rémunérés. Par contre, l'article arrive à la conclusion contraire, ce qui constitue une nouvelle énigme. Ils décomposent l'indice S&P 500 en un portefeuille de dividendes de court terme (l'actif de court terme11) et en un portefeuille de dividendes de long terme (l'actif de long terme). Les auteurs comparent les propriétés de l'actif de court terme à celles de l'indice. Pour calculer le prix de l'actif de court terme, ils utilisent des données d'option sur l'indice S&P 500.
Ils rapportent cinq propriétés de l'actif à court terme par rapport au marché agrégé des actions. Les rendements attendus, les volatilités et le ratio de Sharpe de l'actif à court terme sont plus élevés. Le bêta du MEDAF de l'actif à court terme est de 0,5. L'alpha du MEDAF des rendements de l'actif à court terme est de 9 %. Les prix de l'actif à court terme sont plus variables que leurs réalisations, d'où une volatilité excédentaire. Finalement, les rendements de l'actif à court terme sont fortement prévisibles.
Ces résultats ont suscité plusieurs réactions dans la littérature. Certains auteurs ont tenté de construire des modèles pour reproduire ces résultats12 car les modèles d'utilité récursive de Bansal et Yaron (2004) et de formation des habitudes de Campbell et Cochrane (1999) conduisaient à des résultats contraires. Néanmoins Martin (2017) utilise de l'information sur les options et montre que la structure à terme des primes de risque sur le marché des actions est en général positive, mais qu'elle peut être négative dans des périodes de crise.
Deux cahiers de recherche récents, Bansal et al. (2017) et Gomes et Ribeiro (2018) remettent en cause les résultats empiriques de van Binsbergen et al. (2012). Les premiers utilisent des données de contrats swaps sur les dividendes du S&P 500, de l'Eurostoxx 50 et du NIKKEI obtenues auprès d'une institution financière. Ils trouvent que les rendements des strips de dividendes sont croissants avec la maturité (de un an à sept ans). Ils ajoutent que les rendements moyens ont une forte pente positive durant les périodes de croissance normale, mais que la pente devient négative en récession. Par ailleurs, ils soulignent que la liquidité des strips (volume d'échange ou écart cours acheteur – cours vendeur) diminue fortement avec l'horizon, ce qui a pour effet de sous-évaluer le rendement inconditionnel à long terme et la pente de la structure à terme. Gomes et Ribeiro (2018) confirment ces résultats avec d'autres données de swaps de dividendes. Ils apportent une dimension nouvelle sur l'analyse de la structure à terme en distinguant les effets de maturité et d'horizon. L'effet d'horizon introduit de la variation dans la dimension maturité de la structure à terme. Par ailleurs, ils montrent que le niveau de toute la structure à terme peut augmenter lorsque les contrats de dividende sont exposés à des facteurs de liquidité de financement comme l'écart TED (entre un taux Libor et un taux de bon du Trésor). Dans ce cas, ce n'est pas la liquidité des contrats qui est en cause, mais plutôt la sensibilité de leurs prix à des changements de la liquidité de financement. Bien entendu, liquidité de marché et liquidité de financement sont reliées et les résultats des deux études confirment les problèmes de mesure provenant de la liquidité. Sur le plan théorique, ces récentes contributions tendent à réhabiliter les modèles de risque de long terme.
Conclusion
Nous avons commencé cet article par une énigme sur le niveau de la prime de risque sur les actions. Au fil du temps, les modèles ont mieux réussi à expliquer l'écart de rendement entre un indice d'actions et le rendement des bons du Trésor, mais aussi d'autres statistiques et notamment la variance de la prime et la prévisibilité de la prime par le ratio cours-dividende. L'addition de risques de long terme sur le niveau de la croissance économique et sur l'incertitude entourant ce niveau a largement contribué à ces progrès. Nous avons terminé notre analyse par un autre débat sur la structure à terme des primes de risque. Certains auteurs ont avancé qu'elle était décroissante, en contradiction avec les modèles de risque de long terme, mais les résultats empiriques les plus récents tendent à montrer que la pente varie selon l'état de l'économie, croissante dans les périodes normales de l'économie et décroissante dans les récessions ou les périodes de crise. Il semble donc que l'énigme reposait sur la mesure de cette structure à terme et non sur les modèles qui peuvent l'expliquer.