Chapter

5. Méthodes de régression hédonique

Author(s):
Statistical Office of the European Communities;International Labour Office;International Monetary Fund;Organization for Economic Co-operation and Development;United Nations;World Bank
Published Date:
September 2014
Share
  • ShareShare
Show Summary Details

Modélisation et estimation hédoniques

5.1 La méthode de régression hédonique reconnaît que des biens hétérogènes peuvent être décrits par leurs attributs ou leurs caractéristiques, c’est-à-dire qu’un bien est essentiellement un ensemble de caractéristiques (de performance)1. Dans le contexte du logement, cet ensemble peut inclure des attributs concernant aussi bien la structure des bâtiments que l’emplacement des biens immobiliers. Il n’existe pas de marché pour les caractéristiques puisque celles-ci ne peuvent être vendues séparément et, de ce fait, leurs prix ne sont pas observés indépendamment. La demande et l’offre des biens déterminent implicitement les contributions marginales de leurs caractéristiques à leur prix. Ces contributions marginales ou prix virtuels peuvent être estimés à l’aide de techniques de régression. La méthode hédonique peut notamment permettre d’estimer la disposition à payer pour les différentes caractéristiques ou le coût marginal de la production de celles-ci. Nous nous intéressons plus particulièrement ici au deuxième grand objectif du manuel, à savoir la construction d’indices de prix ajustés pour tenir compte de la qualité.

Modélisation hédonique

5.2 On part de l’hypothèse que le prix pnt du bien n pendant la période t est fonction d’un nombre fixe, disons K, de caractéristiques mesurées par les «quantités» znkt. Avec les T+1 périodes temporelles, comprises entre la période de référence 0 et la période T, nous avons

t = 0,…,T

ɛnt est un terme d’erreur aléatoire (bruit blanc). Pour pouvoir estimer les contributions marginales des caractéristiques à l’aide des techniques de régression courantes, l’équation (5.1) doit être présentée sous forme d’une équation paramétrique. Les deux spécifications hédoniques les plus connues sont le modèle linéaire

et le modèle log-linéaire

β0t et βkt sont la constante et les paramètres des caractéristiques à estimer. Dans les deux spécifications, les caractéristiques peuvent être des transformations, logarithmiques par exemple, de variables continues. Dans la pratique, les variables explicatives seront souvent plutôt catégorielles que continues et représentées par une série de variables indicatrices qui sont égales à 1, lorsque le bien appartient à la catégorie considérée, et égales à 0 dans le cas contraire.

5.3 Pour les produits comme les biens de haute technologie, le modèle log-linéaire (5.3) est utilisé de préférence, car c’est celui qui a le plus de chances de réduire le problème d’hétéroscédasticité (variabilité de la variance des erreurs), les prix ayant tendance à obéir à une distribution log-normale (Diewert, 2003b). Dans le contexte du logement, par contre, le modèle linéaire présente de nombreux avantages. On a vu au chapitre 3 que la taille du bâtiment et la superficie du terrain sur lequel il repose constituent deux variables importantes pour la détermination du prix. La valeur d’un bien immobilier correspondant généralement à la somme du prix du bâtiment et du prix du terrain, on peut estimer souhaitable d’inclure de façon linéaire les terrains et les bâtiments dans le modèle si l’on dispose des données nécessaires. Cette question sera examinée de façon plus approfondie au chapitre 8, notamment en décomposant l’indice hédonique en ses composantes «terrain» et «bâtiments». Toutes les sources de données ne contiennent malheureusement pas d’informations sur la taille des terrains et des bâtiments. Celles concernant la taille des terrains en particulier risquent de faire défaut. Quand la taille du terrain (ou du bâtiment) n’est pas incluse comme variable explicative, le recours à des modèles log-linéaires a été jugé relativement satisfaisant dans de nombreuses études empiriques.

5.4 Les paramètres des caractéristiques βkt dans les équations (5.2) et (5.3) peuvent varier dans le temps. Cela cadre avec l’idée selon laquelle les conditions du marché du logement déterminent les contributions marginales des caractéristiques : il n’y a en effet aucune raison de penser a priori que ces contributions sont constantes quand les conditions de l’offre et de la demande changent (Pakes, 2003). Les conditions du marché ont cependant de très fortes chances de changer de façon progressive. On peut donc formuler sans hésiter, au moins peut-être pour le court terme, l’hypothèse simplificatrice de la stabilité dans le temps des paramètres des caractéristiques (mais non de la constante). Dans le cas du modèle log-linéaire, cela conduirait à la version avec contrainte suivante de l’équation (5.3) :

Comme on le verra plus loin, les constantes dépendantes du temps (β0t) peuvent être converties en un indice des prix à qualité constante.

5.5 Supposons que nous disposons de données sur les prix de vente et les caractéristiques pour les échantillons S (0), S (1),…, S(T) de biens immobiliers de taille N (0), N (1),…, N (T) vendus pendant les périodes t = 0,…, T. Dans les hypothèses d’erreur classiques, en particulier celles de moyenne nulle et de variance constante, on peut estimer les paramètres des modèles hédoniques (5.2) et (5.3) à l’aide d’une régression effectuée selon la méthode des moindres carrés ordinaires (MCO) sur les données des échantillons de chaque période, séparément. La version avec contrainte (5.4) peut être estimée à partir des données regroupées des différentes périodes à condition d’inclure des variables indicatrices des périodes temporelles (moins une pour éviter une colinéarité parfaite). L’équation d’estimation pour le modèle log-linéaire avec contrainte (5.4), généralement appelé modèle hédonique à variables indicatrices, devient ainsi

où la variable indicatrice temporelle Dnτ prend la valeur 1 si l’observation correspond à la période τ et la valeur 0 dans le cas contraire; une variable indicatrice temporelle pour la période de référence 0 est omise. Il est aussi possible, même si cela n’est que rarement pratiqué, de définir un modèle à variables indicatrices temporelles en utilisant le prix non transformé comme variable dépendante. Cette spécification de modèle sera examinée dans l’exemple empirique donné à la fin du présent chapitre.

Questions d’ordre pratique

5.6 Une question importante est celle du choix de la série de variables explicatives à inclure dans l’équation hédonique. Si des variables pertinentes — les caractéristiques qui semblent devoir affecter le prix d’un bien immobilier (énumérées au chapitre 3) — sont omises, les paramètres estimés des caractéristiques incluses seront, de ce fait, affectés d’un biais. Celui-ci se répercute sur les prix prédits, calculés à partir des coefficients de régression, ainsi que sur les indices hédoniques. Chaque bien immobilier peut être considéré comme un bien unique du fait principalement de son emplacement. Il peut toutefois être difficile d’obtenir des informations précises sur l’emplacement des biens et leur voisinage (Case, Pollakowski et Wachter, 1991). Des informations sur d’autres caractéristiques des biens peuvent également faire défaut et celles-ci pourraient parfois être difficiles à mesurer directement. On doit donc reconnaître qu’en pratique, toute estimation d’un modèle hédonique pour le logement sera affectée d’un biais dû à l’omission de variables2. Le signe et l’ampleur du biais ainsi que son effet sur l’indice des prix sont difficiles à prédire. L’ampleur du biais dépend notamment de la corrélation entre les variables omises et incluses.

5.7 L’importance de l’emplacement a conduit les chercheurs à utiliser les coordonnées géographiques, en longitudes et latitudes, des biens immobiliers dans les régressions hédoniques. Pour cela, une matrice des distances entre tous les biens couverts par l’ensemble de données est généralement construite, puis il est fait appel à des méthodes économétriques appropriées (bien qu’assez spécialisées) pour tenir compte de la dépendance spatiale dans l’équation estimée. La prise en compte explicite de la dépendance spatiale peut contribuer à résoudre le problème que pose l’omission des variables territoriales. La dépendance spatiale peut être prise en compte dans les variables explicatives ou le résidu. La première méthode, c’est-à-dire celle consistant à inclure l’emplacement comme une variable explicative en utilisant les données géospatiales, est la plus simple. Cela peut être effectué de façon paramétrique ou non paramétrique en recourant par exemple à des splines, comme l’ont montré Hill, Melser et Reid (2010). Nous renvoyons le lecteur à Hill (2011) pour une analyse poussée et un inventaire des travaux publiés sur la dépendance spatiale, l’utilisation des données géospatiales ainsi que sur l’estimation non paramétrique3.

5.8 Le problème de la multicolinéarité est un problème bien connu des régressions hédoniques. Une forte corrélation entre certaines des variables incluses accroît l’écart-type des coefficients des régressions; les coefficients deviennent instables. Là encore, il est difficile de prédire a priori l’effet que cela aura sur les indices hédoniques. La multicolinéarité peut ne pas poser trop de problèmes dans certains cas. Par exemple, si l’on est moins intéressé par les valeurs des paramètres que par les prévisions de prix à utiliser dans l’estimation de l’indice global des prix des logements ajusté pour tenir compte de la qualité, le problème de la multicolinéarité ne devrait pas être trop aigu. Il est préférable, dans ce cas, d’inclure une variable pertinente, au risque de créer un problème de multicolinéarité, son exclusion conduisant à un biais d’omission de variables. Mais quand les valeurs des paramètres sont intéressantes en tant que telles, si l’on essaie, par exemple, de décomposer les prix des biens immobiliers en leurs composantes «terrain» et «bâtiments», la multicolinéarité pose alors problème. On en aura confirmation au chapitre 8.

5.9 Un apurement des données peut s’avérer nécessaire, comme lorsque d’autres méthodes sont utilisées. Les erreurs de saisie évidentes doivent être supprimées, mais une certaine prudence s’impose. L’élimination des données aberrantes d’une régression en vue d’obtenir des coefficients plus stables (et donc des indices de prix plus stables) est souvent arbitraire et susceptible de conduire à des estimations biaisées. Pour utiliser les techniques hédoniques, il faut disposer de données sur toutes les caractéristiques incluses dans le modèle. Or beaucoup de séries de données contiennent malheureusement des non-réponses partielles, c’est-à-dire que les informations concernant une ou plusieurs caractéristiques peuvent faire défaut pour une partie de l’échantillon. Des procédures d’imputation des données manquantes ont été mises au point, mais là encore il est important d’éviter de faire des choix arbitraires qui peuvent affecter les résultats.

5.10 Nous allons maintenant examiner, dans les deux prochaines sections, les deux principales méthodes hédoniques utilisables pour construire des indices des prix des logements, ajustés pour tenir compte de la qualité, à savoir la méthode des variables indicatrices temporelles et celle des imputations. Sans nier les problèmes économétriques potentiels, nous nous intéresserons plus particulièrement à l’utilisation des régressions par la méthode des moindres carrés pour estimer les modèles.

Méthode des variables indicatrices temporelles

5.11 La méthode des variables indicatrices temporelles a été souvent utilisée dans les travaux universitaires, mais moins par les organismes statistiques, pour construire un indice hédonique des prix des logements4. L’un de ses avantages est sa simplicité; l’indice des prix découle directement de l’équation estimée de la régression sur les variables indicatrices temporelles regroupées (5.5). En effectuant une régression globale sur les données regroupées des échantillons S (0), S (1),…, S (T) concernant les périodes t = 0,…, T (avec les superficies N(0), N(1),…, N(T)), on obtient les coefficients β^0,δ^t(t=1,T)et β^k(k=1,K). Le paramètre de la variable indicatrice temporelle fait monter ou descendre la superficie hédonique et mesure l’effet du «temps» sur le logarithme du prix. L’exponentiation des coefficients des variables indicatrices temporelles permet donc de neutraliser les effets des variations quantitatives des caractéristiques et donne une indication de l’évolution des prix des logements ajustés pour tenir compte des changements de qualité entre la période de référence 0 et chaque période de comparaison t. Autrement dit, l’indice à variables indicatrices temporelles entre la période 0 et la période t est donné par5

5.12 Le regroupement des données transversales préserve une certaine liberté. Les coefficients de régression β^k seront généralement affectés de moindres écarts-types que les coefficients β^kt qui seraient obtenus en estimant le modèle (5.19) séparément à l’aide des données des échantillons S (0), S (1),…, S (T). Si cette plus grande efficience peut être considérée comme un avantage, elle a aussi un prix : l’hypothèse de la fixité des paramètres des caractéristiques est un inconvénient de la méthode hédonique des variables indicatrices temporelles.

5.13 Quand on utilise les moindres carrés ordinaires (MCO), l’indice hédonique à variables indicatrices temporelles peut être exprimé sous la forme suivante (voir, par exemple, Diewert, Heravi et Silver, 2009; de Haan, 2010a)

z¯ks=ΣnS(s)znks/N(s) est la moyenne empirique de la caractéristique k pendant la période s (s = 0, t). L’équation (5.7) nous dit que l’indice à variables indicatrices temporelles est essentiellement le produit de deux facteurs. Le premier facteur est le ratio des prix exprimé sous forme de moyenne géométrique pendant les périodes t et 0. Le deuxième facteur, exp[Σk=1Kβ^k(z¯k0z¯kt)], ajuste ce ratio des moyennes empiriques brutes pour tenir compte des différences entre les caractéristiques moyennes z¯k0 et z¯kt; il fait fonction de facteur d’ajustement pour la qualité qui prend en compte à la fois l’évolution des composantes de la qualité et les changements observés dans la qualité des biens immobiliers (à condition que tous les attributs pertinents déterminant la qualité soient inclus dans le modèle hédonique). Il convient de noter que l’indice des prix à variables indicatrices temporelles se réduit au ratio des prix exprimé sous forme de moyenne géométrique si z¯kt=z¯k0, c’est-à-dire s’il se trouve que les caractéristiques moyennes sont égales pendant la période t et la période 0.

5.14 Supposons pour simplifier que le stock de logements est constant, en ce sens qu’il comporte toujours le même nombre de logements, et que la qualité des différents biens immobiliers ne change pas. Supposons, en outre, que S(0) et S (t) correspondent à des échantillons aléatoires ou «représentatifs» du stock de logements. Dans ce cas, la méthode des variables indicatrices temporelles vise implicitement à obtenir un rapport de prix moyens calculés par moyenne géométrique pour l’ensemble du stock, qui est égal à la moyenne géométrique des rapports de prix6. Le concept que l’on souhaite mesurer peut certes varier en fonction des fins visées, mais il est difficile de voir à quelles fins servirait un indice des prix du stock immobilier résidentiel reposant sur la moyenne géométrique. Des indices de prix de l’immobilier résidentiel reposant sur une moyenne arithmétique comme un indice suivant l’évolution de la valeur d’un stock fixe de logements dans le temps semblent plus appropriés (voir aussi les chapitres 4 et 8).

5.15 Les échantillons de logements achetés ou vendus, S (0) et S (t), peuvent ne pas être représentatifs du stock total de logements (ou du nombre total de logements vendus). Une solution pourrait être de pondérer les échantillons de manière à les rendre représentatifs. Effectuer une régression des MCO sur l’ensemble de données pondérées (regroupées) équivaut à réaliser une régression selon la méthode des moindres carrés pondérés (MCP) sur la série initiale de données. Les manuels d’économétrie ne suggèrent pas le recours aux MCP dans l’hypothèse d’une variance constante des termes d’erreur du fait que cela serait source d’hétéroscédasticité. Il convient de noter que l’utilisation de la méthode des variables indicatrices temporelles avec recours aux MCP permettra aussi d’obtenir un indice reposant sur la moyenne géométrique qui, dans ce cas, sera pondéré.

5.16 Plutôt que de recourir aux régressions des MCP, il pourrait être préférable de stratifier les échantillons, d’effectuer des régressions des MCO sur les données des différentes strates, puis de pondérer explicitement les indices hédoniques de chaque strate à l’aide des coefficients de pondération du stock (ou des ventes) de logements pour construire un indice global des prix de l’immobilier résidentiel avec une moyenne arithmétique au niveau d’agrégation le plus poussé. Cette approche hédonique stratifiée présente plusieurs autres avantages, comme on le verra plus loin.

5.17 Un problème que pose la méthode des variables indicatrices temporelles est la révision qu’elle implique. Si la série temporelle est étendue de T à T + 1 avec de nouvelles données d’observations ajoutées, les coefficients des caractéristiques s’en trouveront modifiés. Les nouveaux chiffres de l’indice des prix calculés pour les périodes t = 1,…, T différeront en conséquence de ceux antérieurement obtenus7. Lorsque de nouvelles données sont disponibles, l’efficience liée au regroupement des données augmente et de meilleures estimations peuvent être effectuées, ce qui peut être en fait considéré comme un avantage plutôt que comme un inconvénient de la méthode. D’un autre côté, les organismes statistiques et leurs utilisateurs seront très probablement peu disposés à accepter que les chiffres déjà publiés soient constamment révisés.

5.18 La méthode des variables indicatrices temporelles couvrant plusieurs périodes semble donc présenter un intérêt limité pour la production d’indices officiels des prix des logements, même si le problème des révisions peut être surmonté de plusieurs façons. L’une d’elles serait d’estimer les indices à variables indicatrices temporelles pour les périodes adjacentes t-1 et t, puis de les multiplier pour obtenir une série temporelle ne nécessitant pas de révisions. Ce chaînage des données de fréquence élevée présente en outre l’avantage d’assouplir l’hypothèse des paramètres fixes. Il n’est cependant pas totalement exempt de problèmes lui-même. Une dérive peut se produire dans l’indice quand les données accusent des fluctuations systématiques comme des fluctuations saisonnières8.

Prix des caractéristiques et méthodes d’imputation

5.19 Dans le cadre de la deuxième grande méthode d’élaboration d’un indice de prix hédonique, des régressions sont effectuées séparément pour chaque période et l’indice est construit en utilisant les prix prédits à partir des coefficients de régression. Cette méthode est plus souple que celle des variables indicatrices temporelles du fait que les prix implicites des caractéristiques peuvent varier dans le temps. Il en existe deux variantes : la méthode des prix des caractéristiques et la méthode des imputations. On verra que ces deux méthodes sont équivalentes dans certaines circonstances. Nous allons commencer par examiner la première9.

Méthode des prix des caractéristiques

5.20 Pour illustrer cette méthode, supposons comme plus tôt que des données d’observation sont disponibles sur les prix et sur les caractéristiques pertinentes des logements vendus pendant la période de référence 0 et chaque période de comparaison t. Nous supposerons aussi pour commencer que le modèle hédonique linéaire (5.2) est applicable et qu’il est estimé sur la base des données de la période 0 et de la période t séparément. On obtient ainsi les coefficients de régression β^0s et β^ks (k =1,…,K) pour s =0, t. Les prix prédits pour chaque bien immobilier sont p^n0=β^00+Σk=1Kβ^k0znk0 et p^nt=β^0t+Σk=1Kβ^ktznkt. Il est aussi possible de calculer les prix prédits pour la période 0 et la période t pour un bien «normalisé» présentant un certain nombre (fixe) de caractéristiques zk*. Le ratio des prix estimés ainsi obtenu s’établit comme suit :

L’expression (5.8) est un indice des prix ajusté pour tenir compte de la qualité puisque les caractéristiques restent fixes. Mais diverses valeurs de zk* donneront des nombres-indices différents. Quelle serait donc l’option préférée?

5.21 Supposons que nous cherchons à obtenir un indice des prix de l’immobilier résidentiel reposant sur les ventes. Deux choix naturels s’offrent pour zk* dans l’expression (5.8) : les caractéristiques moyennes de l’échantillon pour la période de référence z¯k0 et les moyennes de l’échantillon pour la période de comparaison t (t = 1,…,T), z¯kt. La solution généralement adoptée dans le cadre de la théorie des nombres-indices consiste à traiter les indices de prix obtenus — qui sont tout aussi valables — de façon symétrique en utilisant la moyenne géométrique. En posant zk*=z¯k0 dans l’expression (5.8), on obtient un indice des prix des caractéristiques, de type Laspeyres :

En posant zk*=z¯kt dans l’expression (5.8), on obtient un indice de type Paasche :

En calculant la moyenne géométrique des équations (5.9) et (5.10), on obtient l’indice des prix des caractéristiques de type Fisher :

5.22 La méthode des prix des caractéristiques peut aussi être appliquée conjointement avec le modèle log-linéaire correspondant à l’équation (5.3). En effectuant des régressions séparées de ce modèle sur les données d’observation pour les périodes 0 et t, on obtient les prix prédits (après exponentiation) p^n0=exp(β^00)exp[Σk=1Kβ^k0znk0] et p^nt=exp(β^0t)exp[Σk=1Kβ^ktznkt]. Comme on l’a fait dans l’expression (5.8) pour le modèle linéaire, on peut prédire le prix d’un logement normalisé. En utilisant les moyennes des caractéristiques de l’échantillon pendant la période de référence pour définir ce logement, on obtient la contrepartie géométrique de l’indice des prix des caractéristiques, de type Laspeyres (5.9) :

On obtient la contrepartie géométrique de l’indice hédonique de type Paasche (5.10) en utilisant les moyennes des caractéristiques de l’échantillon pendant la période de comparaison :

En calculant la moyenne géométrique des équations (5.12) et (5.13), on obtient

z¯k0t=(z¯k0+z¯kt)/2 dans l’équation (5.14) correspond à la moyenne des caractéristiques moyennes pendant la période de référence et la période de comparaison.

5.23 Si l’on vise à établir un indice des prix de l’immobilier résidentiel reposant sur le stock plutôt que sur les ventes de logements, les deux choix naturels pour les caractéristiques zk* dans l’équation (5.8) sont les caractéristiques moyennes du stock de logements pendant la période de référence et pendant la période de comparaison. Dans le premier cas, on obtiendra un indice des prix du stock de logements de type Laspeyres et, dans le second, un indice des prix du stock de logements de type Paasche. Ces deux indices mesurent l’évolution de la valeur du stock de logements ajustée en fonction de la qualité, mais ils ne donnent généralement pas les mêmes résultats. Non seulement la qualité moyenne du stock de logements évolue dans le temps, mais l’indice de type Laspeyres ignore les nouveaux biens immobiliers entrés sur le marché du logement tandis que l’indice de type Paasche ne tient pas compte des biens qui en sont sortis.

5.24 Il est bien entendu irréaliste de supposer que les moyennes sont disponibles pour les caractéristiques de l’ensemble du stock de biens immobiliers inclus dans le modèle hédonique. Il faut, dans la plupart des cas, recourir à des estimations, c’est-à-dire aux moyennes de l’échantillon z¯k0 et z¯kt qui reposent sur les mêmes données concernant les caractéristiques que celles utilisées pour estimer les équations hédoniques. Cela conduit aux formules (5.9) et (5.10) ou à la moyenne géométrique (5.11) qui décrivent les indices de prix de l’immobilier résidentiel reposant sur les ventes. Cela nous rappelle une fois de plus que ces indices peuvent être considérés comme des estimateurs des indices des prix du stock de logements, à condition que les échantillons soient représentatifs de l’ensemble du stock. Cette condition ayant toutefois peu de chances d’être remplie, il est généralement procédé à la stratification des échantillons et à la pondération des indices estimés des strates à l’aide des coefficients de pondération des stocks.

La méthode à imputation hédonique

5.25 La question se pose de savoir comment articuler la méthode des prix des caractéristiques décrite plus haut avec la méthode courante (d’appariement de modèles) pour construire les indices de prix. Du point de vue des nombres-indices, nous pouvons examiner la question de la façon suivante. Les prix des biens immobiliers vendus pendant la période 0 ne peuvent être observés pendant la période t et sont donc «manquants» du fait que ces biens, ou du moins, la majeure partie d’entre eux, ne seront pas revendus pendant la période t. Les prix pendant la période 0 des biens vendus pendant la période t ne sont pas non plus observables. Ces «prix manquants» doivent être imputés pour appliquer les formules types des nombres-indices10. Les indices reposant sur l’imputation hédonique utilisent pour cela les prix prédits, évalués pour des caractéristiques fixes, sur la base des régressions hédoniques effectuées pour toutes les périodes temporelles.

Indices avec imputation reposant sur la moyenne arithmétique

5.26 L’indice de Laspeyres avec imputation impute les prix de la période t pour les biens immobiliers appartenant à l’échantillon de la période de référence S(0), évalués en fonction des caractéristiques de la période de référence pour neutraliser les effets des changements de qualité. En utilisant le modèle linéaire (5.1), les prix imputés sont p^nt(0)=β^0t+Σk=1Kβ^ktznk0 et l’indice de Laspeyres avec imputation hédonique devient

Il convient de noter que la quantité associée à chaque prix est égale à 1, ce qui veut essentiellement dire que chaque logement est unique et ne peut être apparié qu’en recourant à un modèle.

5.27 L’indice de Laspeyres avec imputation hédonique (5.15) est un exemple d’indice à imputation unique (dans lequel les prix observés restent inchangés. On peut soutenir qu’il serait préférable d’utiliser la méthode de la double imputation en vertu de laquelle les prix observés sont remplacés par les valeurs prédites du fait que les biais dus aux variables omises qui affectent les estimations de la période 0 et de la période t ont des chances de se compenser, au moins jusqu’à un certain point; voir Hill, 2011, par exemple. En utilisant p^n0=β^00+Σk=1Kβ^k0znk0, l’indice de prix hédonique de Laspeyres à double imputation (DI) s’établit comme suit :

Il ressort d’une comparaison entre cette équation et l’équation (5.12) qu’en utilisant le modèle linéaire, l’indice à double imputation équivaut à l’indice des prix des caractéristiques de type Laspeyres. Ce résultat ne dépend pas de la méthode d’estimation utilisée. Si nous utilisions une régression de la méthode des MCO pour estimer le modèle linéaire, l’indice à imputation unique équivaudrait à l’indice à double imputation et il coïnciderait aussi avec l’indice des prix des caractéristiques du fait que dans ce cas ΣnS(0)pn0=ΣnS(0)p^n0, le modèle hédonique incluant une constante, la somme des résidus de la régression des MCO est nulle.

5.28 L’indice hédonique de Paasche à imputation unique impute les prix, pour la période de référence, des biens immobiliers appartenant à l’échantillon S(t) de la période t, évalués sur la base des caractéristiques correspondant à cette dernière période. En utilisant à nouveau le modèle linéaire (5.1), ces prix imputés nous sont donnés par p^n0(t)=β^00+Σk=1Kβ^k0znkt. Pour gagner de la place, nous n’exposerons ici que la variante de la double imputation. Les prix observés (période t) sont remplacés par ceux prédits sur la base du modèle p^nt=β^0t+Σk=1Kβ^ktznkt. L’indice hédonique de Paasche à double imputation s’établit alors comme suit :

Il coïncide avec l’indice des prix des caractéristiques de type Paasche. En cas de recours à la régression des MCO, il équivaut à l’indice de Paasche à imputation unique du fait que dans ce cas précis, le numérateur égale ΣnS(t)pnt. Il ne sera donc pas nécessaire d’estimer les équations hédoniques pour les périodes de comparaison t = 1,…,T ; il suffira d’estimer l’équation hédonique de la période de référence pour obtenir les valeurs imputées pour cette période.

5.29 On obtient l’indice hédonique de Fisher à double imputation en calculant la moyenne géométrique des équations (5.16) et (5.17) :

Les indices avec imputation qui précèdent peuvent être interprétés de deux façons. Ils peuvent être considérés comme des estimateurs de l’évolution de la valeur ajustée en fonction de la qualité de l’ensemble du stock de logements, c’est-à-dire comme des indices des prix de l’immobilier résidentiel reposant sur les stocks, ou comme des estimateurs des indices des prix de l’immobilier résidentiel reposant sur les ventes et ajustés pour tenir compte de la qualité. Dans le premier cas, pour obtenir des résultats pratiquement non biaisés, chaque échantillon devrait être un échantillon aléatoire ou représentatif du stock de logements. Les problèmes de biais d’échantillonnage pourraient être moins sérieux dans le second cas, mais tout dépend de la façon dont l’échantillonnage est conçu11.

Indices avec imputation reposant sur la moyenne géométrique

5.30 La méthode de l’imputation peut aussi être appliquée aux formules d’indices des prix reposant sur la moyenne géométrique. Commençons par ce que nous pourrions appeler la contrepartie géométrique de l’indice des prix de Laspeyres avec imputation (5.15). Aux fins de «cohérence», les imputations seront calculées à l’aide du modèle hédonique log-linéaire (5.3), et non plus à l’aide du modèle linéaire. Les prix imputés de la période t pour les biens immobiliers figurant dans l’échantillon de la période de référence S(0), évalués en fonction des caractéristiques de la période de référence, sont p^nt(0)=exp(β^0t)exp[Σk=1Kβ^ktznk0]. L’indice géométrique non pondéré avec double imputation, dans lequel les prix de la période de référence sont remplacés par les valeurs prédites p^n0=exp(β^00)exp[Σk=1Kβ^k0znk0] s’établit donc comme suit :

On obtient, de même, la contrepartie géométrique de l’indice des prix de Paasche avec imputation (5.16) en imputant les prix de la période 0 pour les biens immobiliers figurant dans l’échantillon S(t) de la période t, qui sont donnés par p^n0(t)=exp(β^00)exp[Σk=1Kβ^k0znkt], et en remplaçant les prix observés de la période t par les prix prédits p^nt=exp(β^0t)exp[Σk=1Kβ^ktznkt]. On a donc :

5.31 Si l’on recourt à la méthode des MCO pour estimer les équations de la régression log-linéaire, le dénominateur de l’équation (5.19) et le numérateur de l’équation (5.20) équivalent à la moyenne géométrique des prix de l’échantillon pour la période 0 et la période t, respectivement, et les indices à double imputation coïncident avec ceux à imputation unique. En calculant la moyenne géométrique des équations (5.19) et (5.20), on obtient :

z¯k0t=(z¯k0+z¯kt)/2 représente la moyenne des caractéristiques moyennes pour les périodes 0 et t, comme auparavant.

5.32 L’équation de l’indice avec imputation symétrique (5.21) peut être réécrite sous une forme étonnamment proche de l’équation (5.7) correspondant à l’indice à variables indicatrices temporelles quand on recourt à la méthode des MCO pour estimer les équations hédoniques (voir Diewert, Heravi et Silver, 2009, et de Haan, 2010a) :

β^k0t=(β^k0+β^kt)/2 représente la valeur moyenne du ke coefficient pour les périodes 0 et t. L’équation (5.22) ajuste le ratio des prix observés exprimés sous forme de moyenne géométrique pour tenir compte de différences éventuelles dans les caractéristiques moyennes de l’échantillon. Triplett (2006) parle à ce propos d’«ajustement hédonique de la qualité». En effectuant un rapprochement avec l’équation (5.7), on constate qu’en cas de non-variation des moyennes de l’ensemble des caractéristiques de l’échantillon (z¯k0=z¯kt), l’indice avec imputation hédonique symétrique et l’indice à variables indicatrices temporelles coïncident et équivalent au ratio des prix observés, exprimés sous forme de moyenne géométrique, mais il va sans dire que cela se produit rarement. Ces deux types d’indices hédoniques coïncident aussi si, pour chaque caractéristique, le coefficient moyen β^k0t des deux régressions distinctes est égal au coefficient β^k de la régression avec variables indicatrices temporelles. C’est également rare, mais cela permet de penser que les deux méthodes produisent des résultats similaires si les paramètres des caractéristiques restent à peu près constants dans le temps.

5.33 Si l’on peut supposer constants dans le temps les paramètres des caractéristiques, on peut remplacer les coefficients moyens β^k0t dans l’équation (5.22) par les coefficients β^k0 de la période de référence. Il ne sera pas nécessaire, dans ce cas, d’effectuer une régression pour chaque période temporelle et on utilisera en fait l’indice de prix avec imputation non symétrique correspondant à l’équation (5.13)12. La régression pour la période de référence pourra être effectuée sur un plus grand ensemble de données pour augmenter la stabilité des coefficients. Il est recommandé de vérifier régulièrement si les coefficients ont sensiblement changé et de les actualiser s’il y a lieu.

5.34 Comme on l’a déjà dit, les indices de prix reposant sur la moyenne géométrique se prêtent moins bien au rôle d’estimateurs des indices des prix de l’immobilier résidentiel, ajustés pour tenir compte de la qualité. Nous n’allons toutefois pas jusqu’à dire qu’ils ne devraient jamais être utilisés. Dans le contexte de la stratification, le recours à l’équation (5.21) pourrait donner des résultats satisfaisants puisqu’il permettrait d’associer un ajustement en fonction de la qualité (en utilisant un modèle de régression hédonique log-linéaire) et une formule d’indice symétrique au sein des différentes strates à un ajustement des composantes dans l’ensemble des strates. Cette approche hédonique stratifiée est examinée dans la prochaine section.

Indices hédoniques stratifiés

5.35 La stratification, ou la fixation de la structure, a été considérée au chapitre 4. La stratification est un moyen simple et efficace d’éliminer l’incidence des modifications de la composition en éléments de qualité des biens immobiliers vendus. Néanmoins, certains des changements survenus au sein même des strates ne seront probablement pas tous éliminés du fait essentiellement que chaque bien immobilier est unique. Un biais pourrait donc exister au niveau des valeurs unitaires. Le recours à un système de stratification plus poussé pourrait être difficilement envisageable surtout si le nombre d’observations disponibles était relativement limité. Il pourrait valoir la peine, si l’on disposait des données nécessaires sur les caractéristiques, d’utiliser une stratification moins fine et de recourir à une régression hédonique au niveau des strates pour éliminer l’incidence des changements survenus dans les composantes qualitatives. Cette approche en deux temps associerait l’utilisation de la méthode hédonique au niveau des strates à une pondération explicite au niveau global pour obtenir un indice général des prix de l’immobilier résidentiel.

5.36 Deux avantages de la stratification ont déjà été mentionnés. Premièrement, celle-ci permet aux organismes statistiques de publier des indices de prix de l’immobilier résidentiel pour différents segments du marché, ce qui sera positif pour les utilisateurs puisqu’il est bien connu que l’évolution des prix peut varier assez fortement entre les types de logement, les régions, etc. Deuxièmement, elle peut permettre de réduire des biais d’échantillonnage, notamment celui lié à la non-réponse dans le cas notamment de l’indice des prix de l’immobilier résidentiel reposant sur le stock de logements.

5.37 Il est fortement recommandé de recourir à la stratification en cas d’utilisation des techniques de régression hédonique pour éliminer l’incidence des changements affectant les composantes qualitatives. Il est très peu probable qu’un seul modèle hédonique soit valable pour tous les segments du marché et il est donc souhaitable d’effectuer des régressions distinctes pour les divers types de biens, les divers emplacements, etc. Deux problèmes sont en fait en jeu ici. Le plus important peut-être tient au fait qu’à chaque segment du marché correspond un ensemble particulier de caractéristiques. Par exemple, celles concernant les maisons individuelles ne sont pas les mêmes que celles concernant les appartements situés dans des tours, ne serait-ce qu’en raison du fait que l’étage auquel se trouve un appartement est considéré comme une variable importante de la détermination de son prix. Le deuxième problème en jeu, certes moins important sans doute, est que la valeur des paramètres peut varier d’un segment à l’autre du marché pour les mêmes caractéristiques. N’importe quel manuel d’économétrie contient des tests statistiques pour les différences observées, entre les sous-échantillons, dans les valeurs des paramètres.

5.38 C’est par rapport à la méthode d’imputation que l’approche hédonique stratifiée peut être le plus facilement illustrée, surtout quand on l’associe à la formule de l’indice de Laspeyres. Reprenons la troisième expression de la partie droite de l’équation correspondant à l’indice des prix de Laspeyres avec imputation hédonique unique (5.15), où les prix de la période t «manquent» pour les logements figurant dans l’échantillon de la période de référence S(0), et sont imputés par p^nt(0) (à l’aide du modèle de régression hédonique estimé pour la période t). Supposons, comme au chapitre 4, que l’ensemble de l’échantillon est stratifié (a posteriori) en M sous-échantillons Sm(0). L’équation (5.15) peut alors être réécrite sous la forme suivante :

PHIL,m0t=ΣnSm(0)p^nt(0)/ΣnSm(0)pn0 représente l’indice des prix de Laspeyres avec imputation hédonique (unique) entre la période de référence et la période t pour la cellule m;sm0=ΣnSm(0)pn0/ΣnSm(0)pn0, est la part correspondante de la valeur des ventes qui sert de coefficient de pondération pour PHIL,m0t. Il convient de noter que la dernière expression de l’équation (5.23) a une structure comparable à celle de l’indice découpé en cellules homogènes correspondant à l’équation (4.1), mais dans le cas présent, les indices des cellules reposent sur des imputations hédoniques plutôt que sur des valeurs unitaires.

5.39 L’équation (5.23) montre que si les prix imputés p^nt(0) pour tous les logements de l’échantillon S(0) reposent sur une seule régression hédonique globale, l’indice agrégé de Laspeyres avec imputation hédonique peut être écrit sous la forme d’un indice stratifié. Mais c’est simplement une autre façon d’écrire les choses, et non ce que l’on entend par «approche hédonique stratifiée». En outre, comme on l’a indiqué plus haut, il n’est pas du tout réaliste de penser pouvoir utiliser un seul modèle. Il ne faut donc pas effectuer une seule grande régression hédonique, mais des régressions séparées sur les données des sous-échantillons de chaque période pour obtenir les prix imputés (de la période t) et les indices des cellules avec imputation. C’est ainsi qu’on obtiendra un indice stratifié avec imputation hédonique de type Laspeyres.

5.40 Il serait préférable d’estimer un indice hédonique stratifié de Fisher plutôt qu’un indice de Laspeyres. C’est tout à fait possible pour un indice des prix de vente de l’immobilier résidentiel, mais peut-être pas pour un indice des prix du stock immobilier résidentiel, comme on l’a déjà dit au chapitre 3 du fait que l’on manque souvent de données actualisées sur le nombre de biens immobiliers recensés.

Principaux avantages et inconvénients

5.41 Cette section du manuel fait le point des avantages et des inconvénients que présente le recours aux régressions hédoniques pour construire un indice des prix de l’immobilier résidentiel. Ses principaux avantages sont les suivants :

  • Si la liste disponible des caractéristiques des biens immobiliers est assez détaillée, les méthodes hédoniques peuvent, en principe, permettre d’éliminer l’incidence des changements survenus dans la composition de l’échantillon ainsi que dans la qualité des divers biens immobiliers.

  • Des indices de prix peuvent être construits pour différents types de logements et différents emplacements si l’échantillon est stratifié comme il convient. La stratification présente elle-même plusieurs autres avantages.

  • La méthode hédonique est probablement celle qui permet d’exploiter au mieux les données disponibles.

  • La variante de la méthode des régressions hédoniques qui fait appel à l’imputation est analogue à la méthode de la fixation d’un échantillon qui est largement utilisée pour construire des indices de prix.

5.42 Les principaux inconvénients des régressions hédoniques sont les suivants :

  • Il peut s’avérer difficile de neutraliser suffisamment l’effet de l’emplacement si les prix des biens immobiliers et leur évolution varient au sein des régions. L’adoption d’une approche stratifiée des régressions hédoniques permettra toutefois de surmonter en partie ce problème.

  • L’approche hédonique nécessite beaucoup de données puisque, pour l’appliquer, il faut disposer de données sur toutes les caractéristiques pertinentes des biens immobiliers, ce qui rend son utilisation assez coûteuse13.

  • La méthode hédonique est, pour l’essentiel, reproductible, mais divers choix peuvent être opérés en ce qui concerne notamment l’ensemble des caractéristiques incluses dans le modèle, la forme fonctionnelle, les transformations possibles de la variable dépendante14 et la spécification stochastique, etc., qui pourraient se traduire par des estimations divergentes de l’évolution générale des prix. Cela implique donc sans doute la nécessité de disposer d’un grand nombre de métadonnées.

  • L’idée générale de la méthode hédonique est facilement compréhensible, mais certains de ses aspects techniques risquent d’être difficiles à expliquer aux utilisateurs.

5.43 Globalement donc, les régressions hédoniques constituent probablement la meilleure approche à suivre pour construire des indices de prix de l’immobilier résidentiel à qualité constante pour divers types de biens immobiliers15. Nous sommes favorables à l’utilisation de la variante avec (double) imputation parce qu’elle constitue l’approche hédonique la plus flexible et qu’elle est analogue à la méthode des produits appariés standard adoptée pour construire des indices de prix.

5.44 Dans les trois prochaines sections, nous allons illustrer les diverses méthodes de régression hédonique à l’aide des données relatives à la ville de «A» qui a été décrite à la fin du chapitre 4. Les deux sections suivantes présentent les résultats des régressions hédoniques à variables indicatrices temporelles utilisant, respectivement, le logarithme du prix de vente comme variable dépendante et le prix de vente non transformé. La dernière section illustre la méthode de l’imputation hédonique. Tous les indices de prix ainsi obtenus concernent les ventes de maisons individuelles; certains résultats obtenus à partir des données concernant la ville de «A» pour les indices relatifs au stock de logements ne seront présentés qu’au chapitre 8.

Modèles à variables indicatrices temporelles utilisant le logarithme du prix comme variable dépendante

Le modèle log-linéaire à variables indicatrices temporelles

5.45 Reprenons la description des données concernant les ventes de maisons individuelles dans la ville néerlandaise de «A». Pendant le trimestre t, N(t) ventes de maisons individuelles ont été effectuées dans cette ville avec pnt correspondant au prix de vente de la maison n vendue pendant le trimestre t. Des informations sont disponibles sur trois caractéristiques de cette maison n vendue pendant la période t:Lnt est la superficie du terrain en mètres carrés (m2); Snt est la surface de plancher du bâtiment en m2 et Ant est l’ancienneté de la maison n en dizaines d’années pendant la période t. En utilisant ces variables, le modèle courant log-linéaire de régression hédonique à variables indicatrices temporelles est défini par le système suivant d’équations de régression16 :

t = 1,…,14; n = 1,…,N(t); τ1 ≡ 0

où τt est un paramètre qui fait monter ou descendre le prix hédonique au trimestre t par rapport au prix du trimestre 117.

5.46 Il est facile de construire un indice des prix à l’aide du modèle log-linéaire de régression hédonique à variables indicatrices temporelles (5.24). En prenant l’exponentielle des deux membres de l’équation (5.24) et en négligeant le terme d’erreur, on obtient pnt=exp(α)[exp(Lnt)]β[exp(Snt)]γ[exp(Ant)]δexp(τt). Si l’on pouvait observer un bien immobilier présentant les mêmes caractéristiques pendant la période de référence 1 et une période de comparaison t(> 1), le ratio de prix correspondant (en négligeant à nouveau les termes d’erreur) serait simplement égal à exp(τt). Pendant deux périodes consécutives t et t+1, le ratio de prix (toujours en négligeant les termes d’erreur) serait égal à exp(τt+1)/exp(τt) et pourrait servir de maillon dans un indice-chaîne de prix. Le graphique 5.1 montre l’indice ainsi obtenu, appelé PH1 (indice hédonique n° 1) tandis que le tableau 5.1 expose les nombres-indices. La valeur du R2 obtenue pour ce modèle était de 0,8420, ce qui est assez satisfaisant pour un modèle de régression hédonique ne comportant que trois variables explicatives18. Il convient de noter, à des fins de comparaison ultérieure, que la log-vraisemblance était de 1.407,6.

Graphique 5.1.Indices de prix log-linéaires à variables indicatrices temporelles et indice-chaîne de Fisher des prix moyens à échantillon stratifié

Source : calculs des auteurs basés sur les données du cadastre néerlandais.

Tableau 5.1.Indices de prix log-linéaires à variables indicatrices temporelles et indice-chaîne de Fisher des prix moyens à échantillon stratifié
TrimestrePH1PH2PH3PFCH
11,000001,000001,000001,00000
21,046091,040591,033141,02396
31,061681,058881,054821,07840
41,040071,032871,038761,04081
51,054841,050321,038481,04083
61,082901,075321,063691,05754
71,091421,085021,079571,07340
81,062371,056551,051811,06706
91,105721,097991,097361,08950
101,105901,100711,097861,11476
111,107221,102441,091671,12471
121,101771,097471,098591,10483
131,096051,085681,094821,10450
141,101661,096941,100571,11189
Source : calculs des auteurs basés sur les données du cadastre néerlandais.

5.47 Un aspect négatif de ce modèle est que le modèle sous-jacent de la formation des prix ne paraît pas plausible : S et L interagissent de façon multiplicative pour la détermination du prix global de la maison alors qu’il semble très probable que la taille du terrain L et la taille de la maison S interagissent de façon plutôt additive dans la détermination du prix global.

5.48 Un autre aspect négatif du modèle de régression (5.24) est que l’ancienneté du logement est prise en compte de manière additive. Or, si l’on peut s’attendre à ce que l’ancienneté interagisse directement avec la variable des bâtiments S en tant que variable de la dépréciation (nette), ce n’est pas le cas pour la variable représentative du terrain L, du fait qu’un terrain ne se déprécie pas. Cette interaction directe de l’ancienneté avec les bâtiments sera prise en compte dans le modèle suivant.

Le modèle log-linéaire à variables indicatrices temporelles avec ajustement de la qualité des bâtiments

5.49 Si l’ancienneté A interagit avec la taille des bâtiments S de manière multiplicative, une variable explicative appropriée pour le prix de vente d’une maison serait γ (1- δ) AS (c’est-à-dire la dépréciation géométrique où δ est le taux d’amortissement géométrique sur dix ans) ou γ(1- δA)S (dépréciation linéaire où δ est le taux d’amortissement linéaire sur dix ans) plutôt que la spécification selon la méthode additive γS + δA. La variante linéaire de cette catégorie de modèles va être estimée par la suite19. Le modèle log-linéaire de régression hédonique à variables indicatrices temporelles avec ajustement de la qualité des bâtiments devient

t = 1,…,14; n = 1,…,N(t); τ1 ≡ 0

5.50 Le modèle de régression (5.25) a été appliqué en utilisant les 14 trimestres de données sur les ventes pour la ville de «A». Il convient de noter qu’un seul taux d’amortissement linéaire est estimé. Le taux d’amortissement (net) sur dix ans20 a été estimé à δ^ = 11.94 % (soit environ 1,2 % par an), ce qui est très raisonnable. De même que pour le modèle (5.24), si une maison présente les mêmes caractéristiques pendant deux périodes consécutives t et t+1, le ratio de prix correspondant (en négligeant les termes d’erreur) exp(τt+1)/exp(τt) peut servir de maillon dans un indice-chaîne de prix; voir le graphique 5.1 et le tableau 5.1 pour l’indice ainsi obtenu, appelé PH2. La valeur du R2 obtenue pour ce modèle était de 0,8345, ce qui est un peu moins que pour le modèle précédent, et la log-vraisemblance était de 1.354,9, soit une baisse non négligeable par rapport au chiffre de 1.407,6 précédemment obtenu21.

5.51 Il semble que la prise en compte d’autres considérations théoriques — concernant le traitement de l’ancienneté de la maison — a conduit à un moins bon ajustement du modèle aux données empiriques. Ce modèle et le précédent ne sont cependant probablement pas bien spécifiés22 : ils multiplient tous les deux la superficie du terrain par celle du bâtiment pour déterminer le prix de la maison alors qu’une interaction additive entre L et S serait sans doute plus appropriée qu’une interaction multiplicative.

5.52 Il convient de noter qu’étant donné le taux d’amortissement δ, les bâtiments après ajustement de leur qualité (pour tenir compte de leur ancienneté) des différentes maisons n pendant chaque trimestre t peuvent être définis comme suit :

t = 1,…,14; n = 1,…, N(t)

Le modèle log-log à variables indicatrices temporelles avec ajustement de la qualité des bâtiments en fonction de leur ancienneté

5.53 Dans le reste de cette section, nous utiliserons comme variable explicative les bâtiments après ajustement de leur qualité (en fonction de leur ancienneté), (1-δA)S, plutôt que leur surface non ajustée, S. Le modèle log-log est similaire au précédent modèle log-linéaire si ce n’est que maintenant, au lieu d’utiliser L et (1-δA)S comme variables explicatives dans le modèle de régression, ce sont les logarithmes de la superficie du terrain et de la surface des bâtiments après ajustement de leur qualité qui sont utilisés comme variables indépendantes. Le modèle log-log de régression hédonique à variables indicatrices temporelles avec ajustement de la qualité des bâtiments se présente comme suit23 :

t = 1,…14; n = 1,…N(t); τ1 ≡ 0

5.54 Sur la base des données concernant la ville néerlandaise de «A», le taux d’amortissement (net) estimé sur dix ans était δ^ = 0,1050 (erreur-type de 0,00374). Si les deux membres de l’équation (5.27) étaient passés à l’exponentielle et les termes d’erreur négligés, le prix pnt de la maison égalerait exp(α)[Lnt]β[Snt*]γexp(τt),Snt* correspondant aux bâtiments après ajustement de leur qualité, tels qu’ils ont été définis par l’équation (5.26). Aussi, si nous pouvions observer une maison présentant les mêmes caractéristiques pendant deux périodes consécutives t et t+1, le ratio de prix correspondant (en négligeant les termes d’erreur) serait égal à exp(τt+1)/exp(τt) et il pourrait là aussi servir de maillon pour un l’indice-chaîne de prix; voir le graphique 5.1 et le tableau 5.1 pour l’indice ainsi obtenu, appelé PH3. La valeur du R2 obtenue pour ce modèle était de 0,8599 (et la mesure adaptée de la qualité de l’ajustement était R*2 = 0,8880), soit une valeur plus élevée que celle obtenue pour les modèles (5.25) et (5.26); la log-vraisemblance était de 1.545,4, ce qui était bien supérieur à celle observée pour les deux autres modèles (1.407,6 et 1.354,9).

5.55 Les séries de prix des maisons obtenues par les trois régressions log-linéaires à variables indicatrices temporelles considérées dans la présente section, PH1, PH2 et PH3, sont indiquées dans le graphique 5.1 avec l’indice-chaîne de Fisher des prix moyens reposant sur un échantillon stratifié, PFCH. Ces quatre séries de prix de maisons sont exposées dans le tableau 5.1. Les quatre indices reflètent la même tendance, mais des écarts de plus de 2 % sont observables pour certains trimestres. Il convient de noter que tous ces indices évoluent dans le même sens d’un trimestre à l’autre et accusent des baisses aux trimestres 4, 8, 12 et 13, mais l’indice PH3 — celui qui correspond au modèle loglog à variables indicatrices temporelles — enregistre une augmentation au trimestre 12.

5.56 Si le modèle (5.27) est le plus satisfaisant parmi les modèles hédoniques simples considérés jusqu’à présent, il se distingue malheureusement par le fait que les quantités de terrains et de bâtiments après ajustement de leur qualité déterminent le prix d’un bien immobilier de manière multiplicative. Or il est plus probable que le prix des maisons est déterminé par la somme pondérée des montants de leur terrain et de leur bâtiment après ajustement pour tenir compte de la qualité, c’est pourquoi nous allons procéder dans la prochaine section à l’estimation d’un modèle additif à variables indicatrices temporelles. Ce modèle devrait être mieux adapté aux données.

Modèles de régression hédonique à variables indicatrices temporelles utilisant le prix comme variable dépendante

Le modèle de régression hédonique linéaire à variables indicatrices temporelles

5.57 Il est permis de penser que le prix de vente d’un bien immobilier est lié de manière linéaire à la fois à la superficie du terrain et à celle du bâtiment du fait du caractère concurrentiel du secteur de la construction résidentielle24. Si l’ancienneté du bâtiment est traitée comme une autre caractéristique qui joue un rôle important dans la détermination du prix du bien immobilier, le modèle de régression hédonique linéaire à variables indicatrices temporelles qui suit pourrait convenir :

t = 1,…,14; n = 1,…N(t); τ1 ≡ 0

5.58 Le modèle de régression linéaire qui précède a été appliqué en utilisant les données afférentes à la ville de «A». La valeur du R2 obtenue pour lui a été de 0,8687, soit une valeur beaucoup plus élevée que celles obtenues dans les précédentes régressions25; la log-vraisemblance a été, quant à elle, de -1.0790,4 (chiffre qui n’est pas facilement comparable à ceux précédemment observés du fait que la variable dépendante utilisée dans ce cas a été uniquement le prix, et non pas le logarithme du prix26).

5.59 Il est un peu plus difficile d’utiliser le modèle linéaire défini par les équations (5.28) pour construire un indice global du prix des maisons que d’utiliser le précédent modèle de régression log-linéaire ou log-log à variables indicatrices temporelles. Dans la précédente section, si l’on maintient constantes les caractéristiques et si l’on néglige les termes d’erreur, le prix relatif d’une maison sur deux périodes quelconques s’avère constant, ce qui conduit à un indice global non ambigu. Dans le cas présent, lorsqu’on maintient les caractéristiques constantes et que l’on néglige les termes d’erreur, la différence de prix pour une même maison s’avère constante, mais les prix relatifs de différentes maisons ne le sont généralement pas. Un indice global sera donc construit en utilisant les prix générés par les paramètres estimés pour le modèle (5.28) et évalués à l’aide des superficies moyennes de l’échantillon pour les terrains L et les bâtiments S et de l’ancienneté moyenne A des maisons de l’échantillon27. Les prix trimestriels ainsi obtenus pour cette maison «moyenne» ont été convertis en un indice, l’indice PH4, qui est exposé dans le tableau 5.2 et représenté graphiquement dans le graphique 5.2.

Graphique 5.2.Indices de prix linéaires à variables indicatrices temporelles, indice de prix log-log à variables indicatrices temporelles et indice-chaîne de Fisher des prix moyens à échantillon stratifié

Source : calculs des auteurs basés sur les données du cadastre néerlandais.

Tableau 5.2.Indices de prix linéaires à variables indicatrices temporelles, indice de prix log-log à variables indicatrices temporelles et indice-chaîne de Fisher des prix moyens à échantillon stratifié
TrimestrePH4PH5PH3PFCH
11,000001,000001,000001,00000
21,048641,043131,033141,02396
31,069291,066671,054821,07840
41,046641,038551,038761,04081
51,050771,047061,038481,04083
61,083601,076611,063691,05754
71,095931,090681,079571,07340
81,063791,058641,051811,06706
91,104961,098611,097361,08950
101,104501,101071,097861,11476
111,107881,105881,091671,12471
121,104031,100441,098591,10483
131,098051,088641,094821,10450
141,111501,105721,100571,11189
Source : calculs des auteurs basés sur les données du cadastre néerlandais.

5.60 Le modèle de régression hédonique défini par les équations (5.28) est peut-être le plus simple possible, mais il est en réalité un peu trop simple, car il néglige le fait que les interactions entre l’ancienneté d’un bien immobilier et son prix de vente s’exercent par la voie d’une interaction multiplicative avec la variable des bâtiments et non par celle d’un facteur additif général. Le modèle (5.28) fait l’objet ci-après d’une nouvelle estimation pour laquelle on utilise comme variable explicative les bâtiments ajustés pour tenir compte de la qualité au lieu de se contenter d’intégrer séparément l’ancienneté A comme une caractéristique indépendante.

Le modèle linéaire à variables indicatrices temporelles avec ajustement de la qualité des bâtiments

5.61 Le modèle hédonique linéaire avec ajustement de la qualité des bâtiments peut être exprimé de la manière suivante

t = 1,…,14; n = 1,…,N(t); τ1 ≡ 0

C’est le modèle hédonique le plus plausible considéré jusqu’à présent. Il fonctionne avec des bâtiments S dont la qualité est ajustée (en fonction de l’ancienneté) égaux à (1-δA)S, au lieu que A et S soient intégrés dans la régression de façon linéaire comme des variables totalement indépendantes.

5.62 Les résultats obtenus avec ce modèle ont été nettement plus satisfaisants que ceux obtenus avec le modèle (5.28). La log-vraisemblance a augmenté de 92 unités pour atteindre -10.697,8 et la valeur du R2 est passée de 0,8687 à 0,8789. Le taux d’amortissement estimé sur dix ans était de δ^ = 0,1119 (0,00418), ce qui reste raisonnable. Ce modèle de régression linéaire a la même particularité que le modèle (5.28) : les différences de prix entre les maisons sont constantes dans le temps pour tous les modèles à caractéristiques constantes, mais les ratios des prix des maisons ne sont pas constants. Un indice global a donc à nouveau été construit en utilisant les prix générés par les paramètres estimés du modèle (5.29) et évalués à l’aide des superficies moyennes de l’échantillon pour les terrains L et les bâtiments S et de l’ancienneté moyenne A des maisons de l’échantillon. Les prix trimestriels ainsi obtenus pour ce modèle «moyen» ont été convertis en un indice, l’indice PH5, qui est exposé dans le tableau 5.2 et représenté dans le graphique 5.2. À des fins de comparaison, l’indice PH3 (l’indice du modèle log-log à variables indicatrices temporelles) et l’indice PFCH (l’indice-chaîne de Fisher des prix moyens reposant sur un échantillon stratifié) sont représentés dans ce graphique avec les indices PH4 et PH5. Les indices préférés jusqu’à présent sont les indices PFCH et PH5.

5.63 On peut à nouveau constater que les quatre indices reflètent la même tendance, mais qu’ils accusent pour certains trimestres des différences supérieures à 2 %. Il convient de noter que tous ces indices évoluent dans le même sens d’un trimestre à l’autre et qu’ils accusent des baisses aux trimestres 4, 8, 12 et 13, mais que l’indice PH3 enregistre une augmentation au trimestre 12.

5.64 Un problème qui se pose avec les modèles de régression hédonique à variables indicatrices temporelles considérés jusqu’à présent est que les prix des terrains et des bâtiments après ajustement de leur qualité ne peuvent évoluer librement d’une période à l’autre. Ce problème n’affecte pas le type de modèles hédoniques que nous allons considérer dans la prochaine section.

Modèles de régression avec imputation hédonique

5.65 La théorie des indices avec imputation hédonique expliquée plus haut est appliquée comme suit dans le cas présent. Une régression linéaire est effectuée sous la forme suivante pour chaque période :

En utilisant les données pour la ville de «A», quatre paramètres seulement doivent être estimés pour chaque trimestre : αt, βt, γt et δt pour t = 1,…,14. Il convient de noter que le modèle correspondant aux équations (5.30) est de forme analogue à celui défini par les équations (5.29) en dehors des différences importantes suivantes :

  • Un seul paramètre de dépréciation est estimé dans le modèle défini par les équations (5.29) alors que, dans le présent modèle, 14 paramètres de dépréciation sont estimés (un par trimestre).

  • De même, le modèle (5.29) ne comportait qu’un paramètre α, β et γ alors que dans le modèle (5.30), il y a 14 paramètres αt,14 βt et 14 γt à estimer. En revanche, le modèle (5.29) comportait 13 paramètres de décalage temporel (le τt) de plus à estimer.

Le modèle avec imputation hédonique implique donc l’estimation de 56 paramètres contre 17 seulement pour le modèle à variables indicatrices temporelles, ce qui permet de penser qu’il sera bien mieux ajusté aux données.

5.66 Dans le contexte du logement, le suivi d’un ensemble de logements exactement identiques sur les périodes considérées est impossible; la dépréciation et les activités de rénovation font qu’un même logement ne se prête pas à des comparaisons d’une période à l’autre. On peut remédier à ce manque de correspondance entre, disons, les trimestres t et t+1 en utilisant les paramètres estimés à l’aide de la régression hédonique pour le trimestre t+1 et en estimant les prix de tous les logements vendus pendant le trimestre t. On obtient ainsi les prix prédits pour le trimestre t+1 des logements du trimestre t, p^nt+1 (t), c’est-à-dire :

α^t,β^t,γ^t et δ^t sont les estimations des paramètres du modèle (5.30) pour t = 1,…,14. On a maintenant un ensemble de prix «pseudo appariés» entre les trimestres t et t+1 pour les logements vendus au trimestre t et on peut construire l’indice suivant avec imputation hédonique de type Laspeyres (ou modèle «pseudo apparié») allant du trimestre t au trimestre t+128 :

Comme on l’a dit plus haut, chaque prix n’est associé qu’à une unité du fait que chaque logement est essentiellement unique et ne peut être apparié qu’à l’aide d’un modèle.

5.67 La même méthode peut être appliquée rétroactivement en partant des ventes de logements qui ont eu lieu au trimestre t+1; on prend alors les paramètres de la régression hédonique pour le trimestre t et on estime les prix en t+1, p^nt(t+1) de tous les logements vendus pendant le trimestre t+1.

t = 1,…,13; n = 1,…,N(t+1)

On dispose alors d’un ensemble de prix «appariés» pour le trimestre t des logements vendus pendant la période t+1 et on peut construire l’indice suivant avec imputation hédonique de type Paasche (ou modèle «pseudo apparié») allant du trimestre t au trimestre t+1 :

t = 1,…,13

5.68 Une fois calculés les indices de prix de Laspeyres et de Paasche avec imputation hédonique, on peut construire l’indice avec imputation hédonique de type Fisher correspondant, allant de la période t à la période t+1 en calculant la moyenne géométrique des deux indices définis par les équations (5.32) et (5.34) :

t = 1,…,13

5.69 Les indices-chaînes de prix à imputation de Laspeyres, Paasche et Fisher, PHIL, PHIP et PHIF, ainsi obtenus à partir des données afférentes à la ville de «A», sont représentés dans le graphique 5.3 ci-dessous et énumérés dans le tableau 5.3. Ces trois indices avec imputation sont étonnamment proches les uns des autres. Celui de Fisher est l’indice de prix obtenu par imputation hédonique que nous préférons jusqu’à présent; il est préférable aux indices à variables indicatrices temporelles du fait que l’imputation permet aux prix des terrains et des bâtiments après ajustement de leur qualité d’évoluer indépendamment dans le temps, alors que les indices à variables indicatrices temporelles font évoluer parallèlement la surface hédonique. Les résultats empiriques indiquent qu’au moins pour la présente série de données pour la ville de «A», l’indice de Laspeyres avec imputation donne un résultat très proche de celui offert par l’indice de Fisher avec imputation que nous préférons.

Graphique 5.3.Indices-chaînes des prix à imputation hédonique de Laspeyres, Paasche et Fisher

Source : calculs des auteurs basés sur les données du cadastre néerlandais.

Tableau 5.3.Indices-chaînes des prix à imputation hédonique de Laspeyres, Paasche et Fisher
TrimestrePHILPHIPPHIF
11,000001,000001,00000
21,042341,044791,04356
31,066391,068531,06746
41,039121,037551,03834
51,049421,046471,04794
61,072671,078401,07553
71,089231,100011,09460
81,056891,066281,06158
91,096351,107161,10174
101,099451,108791,10411
111,110621,118011,11430
121,106651,111121,10888
131,098301,098191,09824
141,119811,112801,11630
Source : calculs des auteurs basés sur les données du cadastre néerlandais.

5.70 Pour conclure, nos deux «meilleurs» indices sont l’indice de Fisher à imputation PHIF et l’indice-chaîne de Fisher à échantillon stratifié. PFCH. Dans l’ensemble, l’indice à imputation PHIF doit probablement être préféré à l’indice PFCH du fait que les indices reposant sur un échantillon stratifié présenteront un certain biais lié aux valeurs unitaires qui sera très probablement plus important que n’importe quel biais lié à la forme fonctionnelle dans l’indice PHIF. Ces deux «meilleurs» indices sont représentés dans le graphique 5.4 avec l’indice log-log à variables indicatrices temporelles PH3 et l’indice linéaire à variables indicatrices temporelles avec ajustement de la qualité des bâtiments PH5. Tous les indices de prix, à l’exception de l’indice PH3, accusent une baisse aux trimestres 4, 8, 12 et 13 et une hausse aux autres trimestres; l’indice PH3 évolue en hausse au trimestre 12 au lieu d’évoluer en baisse comme les autres indices.

Graphique 5.4.Indice de Fisher à imputation des prix, indice-chaîne de Fisher des prix moyens à échantillon stratifié, indice de prix linéaires à variables indicatrices temporelles et indice de prix log-log à variables indicatrices temporelles

Source : calculs des auteurs basés sur les données du cadastre néerlandais.

La méthode de régression hédonique remonte au moins à Court (1939) et Griliches (1961). Lancaster (1966) et Rosen (1974) en ont établi les fondements conceptuels. Colwell et Dilmore (1999) estiment que la première étude hédonique jamais publiée est une thèse de maîtrise de l’université du Minnesota sur la valeur des terres agricoles, parue en 1922.

I l convient de mentionner aussi à cet égard que les informations relatives aux caractéristiques de chaque logement inclus dans l’échantillon devraient être disponibles en temps réel. Les caractéristiques des logements peuvent changer dans le temps (c’est en fait pourquoi elles sont affectées d’un exposant pour le temps t dans les modèles hédoniques qui précèdent). Le fait de maintenir fixes les caractéristiques implique que l’indice des prix hédonique n’est pas ajusté pour tenir compte de ces changements qualitatifs.

Colwell (1998) a proposé une méthode d’interpolation spatiale non paramétrique qui semble bien adaptée pour modéliser les prix des terrains comme une fonction des coordonnées géographiques bidimensionnelles des biens immobiliers.

Cette méthode a d’abord été mise au point par Court (1939; 109‱111) et elle en constitue la deuxième suggestion hédonique. La terminologie que nous utilisons ici n’est pas employée par tous les auteurs d’études sur les biens immobiliers. Par exemple, Crone et Voith (1992) appellent la méthode des variables indicatrices temporelles la «méthode hédonique avec contrainte». Gatzlaff et Ling (1994) l’appellent, quant à eux, la «méthode explicite des variables temporelles» tandis que Knight, Dombrow et Sirmans (1995) parlent de «méthode des paramètres variables». D’autres formulations encore figurant dans les publications, les avis émis sur les mérites relatifs des diverses méthodes hédoniques doivent être interprétés avec précaution.

L’espérance de l’exponentielle du coefficient de la variable indicatrice temporelle ne correspond pas exactement au paramètre de cette variable. Le biais lié à cet écart est souvent appelé le biais du petit échantillon : il diminue en effet quand la taille de l’échantillon augmente. Sauf si l’échantillon est extraordinairement petit, ce biais sera faible par rapport à l’écart-type et il peut généralement être négligé.

Dans le cadre de la théorie des indices, ce type d’indice est connu sous le nom d’indice de Jevons.

Comme l’a dit Hill (2004), la méthode des variables indicatrices temporelles viole la conservation du passé.

Une autre solution consisterait à utiliser une fenêtre glissante. Supposons, par exemple, que nous avons estimé un indice à variables indicatrices temporelles à partir de données couvrant une période de douze mois. Nous pouvons alors supprimer les données du premier mois et ajouter celles du treizième mois et estimer l’indice à indicatrices temporelles à partir de cette nouvelle série de données et ainsi de suite. En multipliant (chaînant) les derniers changements d’un mois à l’autre, on obtient une série temporelle non révisée. Voir Shimizu, Nishimura et Watanabe (2010) pour une application. Dans l’exemple donné pour la ville de «A» à la fin du présent chapitre, aucun problème sérieux de dérive ne semble se poser; la méthode de la fenêtre glissante donne à peu près les mêmes résultats que la régression avec variables indicatrices temporelles couvrant plusieurs périodes.

Là encore, la terminologie varie d’un auteur à l’autre. Par exemple, Crone et Voith (1992) et Knight, Dombrow et Sirmans (1995) qualifient cette méthode de «méthode hédonique» (par opposition à la «méthode hédonique avec contrainte» ou à la «méthode des paramètres variables» que nous avons appelée la méthode des variables indicatrices temporelles) tandis que Gatzlaff et Ling (1994) la désignent sous le nom de «méthode strictement transversale».

Comme on l’a déjà dit, la théorie hédonique remonte au moins à Court (1939; 108). L’imputation était sa suggestion hédonique numéro 1. Celle-ci a été reprise par Griliches (1971a; 59-60) (1971b; 6) et Triplett et McDonald (1977; 144). Parmi les études plus récentes sur les imputations hédoniques, ont peut citer entre autres celles de Diewert (2003b), de Haan (2004) (2009) (2010a), Triplett (2004) et Diewert, Heravi et Silver (2009). Dans le contexte du logement, la méthode à imputation hédonique est examinée de façon approfondie par Hill et Melser (2008) et Hill (2011).

Si toutes les transactions immobilières étaient observées, il ne serait procédé à aucun échantillonnage du point de vue des ventes et le problème de biais d’échantillonnage ne se poserait pas. Dans beaucoup de pays, l’administration du cadastre enregistre toutes les transactions, du moins celles concernant la revente de maisons, mais l’ensemble de données ainsi réuni ne contient généralement que peu d’informations sur les caractéristiques des logements; voir, par exemple, Lim et Pavlou (2007) ou Academetrics (2009).

On parle en Europe de «réévaluation hédonique des prix» pour ce type d’ajustement hédonique de la qualité, surtout quand la taille de l’échantillon est fixe (Destatis, 2009).

Toutefois, comme on le verra avec l’exemple néerlandais donné plus loin, des informations sur l’emplacement du bien immobilier, son type, son ancienneté, sa surface de plancher et la superficie du terrain peuvent permettre d’expliquer pour l’essentiel la variation du prix de vente.

Par exemple, la variable dépendante pourrait, entre autres, être le prix de vente du bien ou son logarithme, ou le prix de vente divisé par la superficie du bâtiment.

Cette évaluation concorde avec celle de Hoffmann et Lorenz (2006; 15) : «Pour ce qui est de l’ajustement pour tenir compte de la qualité, les méthodes hédoniques sont certainement la solution d’avenir.» Gouriéroux et Laferrère (2009) ont montré qu’il est possible de construire un modèle officiel national de régression hédonique crédible pour les biens immobiliers.

L’équation d’estimation pour l’ensemble de données regroupées inclura des variables indicatrices temporelles pour désigner les trimestres. Pour tous les modèles estimés pour la ville de «A», on suppo se que les termes d’erreur ɛnt sont des variables normales indépendamment distribuées de moyenne nulle et de variance constante. Les paramètres inconnus de chaque modèle de régression sont estimés par la méthode du maximum de vraisemblance. L’estimation proprement dite a été effectuée en utilisant l’option non linéaire du logiciel économétrique Shazam.

Les 15 paramètres α, τ1,…,τ14 correspondent à des variables qui sont exactement coli-néaires dans la régression (5.24) et la restriction τ1 = 0 est donc imposée pour déterminer les paramètres restants.

Plus loin dans ce chapitre et au chapitre 8, des régressions hédoniques seront effectuées en utilisant les prix pnt comme variables dépendantes plutôt que les logarithmes des prix. Pour faciliter les comparaisons de la qualité de l’ajustement des modèles, nous transformerons les valeurs prédites pour les modèles logarithmiques des prix en niveaux de prix prédits en prenant l’exponentielle des prix prédits puis en calculant le coefficient de corrélation entre ces niveaux de prix prédits et les prix effectifs. En élevant au carré ce coefficient de corrélation, on obtient une mesure adaptée du niveau de la qualité de l’ajustement des modèles logarithmiques des prix qui est représentée par R*2. Pour ce modèle particulier, R*2 = 0,8061.

Cette régression est essentiellement linéaire dans les paramètres inconnus et elle est donc très facile à estimer.

C’est le taux d’amortissement nette qui a été utilisé, car aucune information n’était disponible sur les dépenses de rénovation et donc δ correspond à la dépréciation brute pour usure de la maison, déduction faite des dépenses moyennes consacrées aux travaux de rénovation et de réparation.

La valeur du R2 adapté pour ce modèle était R*2 = 0,7647, ce qui là aussi représente une baisse non négligeable par rapport au niveau correspondant du R2 observé pour le précédent modèle logarithmique des prix.

Si la variation des variables indépendantes est relativement faible, la différence entre les indices liée aux divers modèles de régression hédonique considérés dans la présente section et les deux suivantes sera probablement faible elle aussi du fait que pratiquement tous ces modèles peuvent permettre d’obtenir une approximation linéaire de la «vérité». Mais quand la variation des variables indépendantes est importante, comme c’est le cas dans le contexte actuel du logement, le choix de la forme fonctionnelle peut avoir un effet important. Le choix des variables indépendantes de la régression comme celui de la forme fonctionnelle doit donc faire l’objet d’un raisonnement a priori. Pour une analyse plus approfondie des questions concernant la forme fonctionnelle, voir Diewert (2003a).

Ce modèle de régression hédonique s’avère être une variante de l’approche orientée vers le consommateur des modèles hédoniques pour le logementde McMillen (2003). Son cadre théorique, qui s’appuie sur les travaux de Muth (1971), est décrit dans ses grandes lignes dans Diewert, de Haan et Hendriks (2010). Voir aussi McDonald (1981).

Il ne faut toutefois pas oublier que la mesure ajustée du degré d’adéquation du modèle log-log correspondant à l’équation (5.27) était de 0,8880 et qu’elle dépassait donc la valeur de 0,8687 obtenue ici.

Marc Francke a fait observer qu’il est possible de comparer les log-vraisemblances de deux modèles lorsque la variable dépendante a été transformée par une fonction connue dans le second modèle; voir Davidson et McKinnon (1993; 491) qui recourent à un ajustement jacobien pour pouvoir comparer les log-vraisemblances de deux modèles.

Les superficies moyennes de l’échantillon pour L et S étaient respectivement de 257,6 m2 et 127,2 m2, et l’ancienneté moyenne des maisons individuelles vendues pendant la période couverte par l’échantillon était de 18,5 ans.

Du fait que les régressions définies par les équations (5.30) comportent une constante et sont essentiellement linéaires au niveau des variables explicatives, la somme des résidus de l’échantillon sera nulle dans chacune des régressions. La somme des prix prédits égalera donc la somme des prix observés pour chaque période. En conséquence, la somme des prix observés figurant au dénominateur de l’équation (5.32) sera égale à la somme des prix prédits correspondants et, de même, la somme des prix observés figurant au numérateur de l’équation (5.34) sera égale à la somme correspondante des prix prédits.

    Other Resources Citing This Publication