Chapter

11. Exemples empiriques

Author(s):
Statistical Office of the European Communities;International Labour Office;International Monetary Fund;Organization for Economic Co-operation and Development;United Nations;World Bank
Published Date:
September 2014
Share
  • ShareShare
Show Summary Details

Introduction

11.1 L’objet de ce chapitre est de donner des exemples empiriques supplémentaires de construction d’indices des prix de l’immobilier résidentiel selon les méthodes des chapitres 5 à 9. Globalement il s’agit de la mesure d’une tendance centrale (moyenne ou médiane), de l’utilisation de régressions hédoniques, des méthodes des ventes répétées et des méthodes basées sur les évaluations des données. Les trois sections suivantes de ce chapitre illustrent comment appliquer les trois premières méthodes à de très petits échantillons. Le but étant qu’à travers ces exemples simplifiés, le lecteur puisse suivre plus facilement les descriptions algébriques, plutôt abstraites, des différentes méthodes décrites aux chapitres 5 à 9.

11.2 La section suivante illustre aussi les différentes méthodes d’agrégation qui peuvent être utilisées pour calculer l’indice d’ensemble de l’immobilier à partir des indices des prix régionaux. Ce sujet n’a pas été traité en détail dans les autres chapitres de ce manuel.

Méthodes de la tendance centrale et de la stratification

11.3 Les estimations de tendances centrales utilisées pour calculer un IPIR, comme la moyenne et la médiane des prix, font partie des méthodes aujourd’hui à la disposition des statisticiens les moins coûteuses en données. La moyenne simple et la médiane n’ont besoin que des prix de vente de l’immobilier d’un endroit donné pour calculer un indice de prix. L’information géographique sera en conséquence nécessaire. De plus, il est habituel de stratifier selon le type d’habitation, et si cela est le cas, cette information sera également requise.

11.4 Le premier exercice consiste à construire un indice en utilisant la moyenne des prix. La moyenne simple des prix relevés d’un échantillon de maisons est calculée pour une période et une zone géographique données. Cet indicateur, qui peut être exprimé en valeur monétaire ou par un indice, mesure uniquement (souvent en pourcentage) la variation du prix moyen de l’échantillon entre deux périodes1.

11.5 Il est important que l’échantillon de maisons sélectionné pour calculer cet indicateur de prix soit représentatif. Ainsi, il sera peut être nécessaire d’apurer les données, selon les instructions que le statisticien aura fournies à l’équipe de collecte, et selon la volonté et la capacité de cette dernière de les suivre2. Par exemple, l’échantillon des prix initialement collectés peut inclure certaines catégories de propriété, comme des terres agricoles, des commerces et des logements collectifs considérés comme hors-champ pour l’indice particulier souhaité. Si cela est le cas, ces observations doivent être exclues de l’échantillon lors de la mesure spécifique souhaitée. Les observations aberrantes doivent aussi être identifiées et retirées de l’échantillon si l’on pense que cela pourrait fausser ou biaiser le résultat.

11.6 Un exemple numérique simple utilisant 5 et 7 observations de prix, respectivement, pour les périodes 1 et 23 va servir à illustrer l’approche utilisée pour mesurer l’évolution de la moyenne simple des prix du logement pour une zone géographique, habituellement une ville ou une autre zone bien définie4.

Période 1, prix du logement et moyenne

(350.000 + 352.000 + 378.000 + 366.000 + 402.000)/5 = 370.000)

Période 2, prix du logement et moyenne

(360.000 + 350.000 + 382.000 + 395.000 + 380.000 + 400.000 + 450.000/7 = 388.000)

Une fois que les prix moyens pour chaque période (un mois, un trimestre ou une année) sont obtenus, il est aisé de calculer l’évolution d’une période à l’autre, habituellement exprimée en pourcentage. Dans l’exemple précédent, entre 370.000 dollars et 388.000 dollars, le prix moyen des maisons a augmenté de 5 % entre les deux périodes.

11.7 L’influence des observations aberrantes est réduite lorsque la médiane des prix de l’échantillon est utilisée à la place de la moyenne. Par exemple, si une ou plusieurs maisons très chères sont vendues pendant une période donnée, la moyenne des prix ne sera probablement pas représentative des prix du marché à cette période. Comme ce qui a été signalé au chapitre 4, l’utilisation de la médiane ne contrôle quand même pas complètement les changements de composition de l’échantillon des maisons vendues d’une période à l’autre. Malgré ce défaut, la médiane est néanmoins un indicateur très utilisé des prix de l’immobilier résidentiel, principalement en raison de sa simplicité, son économie en données et donc la rapidité de sa disponibilité. De plus son interprétation est simple.

11.8 En prenant les mêmes données du calcul de la moyenne de l’exemple précédent, la médiane des prix des périodes 1 et 2 est respectivement de 366.000 dollars et de 382.000 dollars. Le prix médian a donc augmenté de 4,4 % entre les deux périodes.

11.9 L’exercice est maintenant répété avec un échantillon plus important de 5.787 prix de ventes effectives de maisons individuelles pendant plusieurs années pour une petite ville5. Des statistiques descriptives sont présentées dans le tableau 11.1. Notons que dans ce cas particulier, pour n’importe laquelle des années, la moyenne des prix du logement est supérieure à la médiane. Par exemple, en 2002 la moyenne est de 249.702 dollars contre 236.000 dollars pour la médiane; en 2008 la moyenne et la médiane valent respectivement 365.195 dollars et 340.600 dollars. Comme chaque année, il y a toujours quelques ventes de maisons très chères, cette différence est prévisible. En fait, la distribution des prix présente une asymétrie positive, avec un coefficient d’asymétrie variant selon les années entre 1,44 et 1,876. Le graphique 11.1 illustre la distribution des prix du logement vendues en 2008. Des graphiques similaires pour les autres années de cet exemple produisent des distributions des prix semblables7.

Tableau 11.1Moyenne, médiane, variation en pourcentage, écart-type et coefficient d’asymétrie
2002200320042005200620072008
Observations777804894808834874796
Écart-type64.13062.04273.40576.43284.58796.55996.152
Coefficient d’asymétrie1,631,511,711,871,581,461,44
Moyenne ($)249.702270.174290.686299.087315.099347.009365.195
Variation en pourcentage8,2%7,6%2,9%5,4%10,1%5,2%
Médiane ($)236.000255.000273.000280.000292.000319.000340.600
Variation en pourcentage8,1%7,1%2,6%4,3%9,2%6,8%
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.

Graphique 11.1.Distribution des prix du logement en 2008

Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.

11.10 La variation annuelle en pourcentage dépend de la mesure de la tendance centrale utilisée8. Pour quelques années, la différence numérique entre la médiane et la moyenne est plutôt faible. Par exemple, en 2002, la différence est seulement d’un dixième de point de pourcentage (8,2 % contre 8,1 %) avec une moyenne subissant une augmentation légèrement plus forte. Pour d’autres années, comme en 2008, la différence est plus importante. En 2008, la variation annuelle des prix mesurée par la médiane était de 6,8 % contre 5,2 % pour celle mesurée avec la moyenne.

11.11 Comme il est bien connu, l’emplacement est un facteur déterminant non seulement du prix d’une maison, mais aussi de son évolution dans le temps. Ainsi, pour améliorer la fiabilité d’un indicateur, il est habituellement recommandé de stratifier ou de poststratifier l’estimateur, à condition, bien sûr, que l’information pour segmenter le marché (ou l’échantillon de ventes) soit facilement disponible. La stratification géographique a l’avantage de réduire l’effet sur l’évolution qui est dû au changement de composition de l’échantillon de logements, effet qui affecte les méthodes utilisant la moyenne simple ou la médiane. Une approche répandue pour stratifier le marché du logement est de regrouper les maisons selon un critère géographique, assurant ainsi une certaine homogénéité des logements de la strate. Cette approche réduit aussi les effets des autres critères d’emplacement. La stratification permet aussi de donner aux utilisateurs des informations sur les prix de l’immobilier selon différents segments du marché, comme le type de maison ou le voisinage. Goodman et Thibodeau (2003) ajoutent aussi que la disponibilité des variables géographiques dans les bases de données sur les ventes de logements est aussi une raison pratique pour regrouper les maisons selon leur emplacement général. La stratification est une manière efficace d’utiliser ces données, il faut donc en profiter lorsqu’elles sont disponibles.

11.12 Quelques pays comme l’Australie (Branson, 2006) ont tiré parti de la relation traditionnellement forte entre les prix et l’emplacement qui caractérise le marché de l’immobilier résidentiel, en stratifiant l’échantillon des résidences selon un critère géographique ou d’autres caractéristiques du marché. Cela peut être une alternative viable, bien qu’imparfaite (ou une solution de compromis) pour mesurer un indice des prix à qualité constante en l’absence des moyens et des données nécessaires pour mettre en œuvre des méthodes plus sophistiquées d’élaboration d’un IPIR telles que les régressions hédoniques. En fait, Prasad et Richards (2008) mesurent un prix médian des maisons de six capitales australiennes, stratifié par les évolutions à long terme des prix. En utilisant une base de données de plus de 3 millions d’observations, les auteurs trouvent que leur approche pour mesurer l’évolution du prix du logement (c’est-à-dire une médiane stratifiée par zones, elles-mêmes définies selon les évolutions de long terme des prix) donne des résultats comparables à celles utilisant des méthodes plus sophistiquées et plus de données, comme les méthodes hédoniques ou les méthodes des ventes répétées.

11.13 La stratification géographique assure probablement que les grappes d’observations au sein de chaque groupe ou strate sont plus homogènes que celles provenant de la population entière. La stratification peut être étendue, en plus des critères géographiques, aux autres facteurs qui déterminent le prix comme le type de la maison et/ou le nombre de pièces. Le regroupement des maisons par critère géographique et selon d’autres critères fournira un échantillon avec de meilleures propriétés d’homogénéité, ce qui est souhaitable pour atténuer les évolutions de l’indice causées par les modifications de composition de l’échantillon qui arrivent au cours du temps. Cependant, un éventuel inconvénient avec cette approche est que le statisticien devra se garder de créer des strates trop étroites, car un petit nombre d’observations dans une strate, à chaque période, pourrait générer certains biais d’échantillonnage. L’objectif est ainsi de définir chaque strate en équilibrant les avantages de l’homogénéité des caractéristiques déterminant le prix avec les avantages d’avoir un échantillon de taille suffisante pour fournir une estimation fiable et représentative de l’évolution du prix du logement.

11.14 Comme nous avons vu précédemment, la construction d’indices par segment du marché (ou stratifié), qui sont ensuite agrégés au niveau général souhaité, utilisera souvent, en pratique, la médiane des prix. La construction d’un indice stratifié consiste dans un premier temps à définir les strates. La deuxième étape est de calculer la médiane par strate des prix des maisons vendues pour la période mesurée. Ensuite, les médianes des prix pour chaque strate doivent être pondérées et additionnées pour former la mesure du prix du marché étudié, souvent une ville, et parfois l’ensemble du pays.

11.15 Le paragraphe suivant propose un exemple simple de la méthode de calcul d’un indice de prix de l’immobilier résidentiel par stratification9.

  • Étape 1 : Définir les strates. Pour cet exemple, les strates seront des sous-divisions géographiques de la ville, telles que les quartiers Ouest ou le centre-ville. Il n’y a pas de règles strictes pour délimiter les strates en question, mais l’emplacement revient souvent, c’est un choix couru qui semble évident, combinable, si les données sont disponibles, avec d’autres caractéristiques du logement, comme le type de maison ou le nombre de chambres, afin de définir plus précisément les strates10.

  • Étape 2 : Calculer le prix médian par strate, comme le quartier, pour la période significative (mois ou trimestre). Il est postulé que la médiane sera représentative du prix de vente de toute la strate. Cependant, la moyenne des prix peut aussi être une alternative. Cette étape sera répétée pour les périodes futures.

  • Étape 3 : Estimer le prix «moyen» des maisons vendues pendant une certaine période en calculant une moyenne pondérée des prix médians par quartier ou par strate11.

11.16 Supposons que les données pour les ventes de maisons concernant deux périodes (0 et 1) et trois régions géographiques ou quartiers (A, B et C) ont été collectées. Supposons que les prix sont mesurés en milliers de dollars et que 4 ventes ont été enregistrées dans la région A lors de la période 0, dont les prix sont 290, 450, 250 et 310. Ainsi, la moyenne des prix pour cette période est de 325, la médiane de 300 (la moyenne arithmétique des deux prix du milieu 290 et 310) et la dépense totale est de 1.300. Pour la période 1 et la région A, supposons 5 ventes de 300, 500, 250, 400 et 275. Ainsi la moyenne et la médiane pour cette période sont respectivement de 345 et de 300, et la dépense totale de 1.725. Supposons pour la région B une seule vente pour chaque période : 500 pour la période 0, et 400 pour la période 1. Ainsi, la moyenne et la médiane pour la période 0 sont de 500, aussi égales à la dépense de cette période. Pour la période 1 et la région B, la moyenne et la médiane du prix sont de 400, aussi égales à la dépense de cette période. Supposons 3 ventes à chaque période pour la région C. Pour la période 0, supposons que les ventes sont égales à 200, 300 et 175; ainsi la médiane des prix est de 200, la moyenne des prix de 225 et la dépense totale de 675. Pour la période 1, supposons que les ventes de la région C sont égales à 250, 350 et 225; ainsi la médiane des prix est de 250, la moyenne des prix de 275 et la dépense totale de 825. Ce sont les données de base pour l’exemple.

11.17 Supposons que le prix médian pour chaque région correspond aux maisons de qualité comparable pour les deux périodes considérées. Comme il est souhaitable d’avoir un produit du prix par le volume égal aux dépenses pour chaque période et chaque région, dès lors qu’un concept de prix à qualité constante a été choisi, le volume correspondant devrait être égal aux dépenses divisées par le prix. En utilisant le prix médian dans chaque région comme un prix à qualité constante pour chaque période, on obtient les dépenses (vt), les prix (pt) et les volumes ou quantités implicites qt = vt/pt qui figurent dans le tableau 11.2 ci-dessus.

Tableau 11.2.Dépenses régionales, prix et volumes (quantités implicites), utilisant le prix médian comme prix régional
PériodevAtvBtvCtpAtpBtpCtqAtqBtqCt
01.3005006753005002004,3331,0003,375
11.7254008253004002505,7501,0003,300
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.

Notons que les indices régionaux des prix de la période 1 sont égaux à pA1/pA0=1,0,pB1/pB0=0,80 et pC1/pC0=1,25 pour les régions A, B et C, respectivement. Ainsi, il y a de grandes différences d’inflation entre les trois régions pour le prix du logement.

11.18 À ce stade, nous pouvons appliquer la théorie classique des indices de prix pour l’agrégation des indices régionaux dans un taux global de l’inflation du prix du logement. Par exemple des indices généraux de Laspeyres et de Paasche, PL et PP, pour la période 1 peuvent être calculés. Les formules algébriques de ces indices sont les suivantes :

11.19 Le Manuel de l’indice des prix à la consommation (Manuel de l’IPC, 2004) recommande le calcul d’indices superlatifs si les données de prix et de quantités sont disponibles pour les périodes considérées, comme c’est le cas pour cet exemple. Les indices de Fisher, PF, et de Törnqvist-Theil, PT sont deux indices superlatifs; ils sont définis pour la période 1 par les formules ci-dessous :

où la part des ventes pour la période t dans les régions A, B et C est donnée respectivement par sAtvAt/(vAt+vBt+vCt),sBtvBt/(vAt+vBt+vCt) et sCtvCt/(vAt+vBt+vCt). Notons que l’indice de Fisher (1922) PF est égal à la moyenne géométrique des indices de Laspeyres et de Paasche, PL et Pp, et que l’indice de Törnqvist-Theil PT est égal à la moyenne géométrique pondérée des indices des prix régionaux, pA1/pA0,pB1/pB0 et pC1/pC0, où les pondérations sont les moyennes arithmétiques des parts des ventes entre la période 0,sA0,sB0 et sC0, et la période 1,sA1,sB1 et sC1.

11.20 Les résultats numériques pour les quatre indices définis par les formules (11.1)(11.4) sont donnés dans le tableau 11.3 ci-dessous. Il faut noter que les deux indices superlatifs, PF et PT, sont assez proches entre eux, tandis que l’indice de Laspeyres PL leur est plus élevé et que l’indice de Paasche leur est plus faible. C’est un résultat empirique typique.

Tableau 11.3.Indice global des prix du logement utilisant la médiane des prix et d’autres formules pour agréger les régions A, B et C
PériodePFPTPLPPP0P1PAPGLPGP
01,000001,000001,000001,000001,000001,000001,000001,000001,00000
11,025151,024251,027781,022531,027781,042801,035291,015901,03267
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.

11.21 Les institutions qui calculent des indices de prix de l’immobilier résidentiel ont tendance à utiliser des formules quelque peu différentes pour agréger les régions. Une méthode commune d’agrégation consiste à utiliser une moyenne pondérée des indices régionaux des prix pour calculer l’indice d’ensemble, en utilisant les ventes de la période 0 comme pondérations (ou une moyenne de ventes pour des périodes antérieures à la période 0). Notons P0, l’indice qui utilise les ventes de la période 0 comme pondérations, et P1, celui qui utilise les ventes de période 1. Les valeurs des indices P0 et P1 pour la période 112 ainsi que leur moyenne arithmétique, notée PA, sont déterminées par les formules ci-dessous :

Les trois indices ci-dessus sont aussi donnés dans le tableau 11.313. Nous constatons que P0 est égal à PL et d’environ 0,26 point de pourcentage plus élevé que l’indice de Fisher PF pour la période 1, alors que P1 est d’environ 1,77 point de pourcentage plus élevé que PF. Ce résultat n’est pas inattendu, les indices P0 et P1 ne sont en général pas des approximations proches des indices superlatifs et leur usage n’est donc pas recommandé.

11.22 Deux indices supplémentaires sont donnés dans le tableau 11.3 : l’indice géométrique de Laspeyres et l’indice géométrique de Paasche, respectivement PGL et PGP. Les formules pour la période 1 sont données ci-dessous :

Ainsi, en période 1, la valeur pour chacun de ces deux indices est une moyenne géométrique pondérée par des parts de valeur des indices régionaux des prix, pA1/pA0,pB1/pB0 et pC1/pC0, où PGL utilise les parts de valeurs régionales relatives à la période 0,sA0,sB0 et sC0, tandis que PGP utilise celles de la période 1,sA1,sB1 et sC1. Le tableau 11.3 montre que l’indice géométrique de Laspeyres, PGL, est approximativement 1 point de pourcentage inférieur aux indices superlatifs PF et PT tandis que l’indice géométrique de Paasche est approximativement 1 point de pourcentage supérieur à ces indices superlatifs14. Par conséquent, l’utilisation des indices géométriques de Laspeyres ou de Paasche ne peut pas être recommandée pour agréger des indices régionaux de prix. Ces formules ne sont vraisemblablement pas de bons estimateurs des indices superlatifs, lesquels peuvent facilement être calculés avec les données régionales sur le prix de vente des maisons.

11.23 Les méthodes utilisées ci-dessus pour agréger les indices régionaux de prix supposent que le prix médian de chaque région provient de maisons de qualité constante pendant les deux périodes qui sont comparées. Supposons maintenant qu’au lieu d’utiliser les prix médians régionaux pour représenter les prix de maisons de qualité constante, nous utilisions la moyenne régionale des prix. De nouveau, comme il est souhaitable que le produit des prix et des quantités soit égal aux dépenses — et ce pour chaque période et pour toutes les régions —, une fois qu’il est décidé d’utiliser la moyenne des prix pour suivre les prix à qualité constante, le volume correspondant devra être égal aux dépenses divisées par les prix. Ainsi, en se servant de la moyenne des prix comme un prix à qualité constante dans chaque région et pour chaque période, on obtient les données régionales de dépenses (vt), de prix (pt) et de volumes (ou quantités implicites qt = vt/pt) présentées dans le tableau 11.4 ci-dessous.

Tableau 11.4.Dépenses régionales, prix et volumes (quantités implicites), utilisant la moyenne pour calculer les prix régionaux
PériodevAtvBtvCtpAtpBtpCtqAtqBtqCt
01.300500675325500225413
11.725400825345400275513
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.
Tableau 11.5.Indice global des prix du logement utilisant la moyenne des prix et d’autres formules pour agréger les régions A, B et C
PériodePFPTPLPPP0P1PAPGLPGP
01,000001,000001,000001,000001,000001,000001,000001,000001,00000
11,053051,052221,052531,053571,052531,071011,061771,041871,06267
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.

11.24 Utiliser la moyenne à la place de la médiane comme prix à qualité constante pour chaque région change l’indice régional des prix. Les indices régionaux des prix utilisant la moyenne, en période 1 pour les régions A, B, et C, sont respectivement égaux à pA1/pA0=345/325=1,06154,pB1/pB0=400/500=0,80, et pC1/pC0=275/225=1,2. Une fois de plus, il y a de grandes différences dans les taux d’inflation des prix du logement dans les trois régions quand la moyenne des prix est utilisée à la place de la médiane.

11.25 En utilisant la moyenne à la place de la médiane, il est possible de calculer les différents indices d’ensemble de prix définis par les formules (11.1) à (11.9). Le tableau connexe du tableau 11.3 présenté ci-dessus est obtenu en appliquant ces formules aux données du tableau 11.4.

On peut constater que l’utilisation de la moyenne régionale des prix à la place de la médiane a donné des indices très différents; les indices superlatifs PF et PT sont ainsi plus élevés d’environ 3 points de pourcentage pour la période 1. Cependant, l’utilisation de la moyenne des prix a donné des indices de Laspeyres et de Paasche, PL et PP, qui sont passablement proches de leurs équivalents superlatifs. Comme l’indice pondéré par les parts de valeur de la période de référence, P0, est numériquement égal à PL, P0 est aussi plutôt proche de PF et PT. Cependant, les deux autres indices pondérés par des parts de valeur, P1 et PA, sont bien au-dessus des indices superlatifs. Pour finir, l’indice géométrique de Laspeyres, PGL, est largement en dessous de PT et l’indice géométrique de Paasche, PGP, est largement au-dessus de PT. En tout cas, l’utilisation de la moyenne des prix dans le contexte du logement n’est pas recommandée, car la moyenne du prix d’une maison dans une région donnée ne s’accompagnera vraisemblablement pas d’un niveau constant de qualité dans la durée.

Méthodes de régression hédonique

11.26 Le chapitre 5 traite de l’utilisation des méthodes hédoniques pour calculer un indice du prix du logement. Il y a plusieurs façons d’appliquer ces techniques pour calculer un indice des prix en général et un indice des prix de l’immobilier résidentiel en particulier. Le manuel présente trois variantes de la méthode hédonique : la méthode des variables indicatrices temporelles, l’estimation du prix des caractéristiques (l’imputation) et la méthode hédonique stratifiée. Comparées aux autres approches, ces méthodes hédoniques sont normalement plus gourmandes en données et requièrent souvent plus d’informations pour construire un indice à qualité constante du prix du logement. En effet, lorsqu’on applique une méthode hédonique, il faut connaître pour chaque observation utilisée pour la régression des informations sur les caractéristiques pertinentes (structurelles et d’environnement) en plus des données de prix. En principe, plus les données sur les caractéristiques sont détaillées et plus l’échantillon de logement est large, plus l’indice des prix en résultant sera fiable et précis15.

11.27 Un modèle hédonique exprime le prix d’un bien comme une fonction des caractéristiques (ou attributs) qui le déterminent. Le chapitre 5 présente deux formes fonctionnelles couramment utilisées : le modèle linéaire et le modèle logarithmique-linéaire (semi-log). Bien que les ouvrages en la matière évoquent souvent d’autres méthodes (voir par exemple la méthode Box-Cox), elles ne seront pas traitées ici. La forme semi-log est commode, car l’interprétation des coefficients de régression est directe : une fois multiplié par 100, un coefficient fournit, en pourcentage, la variation du prix du logement qui résulte d’une modification d’une unité de la variable explicative qui lui est associée.

11.28 Pour illustrer aussi simplement que possible comment les différents indices de prix hédoniques du logement sont construits, la version intégrale de la série de données utilisée pour calculer ci-dessus les moyennes et les médianes sera reprise dans les exemples suivants. Pour simplifier la présentation, le nombre des caractéristiques déterminant le prix sera limité à quatre variables (continues) : la superficie du terrain (land), le nombre de chambres (rooms), le nombre de salles de bains (bath) et l’ancienneté (age). Le résultat initial de la régression MCO avec un modèle semi-log pour une seule année (2008) est présenté dans le tableau 11.6.

Tableau 11.6.Résultats du modèle log-linéaire pour un exemple simple
Source |SSdfMSNombre d’obs.= 796
F(4, 791)= 156,02
Modèle |20,063469245,0158673Prob > F= 0,0000
Résidu |25,42930637910,032148301R2= 0,4410
R2 ajusté= 0,4382
Total |45,49277557950,057223617Racine carrée MSE= 0,1793
lprix |Coeff.Erreur-typetP>|t|[Intervalle de conf. 95 %]
chambres |0,11567910,009815911,780,0000,09641080,1349473
salles de bain |0,09995220,009599610,410,0000,08110860,1187958
ancienneté |−0,0025610,0004173−6,140,000−0,0033801−0,001742
terrain |9,39e-061,28e-067,310,0006,87e-060,0000119
const. |12,06470,0383342314,720,00011,9894512,13995
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.

11.29 À partir de la régression sur un échantillon de 796 observations de prix, on trouve que toutes les variables explicatives ont un effet du signe attendu et qu’elles sont toutes significativement non nulles (avec le test de Student). Le R2 ajusté (ou coefficient de corrélation) est de 44 %, c’est-à-dire que les variations de la surface du terrain, de l’ancienneté de l’habitation, du nombre de chambres et de salles de bain explique 44 % de la variance du prix des logements. Avec plus de variables explicatrices dans la régression, le R2 devrait augmenter. En fait, avec trois variables indépendantes additionnelles (présence d’une cheminée, d’un garage et l’ancienneté au carré pour tenir compte de la non-linéarité associée à cette variable), le R2 ajusté augmente à 54 %.

11.30 Les résultats des régressions peuvent s’interpréter comme suit :

  • Un pied carré de terrain en plus augmente le prix du logement de 0,000939 %, toutes choses étant égales par ailleurs.

  • Chaque chambre en plus augmente le prix du logement de 11,6 %, toutes choses étant égales par ailleurs.

  • Un logement avec une salle de bain supplémentaire coûte presque 10 % plus cher qu’une maison sans salle de bain supplémentaire, toutes choses étant égales par ailleurs.

  • Une année d’ancienneté de plus fait baisser le prix d’un logement (ou le logement se déprécie) de 0,2 %, toutes choses étant égales par ailleurs.

«Toutes choses étant égales par ailleurs» signifie que toutes les autres variables que celles étudiées sont supposées être constantes. À propos de la variable «nombre de chambres», par exemple, on ne peut pas dire qu’une maison avec plus de chambres coûte toujours plus, car d’autres facteurs peuvent aussi influencer le prix de la maison, comme son emplacement, son ancienneté et la qualité générale de la construction. Dans ce cas, «toutes choses étant égales par ailleurs» signifie que si deux maisons ne diffèrent que par le nombre de chambres (c’est-à-dire qu’elles se valent par ailleurs), celle qui en a le plus coûtera le plus cher.

11.31 Ce qui suit sont des exemples simplifiés des différentes méthodes, décrites au chapitre 5, pour calculer des indices de prix hédoniques. La méthode des variables indicatrices temporelles est présentée en premier. Tous les exemples utilisent la régression des MCO.

La méthode des variables indicatrices temporelles

11.32 La méthode des variables indicatrices temporelles est fondée sur une régression hédonique semi-linéaire qui prend en compte ensemble toutes les périodes. Le modèle est donné par l’équation (6.5) et il est répété ici pour plus de facilité :

Dnτ représente l’indicatrice qui est égale à un si l’observation provient de la période τ(τ = 1,…,T) et sinon zéro. La variable indicatrice temporelle pour la période de référence 0 — soit la période initiale à partir de laquelle les évolutions de prix vont être mesurées — est laissée de côté pour éviter que la constante β0 soit la parfaite combinaison linéaire de toutes les indicatrices avec la constante, ce qui connu comme «le piège des variables indicatrices». Avec la méthode des variables indicatrices temporelles, la période de référence et la période de comparaison, t= 1,…,T, se réfèrent à la même durée, c’est-à-dire un mois, un trimestre ou une année, selon le contexte particulier, comme les préférences des utilisateurs ou la disponibilité des données.

11.33 L’exponentielle (ou l’anti-logarithme) du coefficient estimé par la régression δ^τ mesure la variation en pourcentage «à qualité constante» du prix des propriétés entre la période de référence et la période t. Les étapes suivantes montrent pourquoi (δ^τ) est une mesure d’une évolution pure de prix, ajustés de la qualité. L’estimation du logarithme du prix à la période 0 pour la propriété i, avec les caractéristiques de la période de référence, znk0 (k = 1,…,K), est :

À la période 1, le logarithme du prix doit être estimé avec les caractéristiques de la période de référence pour conserver une qualité constante, soit

Prenons la différence entre les estimations de ces deux périodes,

L’expression (11.13) ne dépend pas de n. Ce résultat est valable pour toutes les maisons de l’échantillon. Comme il est montré par Berndt (1991), l’estimation de δt peut être interprétée comme la variation du logarithme du prix due au passage du temps, les autres variables étant constantes. L’exponentielle de δ1 donne l’estimation de l’indice des prix de la période 1 :

La même démonstration peut être menée pour toutes les autres périodes. Ainsi, l’indice des prix par la méthode des variables indicatrices temporelles, de la période de référence à la période de comparaison est :

Manifestement, l’indice des prix pour la période de référence obtenu par la méthode des variables indicatrices temporelles est égal à 1.

11.34 L’exemple suivant illustre les étapes pour calculer un indice des prix par la méthode des variables indicatrices temporelles. Supposons que les informations détaillées sur les ventes de maisons pendant deux années (t = 2006 a t = 2007) sont disponibles. En utilisant les mêmes informations que dans l’exemple simplifié ci-dessus, les données pour toutes les périodes sont introduites dans la même régression groupée :

Le côté gauche de l’équation (11.16) est le logarithme du prix de la maison n pour les années t (2006 or 2007) comme variable dépendante. Le côté droit de l’équation a les mêmes variables explicatives (sauf la variable indicatrice temporelle) que l’on trouverait dans une régression hédonique pour une période. Dans ce cas particulier, les variables explicatives sont : la taille du terrain (lot size), le nombre de chambres (bedroom), le nombre de salles de bain (bathroom) et l’ancienneté (age); les paramètres respectifs vont de β1 à β4. Comme il s’agit d’une régression regroupant deux années, les paramètres estimés (ou les coefficients de la régression) seront contraints pour les années où les données sont utilisées dans la régression. Le terme d’erreur ɛnt indique si une valeur observée est au-dessus ou au-dessous de la droite de régression. Aussi du côté droit de l’équation, on trouve la constante, β0.

11.35 Les résultats de la régression utilisant l’ensemble des données sont fournis dans le tableau 11.7. Le coefficient d’intérêt est celui associé à l’année 2007, δ^07. Il est de 0,0781548. Ce coefficient est ensuite transformé pour estimer l’indice des prix (ou la variation en pourcentage des prix) pour les maisons entre les années 2006 et 2007. Cette transformation consiste à prendre l’exponentielle du coefficient δ^07:PTD07/06=exp(0,0781548)=1,08129. Ainsi, en gardant constantes toutes les caractéristiques, la variation en pourcentage du prix des maisons entre 2006 et 2007 est de 8,1 %. Notons que la moyenne et la médiane ont conduit à des augmentations respectives de 10,1 % et de 9,2 %, pour la même période.

Tableau 11.7.Résultats de la régression groupée pour les années 2006 et 2007
Source |SSdfMSNombre d’obs.= 1.708
F (5,1702)= 286,64
Modèle |48,450186559,6900373Prob > F= 0,0000
Résidu |57,53723761.7020,033805663R2= 0,4571
R2 ajusté= 0,4555
Total |105,9874241.7070,062089879Racine carrée MSE= 0,18386
lprix |Coeff.Erreur-typetP>|t|[Intervalle de conf. 95 %]
chambres |0,08404830,006907112,170,0000,07050090,0975957
salles de bain |0,1218150,007152917,030,0000,10778550,1358444
ancienneté |−0,00291370,0003183−9,150,000−0,0035381−0,0022894
terrain |0,00001379,24e-0714,780,0000,00001190,0000155
d2007 |0,07815480,00891288,770,0000,06067360,095636
const. |11,965310,0273032438,240,00011,9117612,01886
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.

11.36 En ajoutant une troisième période (année 2008), l’équation de la régression hédonique devient :

Le tableau 11.8 contient les résultats de la régression. La valeur du coefficient de l’indicatrice temporelle pour l’année 2008 est de 0,1332734. Son exponentielle e0,1332734 = 1,14 montre une augmentation à qualité constante de l’indice du prix des maisons de 14 % entre 2006, l’année de référence, et 2008, l’année la plus récente. En revanche, les augmentations des prix données par la moyenne et la médiane pour la même période étaient respectivement de 16 % et de 17 %.

Tableau 11.8.Résultats de la régression groupée pour les années 2006 à 2008
Source |SSdfMSNombre d’obs.= 2.504
F(6, 2497)= 366,64
Modèle |73,4886776612,2481129Prob > F= 0,0000
Résidu |83,41543272.4970,033406261R2= 0,4684
R2 ajusté= 0,4671
Total |156,904112.5030,06268642Racine carrée MSE= 0,18277
lprix |Coef.Erreur-typetP>|t|[Intervalle de conf. 95 %]
chambres |0,09420010,005656616,650,0000,0831080,1052923
salles de bain |0,11399310,005744319,840,0000,1027290,1252572
ancienneté |−0,00281120,0002538−11,080,000−0,0033089−0,0023135
terrain |0,00001227,51e-0716,280,0000,00001080,0000137
d2007 |0,07812570,0088568,820,0000,06075980,0954916
d2008 |0,13327340,009068114,700,0000,11549160,1510552
const. |11,957240,0225891529,340,00011,9129512,00154
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.

11.37 Cette technique peut être généralisée à plus que trois périodes, au fur et à mesure que d’autres périodes deviennent disponibles. Cela consiste à combiner les données de plus de périodes et à ajouter plus de variables indicatrices temporelles. Cependant, des régressions groupées avec plusieurs périodes ne sont pas nécessairement idéales pour construire des séries chronologiques, car l’ajout d’une nouvelle période modifiera vraisemblablement les résultats obtenus pour les périodes antérieures. En effet, dans l’exemple précédent, quand l’année 2008 est ajoutée à la régression groupée antérieure, le coefficient de l’année 2007 devient 0,0781257, alors qu’il était de 0,0781548 (tableau 11.7). Dans cet exemple particulier, la modification du coefficient affecté à l’année 2007 est légère. Néanmoins, la stabilité des coefficients d’une régression groupée peut devenir problématique quand le nombre de périodes augmente.

11.38 Une autre approche mentionnée dans le chapitre 5 est d’utiliser la méthode des variables indicatrices temporelles entre deux périodes consécutives. Si la régression hédonique est fondée sur deux périodes consécutives τ et τ + 1, l’équation devient :

Dans le contexte des trois périodes de données utilisées dans les exemples précédents, une première régression hédonique est calculée pour les périodes consécutives 0 et 1 et ensuite une seconde régression est estimée pour les périodes 1 et 2 en utilisant les quatre variables caractéristiques. Les résultats de la première régression sont évidemment identiques à ceux présentés dans le tableau 11.7 et l’indice des prix en r ésultant est estimé à 108,1. Le tableau 11.9 montre le résultat de la régression pour les années consécutives 2007 et 2008.

Tableau 11.9.Résultats de la régression groupée pour les années 2007 et 2008
Source |SSdfMSNombre d’obs.= 1.670
F(5, 1664)= 271,91
Modèle |45,44147859,0882956Prob > F= 0,0000
Résidu |55,61722671.6640,033423814R2= 0,4497
R2 ajusté= 0,4480
Total |101,0587051.6690,060550452Racine carrée MSE= 0,18282
lprix |Coeff.Erreur-typetP>|t|[Intervalle de conf. 95 %]
chambres |0,10414010,006886115,120,0000,09063370,1176465
salles de bain |0,10701420,006888115,540,0000,0935040,1205244
ancienneté |0,00269260,0003045−8,840,000−0,0032899−0,0020953
terrain |0,00001179,42e-0712,420,0009,85e-060,0000135
d2008 |0,05553700,00896256,200,0000,0731160,037958
const. |12,074820,026871449,360,00012,0221212,12753
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.

11.39 L’indice des prix à qualité constante est calculé comme l’exponentielle du coefficient de l’année 2008, (0,0555370). L’indice est ainsi : exp(0,0555370) = 1,057. Souvenons-nous que c’est l’évolution des prix depuis 2007, et non pas celle depuis l’année de référence 2006. À partir de ces résultats, il est possible de construire une série chronologique par chaînage des indices de deux périodes consécutives (en démarrant à 1 pour la période de référence) : PTD07/06=1,081;PTD,chain08/06=1,081×1,057=1,143 Ce résultat est seulement légèrement différent de celui obtenu avec la régression groupée (voir le tableau 11.8), où la variation des prix était estimée à 14,0 % sur l’ensemble de la période. Maintenant, en chaînant les indices des variables indicatrices temporelles sur les deux périodes temporelles consécutives, la variation estimée des prix est de 14,3 %.

Prix des caractéristiques ou méthode d’imputation

11.40 La méthode hédonique suivante, présentée dans le chapitre 5, est celle du prix des caractéristiques ou méthode d’imputation, dorénavant appelée simplement la méthode du prix des caractéristiques. En appliquant cette méthode aux mêmes données utilisées précédemment, un indice des prix à qualité constante est estimé. Par facilité de présentation, on fournira les résultats de l’estimation utilisant le modèle linéaire pour la régression16.

11.41 La méthode du prix des caractéristiques utilise les prix implicites des caractéristiques dans le modèle (les coefficients de la régression) comme point de départ pour construire l’indice des prix, selon une formule classique d’indice, mais dans laquelle les coefficients de la régression sont les prix et les quantités sont, pour chaque caractéristique, le nombre d’unités mesurées. Ainsi, la régression hédonique est estimée séparément pour chaque période. Les modèles linéaires pour la période de référence 0 (2006) et pour la période 1 (2007) sont :

11.42 L’estimation de ces équations sur l’échantillon de données respectivement pour 2006 et 2007 par les MCO donne les résultats présentés dans les tableaux 11.10 et 11.11. Dans cet exemple, le prix implicite d’une chambre supplémentaire en 2006 est de 24.329 dollars tandis que chaque salle de bain supplémentaire ajoutera 43.190 dollars au prix de la maison. Dans cet exemple hautement simplifié, les résultats pour 2007 sont bien entendu différents de ceux pour 2006; En 2007, une chambre supplémentaire semble augmenter le prix de 35.147 dollars, tandis que le prix pour une salle de bain supplémentaire est alors estimé à 43.463 dollars17.

Tableau 11.10.Résultats de la régression pour 2006
Source |SSdfMSNombre d’obs.= 834
F(4, 829)= 141,49
Modèle |2,4182e+1246,0454e+11Prob > F= 0,0000
Résidu |3,5420e+128294,2726e+09R2= 0,4057
R2 ajusté= 0,4029
Total |5,9601e+128337,1550e+09Racine carrée MSE= 65365
prix |Coeff.Erreur-typetP>|t|[Intervalle de conf. 95 %]
chambres |24329,783557,796,840,00017346,4531313,12
salles de bain |43190,013734,28811,570,00035860,2450519,79
ancienneté |−1083,309164,5957−6,580,000−1406,382−760,2357
terrain |5,1685820,447417511,550,0004,2903786,046787
const. |98333,4514450,866,800,00069968,88126698
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.
Tableau 11.11.Résultats de la régression pour 2007
Source |SSdfMSNombre d’obs.= 874
F(4, 869)= 169,68
Modèle |3,5694e+1248,9236e+11Prob > F= 0,0000
Résidu |4,5702e+128695,2592e+09R2= 0,4385
R2 ajusté= 0,4359
Total |8,1397e+128739,3238e+09Racine carrée MSE= 72520
prix |Coeff.Erreur-typetP>|t|[Intervalle de conf. 95 %]
chambres |35147,313777,919,300,00027732,4142562,2
salles de bain |43463,763858,68311,260,00035890,3351037,19
ancienneté |−1059,767173,0922−6,120,000−1399,495−720,0394
terrain |5,8293230,538803610,820,0004,7718146,886831
const. |79248,8514337,875,530,00051107,95107389,7
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.

11.43 L’étape suivante est de calculer un indice hédonique des prix à partir des résultats de la régression. Un indice pour 2007, comparé à 2006, peut s’exprimer par :

z¯k0 est la moyenne de l’échantillon des valeurs de la k-e caractéristique pour la période de référence; on prend aussi z¯00=1. Les statisticiens qui établissent des indices de prix reconnaîtront que l’indice de la formule (11.21) est un indice de type Laspeyres : le prix estimé des caractéristiques pour la période 0 (2006) et la période 1 (2007), β^k0 et β^k1, sont pondérés par la moyenne des quantités de caractéristiques pour la période de référence. Autrement dit, la moyenne pour la période de référence des quantités pour chaque caractéristique est valorisée par le prix implicite de la caractéristique pour la période de référence et la période courante. Le tableau 11.12 présente les moyennes simples de l’échantillon des valeurs des caractéristiques de cet exemple. Avec ces valeurs et les coefficients des tableaux 11.10 et 11.11, l’indice hédonique du type Laspeyres entre l’année de référence (2006) et 2007 est calculé par :

Tableau 11.12.Valeurs moyennes des caractéristiques pour la période de référence (2006)
|MoyenneErreur-type[Intervalle de conf. 95 %]
chambres |3,6330940,02440343,5851943,680993
salles de bain |2,7673860,02690442,7145782,820195
ancienneté |23,889690,569333822,7721925,00719
terrain |6719,492184,86056356,6447082,339
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.

L’augmentation de 8,2 % des prix ainsi calculée est assez proche, dans ce cas particulier, des 8,1 % obtenus en utilisant l’approche par les variables indicatrices temporelles du tableau 11.7.

11.44 Pour les périodes suivantes, le statisticien a une décision à prendre. Il ou elle peut utiliser la même base annuelle, en quantité, pour calculer les indices suivants en utilisant la formule de Laspeyres, mais en remplaçant les prix implicites du numérateur par les prix pertinents.

Autrement, les quantités (moyenne des caractéristiques) de la précédente période peuvent être utilisées pour générer des indices basés sur des périodes consécutives. Ces indices bilatéraux sont ensuite chaînés pour créer une série chronologique, un indice chaîne. D’autres options sont possibles et elles sont présentées dans le chapitre 5, mais les mécanismes de construction des indices restent essentiellement les mêmes que ceux présentés ici.

La méthode des ventes répétées

11.45 Le problème le plus important dans l’utilisation des moyennes ou des médianes (non stratifiées) de prix de transaction pour mesurer l’évolution du prix des maisons est que la modification d’une période à l’autre de la composition de l’échantillon des propriétés vendues n’est pas correctement prise en compte. Ce problème peut être partiellement contourné en construisant un IPIR selon la méthode des ventes répétées (voir chapitre 6). En fait, un indice très répandu et suivi de près du prix des logements aux États-Unis, l’indice de Case–Shiller, est fondé sur la méthode des ventes répétées.

11.46 La stratégie pour construire un indice des ventes répétées est assez simple. Elle consiste à comparer les prix d’une même propriété vendue à deux moments différents. En d’autres termes, elle utilise la méthode du panier fixe pour sélectionner l’échantillon qui servira à calculer l’indice. Pour que la méthode des ventes répétées soit facile à mettre en œuvre, il faut avoir accès à une importante base de données couvrant une assez longue période. Pour les autres aspects, le besoin d’informations est relativement modeste; avec la méthode des ventes répétées, en plus du prix de vente et de la date de la vente, il ne faut que l’adresse du logement (ou une autre manière d’identifier l’emplacement)18.

11.47 Un exemple simple peut illustrer l’application de la méthode des ventes répétées19.On suppose que l’objectif est d’estimer un indice annuel de la variation des prix entre 2008 et 2010; le tableau 11.13 fournit des données sur quelques transactions. La propriété A vendue en 2008 pour 100.000 dollars et revendue en 2009 pour 120.000 dollars; la propriété B vendue en 2008 pour 175.000 dollars et revendue en 2010 pour 220.000 dollars; la propriété C vendue en 2009 pour 180.000 dollars et revendue en 2010 au même prix.

Tableau 11.13.Données de ventes répétées
200820092010
Propriété A100.000 $120.000 $Pas de vente
Propriété B75.000 $Pas de vente220.000 $
Propriété CPas de vente180.000 $180.000 $
Moyenne$137.500 $150.000 $200.000 $

Dans une première étape, la variation de prix entre 2008 et 2010 est estimée en utilisant la moyenne des prix. Les moyennes annuelles des prix entre 2008 et 2010 sont respectivement 137.000 dollars, 150.000 dollars et 200.000 dollars. Les variations en glissement annuel correspondant à ces moyennes sont 9,1 % et 33,3 % pour les périodes 2009/2008 et 2010/2009.

11.48 Ces résultats sont maintenant comparés avec ceux obtenus en utilisant la méthode des ventes répétées. Appelons P le rapport du prix de la maison entre la deuxième et la première vente pour chaque transaction20 définitive entre 2008 et 2010. Le logarithme de P sera la variable dépendante de la régression des ventes répétées. Trois ventes répétées sont identifiées dans le tableau 11.13 entre 2008 et 2010. Pour la première vente répétée (propriété A), P vaut 1,200, soit le rapport de prix entre les ventes de 2009 et 2008; pour la deuxième vente répétée (propriété B), P vaut 1,257, soit le rapport de prix entre les ventes de 2010 et 2008; pour la troisième vente répétée (propriété C), P vaut 1, car le prix de cette propriété n’a pas changé entre 2009 et 2010.

11.49 Les variables indépendantes pour une régression des ventes répétées sont des indicatrices, qui valent −1 pour l’année de la première vente, +1 pendant l’année de la deuxième fois vente et 0 pour les autres années. Les coefficients des variables indicatrices, estimés par la régression, servent à calculer l’indice des ventes répétées. Le tableau 11.14 présente les valeurs prises par les variables indicatrices pour les propriétés A à C. Par exemple, comme la propriété A est vendue une deuxième fois en 2009, la variable indicatrice D2009 prend la valeur 1, mais D2010 prend la valeur 0, car la propriété A n’est plus vendue après 2009. Un raisonnement similaire est appliqué aux autres propriétés et aux autres années. Notons que, pour éviter une parfaite colinéarité, la première période (2008) est exclue des variables explicatives et de la régression. En d’autres termes, si la première vente a lieu l’année de référence, il n’y a pas de variable indicatrice pour cette période.

Tableau 11.14.Variables indicatrices des ventes répétées
PD2009D2010
Propriété A1,20010
Propriété B1,25701
Propriété C1,000−11

11.50 Avec ces données de ventes répétées, l’équation de régression — qui n’a pas de constante — peut être exprimée par (voir aussi l’équation (6.3)) :

ɛnt est le terme d’erreur («bruit blanc»). Les exponentielles des paramètres estimés, soit exp(γ^2009) et exp(γ^2010), représentent les indices des prix du logement pour chaque période comparée à l’année de référence 2008. En utilisant les moindres carrés ordinaires (MCO) pour estimer l’équation (11.22) à partir des données du tableau 11.14, les indices des prix des ventes répétées sont respectivement 1,219 et 1,238 pour 2009 et 2010. Les glissements annuels de cet exemple, 21,9 % et 23,8 %, sont plutôt différents de ceux obtenus avec la méthode fondée sur la moyenne simple, qui étaient de 9,1 % et de 33,3 %21.

11.51 Le modèle simple des ventes répétées peut être amélioré. Une façon de le faire serait de réduire la variance de l’indice estimé. Comme Geltner et Pollakowski (2006) l’ont indiqué, la source de la variance (du bruit) de l’indice estimé des prix des propriétés réside dans le fait que les prix des transactions sont distribués aléatoirement autour de la «véritable» mais inobservable valeur sur le marché. Les auteurs ajoutent que ce bruit existe pour tous les indices de prix du logement, quelle que soit la méthode d’estimation de l’indice. Pour atténuer la variance, l’échantillon des ventes répétées pourra être élargi, si les données sont disponibles.

11.52 Comme il l’a été montré précédemment, une régression par les MCO peut être utilisée pour obtenir les variations de prix. Le modèle de Bailey, Muth et Nourse (1963) est un exemple classique des MCO appliqués aux ventes répétées en utilisant la méthode décrite ci-dessus. Cependant, des recherches ultérieures ont montré que la méthode de base des ventes répétées avec régression par les MCO peut être améliorée en utilisant une régression par les moindres carrés pondérés (MCP). En un mot, cette méthode consiste à donner plus de poids dans la régression aux observations considérées comme étant plus précises. Dans le contexte de la méthode des ventes répétées, on peut donner moins de poids aux observations des propriétés dont les ventes sont les plus espacées dans le temps et vice versa. Cette méthode corrigera le problème intrinsèque mieux connu sous le nom d’hétéroscédasticité.

11.53Case et Shiller (1987) suggèrent l’approche suivante en trois étapes :

1. Estimer le modèle (11.22) avec la régression par les MCO et récupérer le vecteur des résidus de la régression.

2. Régresser ces résidus, mis au carré, par les MCO sur les intervalles de temps entre les ventes, en incluant une constante dans le modèle.

3. Estimer avec une régression par les MCO le modèle (11.22), dans lequel chaque observation est divisée par la racine carrée de la valeur estimée par la deuxième étape.

La troisième étape est une régression par les moindres carrés pondérés du modèle (11.22) qui tient compte de l’hypothèse d’hétéroscédasticité.

11.54 Deux modèles des ventes répétées sont à présent simulés en adoptant l’ensemble de données sur les maisons individuelles plus grand et plus réaliste retenu pour la plupart des exemples précédents de ce chapitre. Les résultats sont d’abord utilisés dans la régression non pondérée des ventes répétées et sont présentés dans le tableau 11.15. Le tableau 11.16 présente les résultats de la version pondérée de la régression des ventes répétées. Notons que pour cet ensemble particulier de données, tous les coefficients sont significativement différents de 0 et qu’aucune constante n’est utilisée pour les régressions de la méthode des ventes répétées. Un inconvénient souvent cité de la méthode des ventes répétées est le gaspillage de données. Cet exemple le confirme. Sur les 5.787 observations de la base de données initiale, seulement 1.186 (environ 20 %) correspondent à des propriétés vendues plus d’une fois en 6 ans environ.

Tableau 11.15.Régression non pondérée des ventes répétées
Source |SSdfMSNombre d’obs.= 1.186
F (6,1180)= 379,41
Modèle |32,512747365,41879122Prob > F= 0,0000
Résidu |16,85311461.1800,014282301R2= 0,6586
R2 ajusté= 0,6569
Total |49,3658621.1860,04162383Racine carrée MSE= 0,11951
diflnprix |Coeff.Erreur-typetP>|t|[Intervalle de conf. 95 %]
dy2003 |0,06135390,00863327,110,0000,04441570,0782921
dy2004 |0,11989420,008204714,610,0000,10379690,1359915
dy2005 |0,14318620,00834317,160,0000,12681730,159555
dy2006 |0,18458850,008457821,820,0000,16799450,2011826
dy2007 |0,26582410,008347431,850,0000,24944680,2822015
dy2008 |0,34388690,008758739,260,0000,32670250,3610713
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.
Tableau 11.16.Régression pondérée des ventes répétées
Source |SSdfMSNombre d’obs.= 1.186
F (6,1180)= 348.90
Modèle |2098,216196349,702699Prob > F= 0,0000
Résidu |1182,723631.1801,00230816R2= 0,6395
R2 ajusté= 0,6377
Total |3280,939821.1862,76639108Racine carrée MSE= 1,0012
ndifprix |Coeff.Erreur-typetP>|t|[Intervalle de conf. 95 %]
ndy2003 |0,06353070,00856097,420,0000,04673450,0803269
ndy2004 |0,12117540,008116214,930,0000,10525160,1370992
ndy2005 |0,14374570,008296217,330,0000,12746880,1600226
ndy2006 |0,18641510,008462122,030,0000,16981270,2030175
ndy2007 |0,26898940,008484431,700,0000,25234330,2856356
ndy2008 |0,34916190,009108538,330,0000,33129130,3670325
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.

11.55 Comme avec le modèle hédonique à variables indicatrices temporelles présenté précédemment, l’indice des prix correspondant est obtenu avec l’exponentielle du coefficient estimé, car la variable dépendante est le logarithme du prix. Par exemple, la régression pour la méthode non pondérée des ventes répétées donne pour 2007 un coefficient de 0,2658241; En prenant son exponentielle, on obtient exp(0,2658241) = 1,3045 (ou 130,5 une fois arrondi et multiplié par 100). Les indices de toute la période 2002-08 sont disponibles dans le tableau 11.17. Notons que ces indices sont plutôt semblables, qu’il s’agisse de la version pondérée ou non pondérée. Un tel résultat est propre à cet ensemble de données en particulier et ne s’applique pas nécessairement à des indices de prix du logement estimés à partir d’autres sources.

Tableau 11.17.Indice des ventes répétées (2002 = 100)
AnnéeNon pondéréVariation en pourcentagePondéréVariation en pourcentage
2002100,0100,0
2003106,36,3106,66,6
2004112,76,0112,95,9
2005115,42,4115,52,3
2006120,34,2120,54,4
2007130,58,5130,98,6
2008141,08,1141,88,3
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.

11.56 Le tableau 11.18 résume les résultats des indices obtenus selon les différentes méthodes présentées ici, en utilisant la base de données élargie pour l’année 2007. La moyenne simple enregistre le taux de croissance le plus élevé parmi tous les indices estimés avec 10,1 % tandis que celui de la médiane est légèrement plus faible à 9,2 %.

Tableau 11.18.Taux de croissance en pourcentage des différents indices de prix du logement (2007)
MoyenneMédianeHédonique regroupéeHédonique Caractéristiques des prixVentes répétées non pondéréesVentes répétées pondérées
10,19,25,75,98,58,6
Source : calculs des auteurs basés sur les données MLS® pour une ville canadienne.

L’indice de la méthode hédonique augmente de 5,7 % et ceux des méthodes des périodes temporelles consécutives, des régressions groupées et du prix des caractéristiques augmentent de 5,9 % (les calculs ne sont pas développés). En revanche, la méthode des ventes répétées donne respectivement 8,5 % et 8,6 % pour ses versions pondérée et non pondérée. Si l’échantillon est quelque peu réduit pour se permettre de généraliser, une remarque est toutefois importante. Les indicateurs qui ne sont pas à qualité constante, c’est-à-dire la moyenne et la médiane, donnent les augmentations les plus fortes, alors que les méthodes hédoniques enregistrent les plus faibles. L’approche par les ventes répétées, bien qu’elle fixe beaucoup d’éléments de qualité, n’ajuste pas l’ancienneté. Il n’est donc pas surprenant que l’augmentation des prix ainsi obtenue soit plus forte que celle obtenue avec les méthodes hédoniques.

La variation en pourcentage sera la même, que l’indicateur soit exprimé par une valeur ou par un indice.

Bien sûr, des cas particuliers influenceront l’apurement des données. Si le principal utilisateur dirige aussi leur collecte, alors l’enquête sera adaptée à ses besoins et l’apurement sera limité.

Comme le nombre de ventes variera vraisemblablement d’une période à l’autre, le nombre d’observations de prix dans l’échantillon pour chaque période variera lui aussi.

Notons que la plupart des publications de mesures de tendances centrales ne sont typiquement pas accompagnées d’indicateur de qualité statistique comme l’écart-type.

Notons que les données servent à calculer à la fois la moyenne et la médiane. Les étapes sont plutôt aisées et la plupart des logiciels de statistique peuvent effectuer rapidement l’ensemble des calculs avec une intervention réduite de l’utilisateur.

Le coefficient d’asymétrie mesure l’asymétrie de la distribution. Quand il est nul, cela veut dire que la distribution est symétrique autour de la moyenne. Un coefficient d’asymétrie positif veut dire qu’un grand nombre d’observations se concentrent sur la gauche du mode de la distribution et vice-versa.

Avec ces données particulières, la moyenne était toujours plus grande que la médiane correspondante. Ce résultat n’est pas toujours vrai, en particulier avec les échantillons très petits.

D’habitude, la moyenne sera plus grande que la médiane correspondante. Néanmoins, par la suite, il n’y a aucune raison que l’indice formulé à partir de la moyenne augmente plus vite que celui formulé à partir de la médiane.

Cet exemple est librement inspiré de celui de McDonald et Smith (2009).

Cet exemple utilise le quartier comme sous-strate, mais, en réalité, ce pourrait être n’importe quelle zone géographique pour laquelle le statisticien serait certain d’avoir assez d’observations, actuellement et dans le futur, de façon à calculer un prix fiable et représentatif.

Cela suppose que le statisticien utilise les ventes comme base pour la pondération.

Les valeurs pour la période 0 de tous les indices définis dans cette section sont fixées à 1.

Fisher (1922; 466) a montré que P0 défini par (11.5) est égal à l’indice de Laspeyres PL défini par (11.1). Fisher a aussi appelé indice de Palgrave, l’indice P1 défini par (11.6).

Il peut être vérifié que la moyenne géométrique de PGL et de PGP est exactement égale à PT. Ainsi si PGL est plus petit que PT, alors PGP sera automatiquement plus grand que PT.

Bien que dans les ouvrages spécialisés la plupart des régressions hédoniques sur les prix du logement utilisent souvent bien plus de variables explicatives, quelques études et les exemples du chapitre 5 montrent que des indices de prix hédoniques fiables peuvent être obtenus avec seulement quatre variables indépendantes.

Il n’y a rien qui s’oppose à l’utilisation des modèles semi-log ou logarithmiques. Les deux peuvent être utilisés avec cette méthode hédonique.

Notons que les coefficients pour le nombre de chambres sont quelque peu volatils entre les deux années. Cela est attendu, car les régressions hédoniques sont souvent caractérisées par la colinéarité entre ces deux variables explicatives. Il faut souligner que la colinéarité en elle-même n’affecte pas l’exactitude de l’indice d’ensemble. Elle n’est un problème que si une valeur monétaire précise d’une chambre et/ou d’une salle de bain est nécessaire, comme ce serait le cas pour estimer la valeur d’une propriété. Il faut aussi ajouter que, pour cet exercice simplifié, l’échantillon est relativement petit. Ceci explique aussi pourquoi, parfois, les résultats ne sont pas tout à fait aussi robustes qu’avec des échantillons importants.

Une hypothèse est que la qualité de la maison n’a pas changé au cours de la période entre les deux ventes. Si des informations sur les caractéristiques de la propriété sont accessibles au statisticien, alors il sera possible d’exclure des calculs celles qui ont notablement changé au cours de la période considérée et sont susceptibles d’affecter le prix et donc de biaiser l’indice. De plus, puisque la multiplication des reventes rapides d’une propriété indique souvent la présence de caractéristiques indésirables, de telles propriétés peuvent aussi être exclues des calculs. Il faut également signaler qu’un indice des ventes répétées n’est pas strictement un indice à qualité constante, car les maisons sont souvent sujettes à une dépréciation temporelle. En conséquence, un indice des prix des ventes répétées sous-estime généralement la vraie inflation du prix des maisons, à moins d’effectuer des ajustements correctifs pendant l’estimation. Si l’objectif d’un indice est d’être un indicateur de court ou de moyen terme du prix des maisons, alors le problème de la dépréciation qui accompagne la méthode des ventes répétées pourra éventuellement être négligé.

L’exemple provient en partie de la documentation de l’indice des prix canadien des ventes répétées de Teranet–Banque Nationale® : http://www.housepriceindex.ca/Default.aspx.

Geltner et Pollakowski (2006) utilisent le terme «aller et retour».

Il n’y a que très peu d’observations, donc aucune conclusion définitive ne doit être tirée de cet exemple simplifié. Il ne devrait être utilisé qu’à titre pédagogique.

    Other Resources Citing This Publication