Chapter

5. Échantillonnage

Author(s):
International Monetary Fund
Published Date:
November 2006
Share
  • ShareShare
Show Summary Details

Introduction

5.1 La procédure utilisée par les offices nationaux de statistiques pour relever les prix en vue d’établir un indice des prix à la consommation (IPC) est l’enquête par sondage. Dans de nombreux pays, il serait plus juste de considérer qu’il s’agit en fait d’un grand nombre d’enquêtes différentes portant chacune sur différents sous-ensembles de produits couverts par l’indice. Nous commencerons donc par exposer certains des concepts généraux des enquêtes par sondage, qu’il convient de garder à l’esprit quand on examine un type particulier d’enquête, tel qu’un relevé de prix entrepris en vue d’établir un IPC.

5.2 Un objectif quantitatif, un IPC par exemple, est défini par rapport à:

  • un univers composé d’une population finie d’unités (des produits, par exemple);

  • une ou plusieurs variables définies pour chaque unité de l’univers considéré (les prix et quantités, par exemple);

  • une formule combinant les valeurs d’une ou plusieurs de ces variables pour toutes les unités de l’univers en une valeur unique appelée paramètre (par exemple l’indice de Laspeyres).

C’est à la valeur de ce paramètre que l’on s’intéresse.

5.3 L’univers considéré présente en général trois dimensions: une dimension de produit, qui consiste en l’ensemble des produits et variétés de produits achetés, une dimension géographique et de point de vente, qui consiste en l’ensemble des points de vente ou canaux par lesquels un produit est vendu, et une dimension temporelle, qui consiste en l’ensemble des subdivisions d’une période de l’indice. La dimension temporelle recevra moins d’attention, car la variation des prix est en général plus faible sur une courte période et les aspects temporels peuvent être traités dans le cadre des spécifications du produit et du point de vente.

5.4 Dans ce chapitre, les deux premières dimensions seront considérées comme statiques sur les périodes considérées dans l’indice. En d’autres termes, il sera supposé que l’on retrouve les mêmes produits et points de vente dans l’univers considéré aux deux périodes, ou que l’on remplace systématiquement un produit ou point de vente ancien par un nouveau, sans difficultés. Les complications que posent les modifications dynamiques de l’univers sont évoquées au chapitre 8, qui aborde les questions du remplacement, du rééchantillonnage et de l’ajustement de la qualité.

5.5 Pourquoi ne prend-on seulement qu’un échantillon d’unités? Mis à part qu’il serait pour ainsi dire matériellement impossible, et financièrement prohibitif, d’essayer de couvrir tous les produits dans tous les points de vente, les données seront sans doute de meilleure qualité si l’on suit un plus petit nombre d’unités, car on utilisera alors du personnel plus spécialisé et mieux entraîné. De surcroît, l’opération pourra être conduite dans des délais plus brefs.

5.6 Dans un tirage aléatoire, les unités sont choisies de telle manière que chacune d’elles (point de vente ou produit) a une probabilité de sélection connue différente de 0. Par exemple, les points de vente peuvent être sélectionnés par tirage aléatoire à partir d’un registre du commerce sur lequel chacun d’eux a la même chance d’être choisi. Traditionnellement, toutefois, ce sont les méthodes de tirage non aléatoire que l’on utilise le plus souvent pour choisir des points de vente ou des produits afin d’établir un IPC. La méthode du produit représentatif est particulièrement populaire pour la sélection des produits élémentaires. Les autres méthodes utilisées sont l’échantillonnage fondé sur un seuil d’inclusion et l’échantillonnage par la méthode des quotas (voir ci-après). Il arrive aussi que l’on combine deux méthodes; les points de vente sont par exemple sélectionnés par tirage aléatoire, et les produits par la méthode du produit représentatif.

5.7 Une fois que la décision de procéder à un échantillonnage est prise, deux questions se posent: comment choisir l’échantillon, et comment utiliser les valeurs de celui-ci pour estimer le paramètre. La première porte sur le choix d’un procédé d’échantillonnage, la seconde sur la procédure d’estimation. Nous examinerons d’abord les procédés d’échantillonnage.

Techniques de tirage aléatoire

5.8 Cette section présente une série de concepts et de techniques d’ordre général de tirage d’échantillons qui ont des applications importantes pour les indices des prix. Cette présentation rapide couvre les procédés de sondage présentant un intérêt immédiat pour ces indices. On trouvera une analyse complète de cette question dans les nombreux ouvrages qui lui ont été consacrés, tels que ceux de Särndal, Swensson et Wretman (1992) ou de Cochran (1977).

5.9 La théorie de l’échantillonnage d’enquête considère que l’univers est composé d’un nombre fini (N) d’unités d’observation notées j = 1,…, N. L’échantillonnage revient alors à sélectionner n unités sur N en attachant une probabilité d’inclusion, πj, à chacune d’elles. Deux procédés d’échantillonnage sont particulièrement intéressants pour les indices des prix.

5.10 En cas de tirage aléatoire simple ou de tirage systématique, chaque unité a une probabilité égale d’inclusion dans l’échantillon et nous avons πj = n/N. Dans un tirage aléatoire simple, toutes les unités sont sélectionnées en utilisant un mécanisme aléatoire. Dans un tirage systématique, les unités de l’échantillon sont sélectionnées à égale distance l’une de l’autre dans la base de sondage, et seule la première est sélectionnée par tirage aléatoire. Ces techniques sont d’ordinaire recommandées lorsque les unités sont relativement homogènes.

5.11 En cas de tirage aléatoire à probabilité inégale proportionnelle à la taille (PPT), la probabilité d’inclusion est proportionnelle à une variable auxiliaire xj et nous avons πj=nxj/ΣJ.=.1Nxj.. Les unités pour les quelles cette quantité est initialement supérieure à l’unité sont sélectionnées avec certitude, et des probabilités d’inclusion sont calculées ensuite pour le reste de l’univers.

5.12 L’univers peut être divisé en strates notées h = 1,…, H. Chaque strate comprend alors Nh unités et nous avons Σh=1HNh=N. La stratification a en général pour but de regrouper les unités qui présentent soit une certaine homogénéité, soit un avantage du point de vue administratif en étant par exemple physiquement proches les unes des autres. Chaque strate était un mini-univers dans lequel l’échantillonnage a lieu de façon indépendante. La pratique suivie pour établir les IPC consiste à prendre comme strates des agrégats élémentaires. Dans le reste de ce chapitre, nous examinons un échantillonnage en strate unique correspondant à un agrégat élémentaire et nous ne retenons pas l’indice inférieur h.

Tirage aléatoire et indices des prix à la consommation

5.13 Une base de sondage est une liste comprenant l’ensemble (ou la majorité) des N unités de l’univers. La couverture qu’elle assure peut être excessive dans la mesure où elle inclut des unités qui ne figurent pas dans l’univers considéré ou des unités dupliquées. Elle peut aussi être insuffisante si certaines unités de cet univers ne sont pas dans la base.

5.14 Les bases de sondage applicables à la dimension «points de vente» peuvent être:

  • Les registres du commerce. Ceux-ci doivent donner l’adresse précise des points de vente au détail et être mis à jour régulièrement. S’ils donnent, en outre, une mesure de la taille (chiffre d’affaires ou nombre d’employés) des points de vente, les registres du commerce constituent un outil utile pour procéder à un tirage aléatoire à probabilité inégale proportionnelle à la taille (PTT), et cette mesure de la taille des points de vente sera alors incluse aussi dans le paramètre de l’univers considéré.

  • Les annuaires téléphoniques («pages jaunes»). Ces derniers n’incluent généralement pas de mesure de taille. Il faut alors procéder à des tirages aléatoires simples ou systématiques. Parfois, la connaissance informelle de l’importance des différents points de vente peut être utilisée pour stratifier l’univers en deux catégories ou plus, et constituer ensuite un échantillon relativement plus large à partir de strates plus importantes.

  • Les registres des collectivités locales, organismes professionnels, etc. peuvent être utilisés pour les marchés locaux et autres données de ce type, qui sont particulièrement importantes dans les pays en développement.

5.15 Les bases de sondage pour la dimension «produits» peuvent être:

  • Les listes de produits qui sont fournies par les principaux points de vente en gros et font apparaître la valeur des ventes durant la période précédente pour les variétés considérées. Les valeurs des ventes constituent une mesure de taille évidente pour les pondérations et les tirages PPT.

  • Les listes de produits spécifiques aux points de vente. Ces listes peuvent aussi être dressées par les enquêteurs chargés de relever les prix à partir des produits présentés sur les étagères. La place que ces produits occupent sur les étagères peut alors être utilisée comme mesure de taille pour les tirages PPT.

Techniques de tirage aléatoire à probabilité inégale proportionnelle à la taille

5.16 Il existe plusieurs techniques de tirage PPT, qui se répartissent en deux grandes catégories selon que la taille de l’échantillon est fixée ou aléatoire. Il est à l’évidence souhaitable que la taille de l’échantillon soit préalablement fixée dans le cas des IPC, car la taille de l’échantillon dans chaque strate est souvent réduite et l’on risquerait d’aboutir à un échantillon vide si le choix de la taille était aléatoire. Nous présentons donc ici deux techniques qui donnent des échantillons PPT à taille fixée.

5.17Tirage PPT systématique. Le mieux est d’illustrer cette procédure par un exemple. Le tableau 5.1 montre comment un échantillon de 3 points de vente peut être extrait d’un total de 10. Dans ce cas, le nombre d’employés donne la mesure de la taille. Examinons la liste, qui indique les tailles cumulées et les intervalles d’inclusion. Nous prenons le total de notre mesure de taille, en l’occurrence 90, et divisons celui-ci par la taille de l’échantillon, soit 3. On obtient ainsi un intervalle d’échantillonnage de 30. Nous choisissons ensuite un nombre aléatoire compris entre 1 et 30 (les fonctions d’énumération aléatoire sont données, par exemple, par le logiciel de tabulation d’Excel). Supposons que ce chiffre soit 25. L’échantillon se composera alors des points de vente dont les intervalles d’inclusion couvrent les nombres 25, 25 + 30 et 25 + 2 × 30.

Tableau 5.1Tirage aléatoire systématique de 3 points de vente sur 10, à probabilité inégale proportionnelle à la taille
Points

de

vente
Nombre

d’employés = x
x cumuléIntervalle

d’inclusion
Inclus lorsque

le point de

départ est 25
113131–13
221514–15
352016–20
492921–29X
513030
6255531–55X
7106556–65
867166–71
9118272–82
1089083–90X

5.18 Le tirage systématique est facile à mettre en œuvre. Toutefois, si la base de sondage assure une surcouverture, la taille de l’échantillon ne sera pas celle déterminée à l’avance. Supposons qu’à la première visite des points de vente nous découvrons que le point de vente 6 ne propose pas les produits de l’échantillon. Nous restons alors avec un échantillon réduit à deux points de vente seulement. Il faut alors soit nous en contenter, soit remplacer d’une manière ou d’une autre le point de vente manquant, ce qui n’est pas prévu par la procédure d’échantillonnage de base. En outre, l’échantillon sélectionné dépend de l’ordre dans lequel les points de vente ou les produits sont énumérés dans la liste. Cela peut être important, en particulier si l’ordre d’inscription dans la liste est corrélé à la mesure de la taille.

5.19Tirage PPT ordonné. Il s’agit d’une méthode relativement nouvelle de tirage PPT, théorisée par Rosén (1997a, 1997b). Dans ce cas, un nombre aléatoire uniforme Ui compris entre 0 et 1 et une variable zi = nxixiixi, où xi est une variable de taille, sont associés à chaque unité de l’échantillon, et une variable de rang est construite sous forme de fonction de ces deux variables. Les unités de l’univers sont alors classées par ordre croissant et les n unités pour lesquelles la variable de rang présente les valeurs les plus faibles sont incluses dans l’échantillon. On peut citer deux exemples importants de ces variables de rang Qi:

  • Pour les tirages PPT séquentiels: Qi = Ui/zi;

  • Pour les tirages PPT de Pareto: Qi = Ui = (1−zi)/zi(1−Ui).

5.20 Le tableau 5.2 montre comment fonctionne ce type de tirage, pour le même univers que précédemment et en prenant comme exemple un tirage PPT de Pareto. L’univers est classé maintenant selon un ordre croissant par rapport à la variable de rang. Il apparaît que notre premier échantillon se compose des points de vente 6, 1 et 8. Supposons cependant que nous découvrons maintenant qu’il n’est pas indiqué d’inclure le point de vente 1. Nous nous tournons alors vers l’unité classée quatrième—le point de vente 9—et incluons celle-ci en remplacement. Un tirage PPT ordonné est donc facile à combiner avec une taille d’échantillon fixée, et d’un maniement plus souple qu’un tirage systématique.

Tableau 5.2Échantillon aléatoire de Pareto de 3 points de vente sur 10, à probabilité inégale proportionnelle à la taille
Points

de

vente
xiUiQiÉchantillon
6250,7555090,036943X
1130,1980820,207721(X)
860,9151310,310666X
9110,2771310,346024X
1080,8341380,380468
7100,7090460,412599
490,463730,580264
350,5001621,25
510,0679411,836435
220,2975242,926051

5.21 Ni l’une ni l’autre des deux procédures d’échantillonnage ne correspond exactement, toutefois, à un tirage PPT, car les probabilités d’inclusion obtenues s’écartent quelque peu de celles souhaitées. Rosén (1997b) montre cependant que, s’il s’agit d’estimer des moyennes et des variances, ces procédures correspondent approximativement à des PPT. Dans le cas de l’indice des prix, cela reste vrai en cas de substitution d’un échantillon qui assurait une surcouverture. La PPT de Pareto est meilleure, à la marge, que la PPT séquentielle et devrait par conséquent lui être préférée.

5.22 Le tirage PPT ordonné est utilisé à l’heure actuelle dans de nombreux volets de l’IPC suédois pour échantillonner par exemple:

  • les points de vente, à partir du registre du commerce (la mesure de la taille est donnée par le nombre d’employés + 1);

  • les produits, à partir des bases de données fournies par les grandes chaînes de vente au détail (la mesure de la taille est donnée par l’historique des ventes);

  • les modèles automobiles, à partir du registre central des véhicules automobiles (la mesure de la taille est donnée par l’immatriculation dans la période de référence).

5.23Statistics Sweden (2001) donne de plus amples détails sur l’application de ces procédures. Rosén (1997b) montre que le tirage PPT de Pareto et le tirage PPT systématique sont les deux méthodes d’échantillonnage optimales. Le tirage PPT de Pareto permet une évaluation objective de la précision de l’estimation. Pour la précision finale, toutefois, le tirage PPT de Pareto est meilleur dans certaines situations, et le tirage systématique préférable dans d’autres. Le choix entre les deux est donc affaire de jugement et de faisabilité dans une situation donnée. La grande souplesse du tirage PPT ordonné face aux imperfections de la base de sondage, aspect important dans les applications de l’IPC, nous conduit à le recommander de préférence à toutes les autres procédures PPT.

Méthodes d’échantillonnage utilisées par le Bureau of Labor Statistics des États-Unis

5.24 Le Bureau of Labor Statistics (BLS) des États-Unis utilise des méthodes de tirage aléatoire à toutes les étapes de la sélection d’un échantillon. Lors de la dernière étape, les produits élémentaires sont sélectionnés dans les points de vente selon un processus conçu pour donner des résultats proches d’un tirage PPT, s’agissant des ventes de chacun de ces produits. À cette fin, les représentants du BLS sur le terrain ont le choix entre quatre procédures pour déterminer les proportions des ventes (U.S. BLS, 1997). Ils sont autorisés à:

  • obtenir directement les proportions auprès des répondants;

  • classer les sous-groupes/produits élémentaires selon l’importance des ventes, telle qu’indiquée par les répondants, et obtenir ensuite les proportions directement ou en utilisant des proportions assignées au préalable;

  • utiliser, le cas échéant, l’espace occupé sur les étagères pour estimer les proportions;

  • utiliser l’équiprobabilité.

5.25 Pour le BLS, cette procédure présente l’avantage d’assurer un tirage aléatoire objectif et efficace là où aucune autre procédure de ce type ne serait possible. Elle permet d’adopter une définition large des strates de produits élémentaires, de sorte qu’il n’est pas nécessaire de suivre partout les prix de la même spécification étroite. La grande variété de produits élémentaires spécifiques réduit très sensiblement la composante de la variance à l’intérieur de chacun d’eux; elle réduit aussi la corrélation des variations des prix entre les secteurs et permet de diminuer la taille de l’échantillon requis pour une variance donnée.

5.26 L’un des inconvénients possibles de cette approche est que, si la mesure des ventes est effectuée durant une période très brève, elle risque de coïncider avec une campagne spéciale de promotion. Il se pourrait alors qu’un produit élémentaire dont le prix a temporairement baissé reçoive une probabilité d’inclusion élevée. Comme ce prix tendra à augmenter plus que la moyenne, il risque d’en résulter une surestimation. Il est donc essentiel que l’échantillonnage du produit élémentaire ait lieu avant le premier relevé de prix, ou que l’on utilise les valeurs des ventes d’une période antérieure. Okamoto (1999) souligne ce point dans le cas du Japon, où les variations importantes de prix sont, semble-t-il, très communes.

Techniques de tirage non aléatoire

5.27 La théorie moderne de l’échantillonnage statistique met l’accent sur les tirages aléatoires. Le recours au tirage aléatoire est aussi vivement recommandé et constitue la norme pour toutes sortes d’enquêtes statistiques, y compris dans le domaine économique. Mais la pratique suivie dans la plupart des pays pour établir les indices des prix reste dominée par les techniques de tirage non aléatoire. Il n’est donc pas inutile de s’interroger un moment sur les motifs, rationnels ou non, d’une telle situation. Dans la section suivante, nous passons en revue certaines de ces raisons possibles, avant d’examiner diverses techniques de tirage non aléatoire.

Raisons de recourir au tirage non aléatoire

5.28Absence d’une base de sondage. La situation est fréquente pour ce qui concerne la dimension «produits», mais moins pour la dimension «points de vente», pour laquelle les registres du commerce ou les annuaires téléphoniques fournissent les bases requises, au moins dans certaines régions du monde telles que l’Europe occidentale, l’Amérique du Nord et l’Océanie. Il est possible également de construire des bases «sur mesure» dans un nombre restreint de villes ou d’endroits, qui sont échantillonnés en grappes dans un premier temps. On notera que, dans le cas des produits, l’assortiment de produits proposé dans un point de vente fournit une base de sondage naturelle, une fois le point de vente échantillonné en grappe, comme dans la procédure d’échantillonnage du BLS présentée plus haut. L’absence de base de sondage n’est donc pas une excuse suffisante pour ne pas appliquer un tirage aléatoire.

5.29Le biais résultant d’un tirage non aléatoire est négligeable. Diverses preuves empiriques appuient cette assertion pour ce qui concerne les indices fortement agrégés. Dalén (1998b) et De Haan, Opperdoes et Schut (1999) ont simulé l’échantillonnage, fondé sur un seuil d’inclusion, de produits d’un même groupe de produits élémentaires. Dalén a examiné environ 100 groupes de produits élémentaires vendus dans des supermarchés et mis en évidence, pour les sous-indices de nombreux groupes de produits élémentaires, des biais importants qui s’annulent toutefois presque totalement après agrégation. De Haan, Opperdoes et Schut utilisent des données obtenues par lecture optique et s’intéressent à trois catégories (café, couches pour bébés et papier hygiénique) et, bien que le biais constaté pour chacune d’entre elles soit considérable, l’erreur quadratique moyenne (définie comme la variance plus le carré du biais) apparaît souvent plus faible que dans un tirage PPT. Les biais vont dans les deux sens et peuvent donc être interprétés comme corroborant les conclusions de Dalén. L’importance des biais constatés pour les deux groupes de produits élémentaires reste néanmoins troublante. Dalén, tout comme De Haan, Opperdoes et Schut, fait état de biais pour des groupes composés d’un seul produit élémentaire de bon nombre de points de l’indice.

5.30Il faut s’assurer que les échantillons pourront être suivis pendant un certain temps. En cas de malchance dans notre échantillon aléatoire, nous risquons en effet de nous retrouver avec un produit qui disparaît immédiatement après son inclusion dans l’échantillon. La question de son remplacement doit alors être résolue, avec les risques de biais que cela comporte. Par contre, il se peut que les prix de produits dont la vie est courte affichent des fluctuations différentes de celles des prix des produits dont la durée de vie est longue et représentent une part importante du marché, de sorte que le fait de les ignorer créera un biais.

5.31Un tirage aléatoire pour la période de référence n’est pas un tirage aléatoire approprié pour la période en cours. Cet argument anticipe en partie la réflexion développée au chapitre 8. Il est certainement vrai que la protection contre les biais qu’offre un échantillon aléatoire est dans une large mesure annihilée par la nécessité de procéder ensuite à des remplacements non aléatoires.

5.32Le relevé des prix doit avoir lieu là où l’on dispose d’enquêteurs pour le faire. Cet argument ne s’applique qu’aux tirages géographiques. Il est bien sûr moins cher de relever les prix près du domicile des enquêteurs, et il serait difficile et coûteux de recruter des enquêteurs à chaque fois qu’un nouvel échantillonnage est organisé, pour s’en séparer ensuite. Le problème diminue si l’on fait en sorte que les enquêteurs soient répartis convenablement sur l’ensemble du pays. Pour s’en assurer, on peut par exemple organiser, au sein de l’office national des statistiques, un corps d’enquêteurs professionnels répartis à travers le pays et menant de front diverses enquêtes. Une autre solution à ce problème consiste à mettre sur pied, à titre de premier degré d’échantillonnage, un échantillon de régions ou de villes et localités qui n’est modifié que très lentement.

5.33La taille de l’échantillon est trop petite. La stratification est parfois si fine qu’elle ne laisse place, dans la strate finale, qu’à un très petit échantillon. Une sélection aléatoire de 1 à 5 unités peut résulter parfois en un échantillon final jugé asymétrique ou doté de propriétés de représentation médiocres. Toutefois, à moins que l’indice de cette strate de petite taille doive être présenté publiquement, le problème reste lui aussi limité. L’asymétrie des petits échantillons de niveau inférieur se corrigera aux niveaux supérieurs. L’argument selon lequel la taille de l’échantillon est trop petite a plus de poids lorsqu’il concerne des grappes (zones géographiques) de premier degré qui s’appliquent simultanément à la plupart des degrés de l’échantillonnage suivants.

5.34Les décisions qui concernent l’échantillonnage doivent être prises à un niveau subalterne de l’organisation. À moins de disposer de solides connaissances en statistiques, les enquêteurs chargés de relever les prix risquent d’avoir des difficultés à procéder à des tirages aléatoires sur le terrain. Or, ces opérations seraient nécessaires si la spécification du produit fournie à l’échelon central couvre plus d’un produit (prix) dans un point de vente. Néanmoins, c’est précisément ce que font, aux États-Unis (U.S. BLS, 1997), les représentants du BLS sur le terrain. En Suède, où l’échantillonnage (pour les produits de première nécessité) est centralisé au point que toutes les variétés de produit sont définies et les tailles des emballages spécifiées, il n’est pas besoin de procéder à des échantillonnages dans les points de vente. Dans les pays où l’on ne dispose d’aucune de ces deux possibilités, il serait plus difficile d’effectuer des tirages totalement aléatoires pour les produits considérés.

5.35 Dans certaines situations, il existe par conséquent de bonnes raisons de recourir à des techniques non aléatoires. Nous examinons deux d’entre elles ci-après.

Échantillonnage fondé sur un seuil d’inclusion

5.36 L’échantillonnage fondé sur un seuil d’inclusion fait référence à la pratique qui consiste à choisir avec certitude les n unités de l’échantillon les plus importantes et à donner aux autres une probabilité d’inclusion égale à zéro. Dans ce cadre, la notion d’«importance» se rapporte à une certaine mesure de la taille qui est étroitement corrélée à la variable cible. L’expression «seuil d’inclusion» fait référence à la valeur frontière entre les unités incluses et celles qui ne le sont pas.

5.37 La théorie nous indique que d’une manière générale, l’échantillonnage fondé sur un seuil d’inclusion ne produit pas d’estimateurs non biaisés (voir paragraphes 5.51 à 5.60 pour une analyse des biais et de la variance), car les petites unités peuvent afficher des variations de prix qui diffèrent systématiquement de celles des unités plus importantes. La stratification par taille ou les tirages PPT présentent aussi l’avantage d’inclure avec certitude les unités les plus grandes, tout en donnant à toutes les unités une probabilité d’inclusion différente de zéro.

5.38 Si le critère d’erreur n’est pas le biais minimal mais l’erreur quadratique moyenne minimale (= variance + carré du biais), alors, étant donné que tout estimateur tiré d’un échantillonnage fondé sur un seuil d’inclusion a une variance égale à zéro, l’échantillonnage fondé sur un seuil d’inclusion peut être un bon choix lorsque la réduction de la variance fait plus que compenser l’introduction d’un biais limité. De Haan, Opperdoes et Schut (1999) montrent que cela peut être le cas, de fait, pour certains groupes de produits élémentaires.

5.39 Il est fréquent qu’un sondage à degrés multiples soit conçu de manière à ne laisser place qu’à un nombre très restreint d’unités à un certain degré. Les problèmes que pose parfois la mesure des unités de très petite taille peuvent alors justifier, en s’ajoutant aux amples variances observées, que le relevé des prix soit limité aux unités les plus grandes.

5.40 Notons que l’on peut aussi opter pour un procédé hybride dans lequel coexistent une strate de choix certain, des strates de tirage aléatoire et un seuil d’inclusion faible en deçà duquel aucun échantillon n’est tiré. Dans la pratique, cette solution est souvent retenue lorsque la section de l’univers située «en deçà du seuil d’inclusion» est jugée insignifiante et peut-être difficile à mesurer.

5.41 Il existe, dans le domaine de l’IPC, une pratique particulière qui s’apparente à l’échantillonnage fondé sur un seuil d’inclusion: elle consiste à laisser l’enquêteur choisir le produit le plus vendu dans un point de vente, dans les limites d’une spécification définie à l’échelon central. Dans ce cas, la taille de l’échantillon est égale à un (dans chaque point de vente) et la règle du seuil d’inclusion est affaire de jugement plutôt que de mesure exacte, puisque l’on dispose rarement des mesures de taille exactes. Dans tous les cas où l’on procède à des échantillonnages en fonction de la taille dans un point de vente, il est essentiel de considérer celle-ci dans une optique de long terme, afin d’éviter que les ventes temporairement dopées par une brève période de réduction des prix ne soient pas prises pour des mesures de la taille. Les prix de ces produits auront tendance, dans l’avenir immédiat, à augmenter beaucoup plus que le groupe de produits qu’ils représentent et à créer ainsi un grave biais de surestimation.

Échantillonnage par la méthode des quotas

5.42 De nombreux groupes de produits, y compris parmi ceux de taille plutôt réduite, sont par nature assez hétérogènes, et leurs prix varient en fonction d’un grand nombre de sous-groupes ou de caractéristiques. On peut très bien observer des mouvements de prix différents au sein de ces groupes de produits, et toute procédure visant à les représenter par un seul ou quelques types de produits étroitement spécifiés fait inutilement courir un grand risque de biais.

5.43 Dans le cas de l’échantillonnage par la méthode des quotas, l’échantillon sélectionné a les mêmes proportions d’unités que l’univers pour ce qui concerne un certain nombre de caractéristiques connues, telles que le sous-groupe de produit, le type de point de vente ou la localisation. La sélection effective des unités de l’échantillon obéit ensuite à des procédures subjectives, de telle sorte que la composition de l’échantillon final réponde aux critères des quotas.

5.44 L’exemple suivant illustre le concept d’échantillonnage par la méthode des quotas. L’objectif est de créer un échantillon de 20 forfaits vacances. On sait que, dans cet univers, 60 % des vacances se passent en Espagne, 30 % en Grèce et 10 % au Portugal. Quant aux groupes de vacanciers, 70 % se composent de 2 adultes, 20 % de 2 adultes + 1 enfant et 10 % de 2 adultes + 2 enfants. Sur cet échantillon, 20 % des groupes séjournent dans un hôtel 2 étoiles, 40 % dans un hôtel 3 étoiles, 30 % dans un hôtel 4 étoiles et 10 % dans un hôtel 5 étoiles. Avec ces informations, il est possible de concevoir l’échantillon de manière à ce que toutes ces proportions se retrouvent dans l’échantillon, qui est alors autopondéré. Notons qu’il s’agit ici de proportions en volume, et non pas en valeur, et qu’il peut être nécessaire de les ajuster en fonction de la formule d’agrégat élémentaire utilisée.

5.45 L’échantillonnage par la méthode des quotas suppose une gestion centralisée de l’ensemble du processus d’échantillonnage, ce qui risque d’en limiter l’utilité dans certaines situations. Il est plus difficile, mais pas impossible, de gérer un système d’échantillonnage par la méthode des quotas lorsque les prix sont relevés localement. Il faut alors répartir les enquêteurs chargés de relever les prix en sous-groupes et leur donner des instructions quelque peu différentes pour la sélection des produits. L’échantillonnage par la méthode des quotas a pour inconvénient, comme d’autres tirages non aléatoires, que l’erreur-type d’estimation ne peut être déterminée.

La méthode du produit élémentaire représentatif

5.46 C’est la méthode traditionnelle pour les IPC. L’office central dresse une liste des types de produits, assortie de spécifications par type de produit. Ces spécifications peuvent être étroites, en ce sens qu’elles limitent étroitement les produits que les enquêteurs peuvent sélectionner, ou larges, si elles laissent à ces derniers toute latitude pour choisir les variétés populaires localement.

5.47 La méthode assortie de spécifications étroites est, en un sens, diamétralement opposée à celle de l’échantillonnage par la méthode des quotas susmentionnée. À moins que les groupes de produits ne soient définis de manière à inclure un très grand nombre de types de produits, la représentativité pâtira de cette procédure, car aucun des produits qui ne répondent pas à la spécification n’entrera dans l’indice. La méthode présente un autre inconvénient: elle peut conduire à ce que plus de produits manquent dans les points de vente, et réduire ainsi l’échantillon effectif. Son principal avantage est sa simplicité. Il est facile de garder le contrôle de l’échantillon à l’échelon central. Si des ajustements de la qualité sont nécessaires, ils peuvent être décidés à ce niveau, ce qui peut être un avantage ou non.

5.48 La méthode assortie de spécifications larges donne aux enquêteurs la possibilité d’ajuster l’échantillon à la situation locale, et entraîne normalement une meilleure représentativité globale de celui-ci. Conjugué au critère des «meilleures ventes», l’échantillon tendra toutefois à sous-estimer systématiquement les marques et produits de moindre importance qui peuvent être achetés par des minorités non négligeables.

Échantillonnage dans le temps

5.49 Un IPC se réfère d’ordinaire à un mois, période durant laquelle les prix ne restent pas constants. La question de l’échantillonnage dans le temps se pose alors. On élude souvent ce problème en retenant, par exemple, le quinzième jour du mois ou les jours qui entourent le quinzième jour du mois comme date cible pour la mesure des prix. Dans certains secteurs, le jour de la semaine a un effet sur les prix: c’est le cas, par exemple, pour le cinéma, le théâtre ou la restauration, mais cela peut être pris en compte dans la spécification du produit plutôt que dans l’échantillonnage, en spécifiant par exemple le prix pratiqué le soir en semaine.

5.50 Autant que l’on sache, le tirage aléatoire dans le temps n’est utilisé nulle part. La méthode qu’emploient certains pays consiste à étendre le relevé des prix sur plusieurs semaines en suivant un certain schéma, différentes semaines étant, par exemple, consacrées à différentes régions ou différents groupes de produits. Dans certains cas, les prix sont suivis à intervalles plus rapprochés que le rythme mensuel: c’est le cas pour les produits frais, par exemple. Nous ne disposons pas encore de connaissances systématiques sur les avantages et inconvénients de telles pratiques. Le chapitre 6 examine les aspects plus concrets de la répartition des relevés de prix dans le temps.

Choix d’une méthode de tirage

5.51 Dans cette section, nous examinons comment le choix d’une méthode de tirage peut dépendre de facteurs spécifiques au pays concerné. Mais il convient d’abord d’examiner la question de la taille de l’échantillon.

5.52Taille de l’échantillon. La précision finale de l’estimation d’un échantillon dépend seulement de sa taille et de son allocation, et non pas de la taille du pays. En ce sens, il n’y a pas lieu d’adopter un échantillon plus large pour un pays plus grand. Les échantillons plus étoffés se justifient si les différences régionales dans l’évolution des prix présentent un intérêt et si l’on souhaite un degré de désagrégation des produits très élevé dans la présentation des indices. Le budget alloué à l’établissement de l’IPC peut bien sûr être plus important dans les grands pays et permettre la constitution d’échantillons plus larges.

5.53 Les études consacrées aux biais (autres que le biais d’estimateur décrit aux paragraphes 5.61 à 5.64) et à la variance montrent que le biais de sélection des IPC représente d’ordinaire un problème beaucoup plus important que la variance d’échantillonnage. Il s’ensuit que, dans bien des cas, des échantillons plus petits mais mieux suivis—en ce qui concerne les remplacements, rééchantillonnages ou ajustements de la qualité—pourraient donner, à budget égal, un indice de qualité supérieure. Dans certains pays, la collecte des prix à l’échelon local est une ressource fixe et il est donc difficile de redéployer des ressources du relevé local des prix vers le travail analytique à l’échelon central. Cela dit, il est recommandé de consacrer les ressources locales à l’amélioration de la qualité du relevé des prix plutôt qu’à multiplier leur nombre. La qualité des relevés de prix est examinée plus en détail au chapitre 6.

5.54 Selon les pays, la taille des échantillons mensuels oscille entre plusieurs milliers et plusieurs centaines de milliers. Souvent, ces différences relèvent davantage de la tradition que d’une analyse rationnelle du degré de précision requis. Les pays qui utilisent des échantillons de très grande taille feraient sans doute bien de réfléchir au moyen de redéployer les ressources dont ils disposent.

5.55Répartition géographique des enquêteurs chargés de relever les prix. L’échantillonnage est d’autant plus coûteux qu’il a lieu loin du domicile des enquêteurs qui relèvent les prix. Si l’organisme chargé du relevé des prix est centralisé dans quelques grandes villes, il sera difficile d’échantillonner des points de vente ailleurs. Il faut toutefois garder à l’esprit que l’inflation peut être très différente en zone rurale et en zone urbaine. Ne pas relever les prix dans ces deux zones pourrait donc être préjudiciable aux efforts déployés pour mesurer au plus près l’inflation moyenne au plan national. Il vaut mieux se doter au moins d’un petit échantillon pour les zones rurales afin que ce facteur puisse être pris en compte. Ce faisant, il reste possible de dégager la majeure partie des économies que peut entraîner le choix de points de vente proches du domicile des enquêteurs.

5.56Niveau de formation des enquêteurs. Si les enquêteurs chargés de relever les prix disposent d’une solide formation, ils peuvent être chargés de mener à bien des tâches plus complexes, telles que des tirages PPT dans les points de vente. Sinon, il faut s’en tenir à des méthodes plus simples.

5.57Accès à l’expertise de l’office central. Les tirages aléatoires supposent que l’on ait recours à l’expertise méthodologique de l’office central des statistiques.

5.58Groupes de produits homogènes ou hétérogènes. La méthode du produit élémentaire représentatif convient mieux aux groupes de produits homogènes. Pour les groupes hétérogènes, il est plus probable que des segments importants de l’univers du produit, pour lesquels les prix évoluent différemment, seront oubliés.

5.59Accès aux bases de sondage et qualité de celles-ci. Les tirages aléatoires supposent des bases de sondage qui n’existent pas forcément à l’échelle nationale. Si la première phase consiste en un échantillonnage géographique en grappes (pour lequel la base de tirage est une simple carte géographique), une liste des points de vente pertinents peut être dressée dans chaque grappe échantillonnée à partir des annuaires téléphoniques ou d’autres fichiers établis localement, comme c’est le cas au Royaume-Uni. Cette méthode est aussi utilisée pour sélectionner des zones urbaines afin d’établir l’IPC aux États-Unis (Dippo et Jacobs, 1983).

5.60Données obtenues par lecture optique. Ce chapitre se place dans le cadre traditionnel d’une situation où les prix sont relevés localement et à l’échelon central, puis enregistrés individuellement dans une base de données centralisée. Lorsque les prix et, le cas échéant, les quantités, sont relevés par lecture optique comme c’est le cas aux points de vente dotés de caisses enregistreuses électroniques, l’échantillonnage peut se faire de façon différente. Il n’est pas nécessaire alors d’échantillonner des produits, des variétés ou des points dans le temps, puisque cette énumération est totalement automatisée. Quoi qu’il en soit, tous les points de vente d’un produit ne seront pas équipés de dispositifs de lecture optique à brève échéance. Comme tous les types de points de vente devraient être représentés dans l’indice, il sera toujours nécessaire de conjuguer les échantillons de données obtenues par lecture optique et les échantillons traditionnels de données recueillies auprès des points de vente dépourvus de tels dispositifs.

Procédures d’estimation

5.61 Une distinction essentielle doit être faite entre ce qu’il faut estimer, le paramètre, qui est défini pour l’univers dans son ensemble, et l’estimateur, c’est-à-dire la formule qui doit être calculée en utilisant les valeurs de l’échantillon pour l’estimation du paramètre. Cela dit, l’échantillonnage par enquête est en général utilisé pour estimer une population totale ou une fonction de plusieurs totaux de ce type, qui peut être par exemple un ratio des totaux. C’est pourquoi, si deux variables y et z sont définies pour chaque unité de l’échantillon (les prix à deux périodes différentes, par exemple), nous souhaiterons peut-être estimer les paramètres suivants:

5.62 Plusieurs estimateurs différents peuvent être proposés pour le même paramètre de population, et il faut alors décider lequel d’entre eux sera utilisé. Quand on évalue la qualité de l’estimateur d’échantillon, c’est-à-dire la précision avec laquelle il estime le paramètre, deux mesures sont souvent examinées dans le paradigme du tirage aléatoire. La première est le biais de l’estimateur, qui est la différence entre le paramètre de l’univers considéré et la moyenne de l’estimateur pour tous les échantillons susceptibles d’être issus du procédé d’échantillonnage spécifié (qualifiée de moyenne de la distribution d’échantillonnage de l’estimateur). Notons que ce biais se rapporte à quelque chose de différent du biais de l’indice examiné ailleurs dans le manuel. Un estimateur est dit «non biaisé» s’il présente un biais égal à zéro. La seconde mesure est la variance de l’estimateur par rapport à cette distribution d’échantillonnage. Un estimateur est considéré comme bon s’il présente à la fois un faible biais et une faible variance, c’est-à-dire s’il est en moyenne très proche du paramètre et ne s’éloigne pas trop de sa moyenne.

5.63 Il est rare que l’on ait la chance de trouver un estimateur réduisant au minimum, et en même temps, le biais et la variance. Un estimateur qui présente un faible biais peut afficher une forte variance, et un estimateur qui présente une faible variance peut afficher un biais important. Aussi a-t-on souvent recours à un critère appelé l’erreur quadratique moyenne, qui est la somme du carré du biais et de la variance. Un «bon» estimateur est alors souvent un estimateur qui réduit au minimum ce critère.

5.64 La théorie de l’échantillonnage nous apprend que les estimateurs suivants ne sont pas biaisés, respectivement, pour les paramètres Y et Z susmentionnés:

S est l’échantillon, et que R^=Y^/Z^ est approximativement non biaisé pour R, sous réserve d’un biais d’estimateur par le ratio (en général négligeable).

Application des procédures d’estimation aux indices des prix à la consommation

5.65 Comme il a été dit plus haut, l’échantillonnage effectué pour les besoins des IPC est en général stratifié, les strates étant composées d’agrégats élémentaires. Supposons que le paramètre de l’univers considéré soit I et que le paramètre d’une strate h soit nommé Ih. Nous avons alors:

wh est la pondération de la strate h. Il s’agit alors d’estimer Ih pour chaque strate. Dans les paragraphes suivants, nous nous concentrons par conséquent sur l’estimation pour une seule strate et abandonnons la notation de h.

5.66 Selon le contenu, le degré d’homogénéité, l’élasticité-prix et l’accès aux informations sur les pondérations au sein de la strate, différents paramètres peuvent convenir à différentes strates. Le choix du paramètre est un problème d’indice, qui doit être résolu par référence aux concepts économiques sous-jacents. Ainsi qu’il est expliqué au chapitre 20, cet indice peut être l’indice de valeur unitaire, l’indice de Laspeyres, l’indice de Lowe ou l’indice de Laspeyres géométrique.

5.67 Supposons que nous ayons un échantillon de taille n et que les unités de cet échantillon soient dénommées 1, 2,…, n. Très souvent, une des trois formules ci-après est utilisée comme estimateur de l’indice de strate:

La moyenne arithmétique des rapports de prix (indice de Carli):

Le rapport des moyennes des prix (indice de Dutot):

La moyenne géométrique (indice de Jevons):

Pour aller plus loin, il faut aussi introduire le rapport des moyennes harmoniques des prix:

5.68 Si l’on compare les estimateurs susmentionnés à la forme fonctionnelle des paramètres du chapitre 20, il apparaît que des conditions très spéciales doivent être réunies pour en faire des estimateurs non biaisés de ces paramètres, ne serait-ce que parce qu’il n’y a pas de quantités dans les estimateurs de l’échantillon, contrairement à ce qui se passe pour les paramètres du chapitre 20.

5.69 Nous avançons, sans le prouver, certains résultats relatifs aux propriétés statistiques des estimateurs ci-dessus (voir Balk (2002) pour plus de détails). Supposons qu’il y ait dans l’univers N produits dénommés 1, 2,…, N. Soit pjt,qjt les prix et quantité, respectivement, du produit j à la période t (t = 0 pour la période de référence et 1 pour la période en cours), et

la part de dépenses consacrées au produit j dans la période de référence. Alors:

  • En cas de tirage aléatoire simple, aucune des grandeurs r, a ou g n’estime sans biais les paramètres de population. Au contraire, il faut utiliser des pondérations dans les estimateurs également.

  • En cas de PPT, si πjwj0 pour tous les j, alors r, moyenne des rapports de prix, n’est pas biaisé pour l’indice de Laspeyres (le symbole «∞» signifie «proportionnel à»).

  • En cas de PPT, si πjqj0 pour tous les j, alors a, rapport des moyennes des prix, est approximativement non biaisé pour l’indice de Laspeyres.

  • En cas de PPT, si wj0 ni qj0 pour tous les j, alors g est approximativement non biaisé pour l’indice de Laspeyres géométrique. Dans ce cas, log g est non biaisé pour le logarithme de l’indice de Laspeyres géométrique. Le biais restant tend à être du même ordre que celui de a.

5.70 Tous ces résultats sont par nature un peu théoriques, puisque ni wjo ne qjo ne sont connus au moment où l’échantillon pourrait être sélectionné. C’est une raison pour introduire l’indice de Lowe:

  • En cas de PPT, si πjqjb (où b est une période antérieure à la période 0) pour tous les j, alors a est approximativement non biaisé pour l’indice de Lowe.

5.71 Il n’existe pas une façon simple de relier les estimateurs, quels qu’ils soient, à l’indice de valeur unitaire. En fait, l’estimation de cet indice suppose des échantillons distincts pour les deux périodes, puisque son numérateur et son dénominateur se réfèrent à des univers différents.

  • Si l’on applique deux procédés d’échantillonnage différents, l’un pour la période 0 et l’autre pour la période 1, qui correspondent tous deux à des PPT et où πj0qj0 et πj1qj1,, alors a est approximativement non biaisé pour l’indice de valeur unitaire. Dans ce cas, toutefois, l’interprétation de la formule a sera différente, puisque les échantillons figurant au numérateur et au dénominateur sont différents.

  • Si l’on applique deux procédés d’échantillons différents, l’un pour la période 0 et l’autre pour la période 1, qui correspondent tous deux à des PPT et où πj0vj0=pj0qj0 et πj1vj1=pj1qj1,, alors h, rapport des moyennes harmoniques des prix, est approximativement non biaisé pour l’indice de valeur unitaire. La reformulation algébrique suivante de l’indice de valeur unitaire aide à éclaircir ce point:

Comme pour a, cependant, l’interprétation de la formule h sera différente, car les échantillons figurant au numérateur et au dénominateur sont différents.

5.72 L’expression «approximativement non biaisé» appelle une explication. Elle fait référence au fait que l’estimateur n’est pas exactement non biaisé, mais que le biais qu’il affiche est faible et diminue pour se rapprocher de zéro à mesure que la taille de l’échantillon et celle de l’univers tendent simultanément vers l’infini, selon certaines modalités mathématiquement bien définies. Dans le cas de l’estimateur de rapport applicable à a, le signe de ce biais est indéterminé et sa taille après agrégation est probablement négligeable. Dans le cas de la moyenne géométrique, cependant, le biais est toujours positif, ce qui veut dire qu’en moyenne pour beaucoup d’échantillons, la moyenne géométrique de l’échantillon tend à surestimer la moyenne géométrique de l’univers. Dans le cas d’un tirage aléatoire simple et d’une moyenne géométrique non pondérée à la fois dans l’univers et dans l’échantillon, le biais s’exprime de la façon suivante: bσ2/2n, où σ2 est la variance des rapports de prix. Pour les univers de petite taille, une correction de la population finie doit être multipliée par cette expression. Ce résultat est obtenu aisément à partir de l’expression (4.1.4) dans Dalén (1999b). Le biais peut être significatif pour les échantillons de petite taille, et il faut donc être prudent si l’on rencontre de très petits échantillons dans une strate et qu’une moyenne géométrique s’applique.

Estimation de la variance

5.73 L’IPC est une statistique complexe, qui obéit à un procédé d’ordinaire complexe lui aussi. L’estimation de la variance d’un IPC n’est donc pas une tâche de routine. Dans la mesure où les échantillons ne sont pas aléatoires, les estimations de la variance doivent utiliser un certain type de modèle dans lequel on suppose un tirage aléatoire. En l’absence de connaissances systématiques et généralement admises, les méthodes d’estimation de la variance utilisées dans quatre pays sont décrites brièvement ci-après.

Variances des formules d’indices d’agrégat élémentaire

5.74 Quelques estimateurs de la variance de formules d’agrégats élémentaires seront d’abord donnés à titre préliminaire. Pour ne pas alourdir le texte de formules, ce sont les estimateurs de la variance, et non la variance exacte, qui sont donnés ici. Les estimateurs de la variance sont approximativement non biaisés dans le cas d’un tirage aléatoire simple où le paramètre d’univers correspondant n’est pas pondéré. Ils s’appliquent aussi au cas des tirages PPT pour un paramètre d’univers pondéré, dans lequel la mesure de la taille est la même que la pondération du paramètre. Pour la définition des formules, voir les équations (5.1)−(5.3).

Cette estimation découle du fait que a, contrairement à r, est un rapport de variables stochastiques. Voir, par exemple, Cochran (1977) pour une dérivation de cette formule.

5.75 La moyenne géométrique est plus complexe, puisque ce n’est pas un estimateur linéaire. Toutefois, Dalén (1999b) en a déduit l’expression suivante de la variance, qui s’applique aisément et reste valable en offrant une bonne approximation si les rapports de prix n’enregistrent pas des mouvements excessifs (par exemple σr/r < 0,2):

La méthode des États-Unis

5.76 L’IPC établi aux États-Unis repose sur des procédures de tirage et d’estimation qui sont à bien des égards uniques si on les compare à celles d’autres pays. Le procédé exact varie de toute évidence un peu avec le temps. La description qui suit repose sur U.S. BLS (1997) ainsi que sur Leaver et Valliant (1995).

5.77 L’IPC en vigueur aux États-Unis se compose d’éléments obtenus en croisant des zones géographiques avec des strates de produits pour donner, au total, 8.487 «strates IPC de base» correspondant aux agrégats élémentaires. Les 88 zones géographiques sont sélectionnées par PPT dans le cadre d’une procédure contrôlée, et 29 d’entre elles sont incluses avec certitude (autoreprésentation). Au sein de chaque strate IPC de base, on applique une procédure d’estimation dans laquelle les indices pour une période donnée reposent sur des unités d’échantillonnage se chevauchant (points de vente et produits élémentaires) entre cette période et celle qui la précède immédiatement. Les indices d’une période sur l’autre sont alors multipliés pour obtenir un indice de la période de référence à la période en cours. L’échantillonnage au sein de la strate IPC de base est approximativement PPT, sur la base de la description donnée plus haut.

5.78 L’estimation de la variance pour ce procédé se révèle trop complexe pour être utilisée en tant qu’estimateur direct de la variance selon le procédé retenu. On applique à sa place une méthode de duplication de groupe aléatoire, en utilisant pour ce faire le logiciel VPLX. D’autres méthodes ont également été mises à l’essai.

5.79Leaver et Swanson (1992) donnent un compte rendu détaillé des méthodes d’estimation de la variance utilisées jusqu’à maintenant. Ils présentent aussi les estimations numériques suivantes des erreurs-types (médianes) des variations des IPC pour divers intervalles au cours de la période 1987–91: erreur-type sur 1 mois: 0,074; erreur-type sur 2 mois: 0,103; erreur-type sur 6 mois: 0,130; erreur-type sur 12 mois: 0,143.

La méthode suédoise

5.80 La présentation suivante reprend les grandes lignes de la description donnée par Dalén et Ohlsson (1995). L’IPC suédois utilise une stratification primaire en groupes de produits, qui sont mesurés dans le cadre d’enquêtes sur les prix distinctes et indépendantes. La première étape de la méthode suédoise consiste par conséquent à noter que la variance de l’indice de tous les prix des produits élémentaires est une somme pondérée des variantes des enquêtes distinctes:

5.81 Si l’on peut raisonnablement supposer que toutes ces enquêtes sont indépendantes, c’est parce qu’elles ne font pas appel, en l’occurrence, à un dispositif d’échantillonnage régional commun. Au total, une soixantaine d’enquêtes différentes sont ainsi effectuées. Certaines couvrent de nombreux groupes de produits et suivent des procédés complexes; on constate par ailleurs une dépendance stochastique entre elles. D’autres ne couvrent qu’un seul groupe de produits et obéissent à un procédé simple. Certaines couvrent leurs univers, sans aucun échantillonnage, et affichent donc une variance égale à zéro.

5.82 Dans beaucoup de groupes reposant sur un simple produit, on est en droit de supposer que les rapports de prix obtenus sont effectivement des échantillons aléatoires. Dans certains cas, cela peut conduire à une certaine surestimation de la variance puisqu’il est procédé en fait, au sein du groupe, à une certaine sous-stratification ou à un échantillonnage par la méthode des quotas. Dans ces groupes de produits, des variances de strate pourraient alors être estimées en appliquant les formules (5.5) à (5.7). Lorsqu’une enquête sur les prix est stratifiée, la formule (5.8) peut être appliquée aux niveaux inférieurs, au-dessus de l’agrégat élémentaire.

5.83 Certaines enquêtes sur les prix sont cependant plus complexes. C’est vrai en particulier pour cette fraction importante de l’indice dans laquelle les points de vente et les produits sont échantillonnés simultanément. En Suède, ces enquêtes sont qualifiées d’enquêtes locales sur les prix et d’enquêtes sur les produits de première nécessité. Dans les deux cas, les points de vente sont échantillonnés par tirage aléatoire (PPT) à partir du registre central du commerce. Les produits sont échantillonnés par PPT dans le cadre des enquêtes sur les produits de première nécessité, mais par la méthode du produit représentatif dans les enquêtes locales sur les prix. Dans le modèle suédois d’estimation de la variance, l’échantillon final est considéré dans ces cas comme extrait de deux univers bidimensionnels de produits et de points de vente. Les unités d’échantillonnage finales sont donc les produits de l’échantillon vendus dans les points de vente de l’échantillon—soit un échantillon reposant sur une classification croisée.

5.84 Lorsqu’un échantillon repose sur une classification croisée, la variance totale peut être décomposée en trois parties:

  • la variance entre produits (au même point de vente);

  • la variance entre points de vente (pour le même produit);

  • la variance de l’interaction entre point de vente et produit.

Dalén et Ohlsson (1995) donnent la formule exacte utilisée.

5.85 Dans l’enquête sur les produits de première nécessité, le modèle reposant sur une classification croisée donne des résultats assez proches du procédé d’échantillonnage effectif. Dans l’enquête locale sur les prix, c’est davantage un modèle, car on procède en fait à un tirage raisonné des produits. Ce modèle n’en a pas moins été jugé utile pour se faire une première idée de l’erreur d’échantillonnage et analyser les problèmes d’allocation.

5.86 La variance totale de l’IPC suédois, selon ce modèle, a été estimée à 0,04, ce qui correspond à un intervalle de confiance de ±0,4 au seuil de 95 %. Cette estimation apparaît relativement stable sur la période 1991–95 pour laquelle le modèle a été essayé.

La méthode française

5.87 En France, le calcul de la variance ne prend désormais en considération que les produits élémentaires représentant 65 % de la pondération totale de l’indice.

5.88 Le plus petit élément de calcul est un type de produit en zone urbaine. Deux formules peuvent être appliquées à un tel élément: le rapport des moyennes arithmétiques (si le produit est homogène) ou celui des moyennes géométriques (si le produit est hétérogène). On suppose un sondage aléatoire à deux degrés, le premier concernant les zones urbaines, le second un produit élémentaire donné (une variété de produit) dans un point de vente. La variance obtenue est donc la somme d’une composante «entre zones urbaines» et d’une composante «au sein des zones urbaines». Étant donné la nature non linéaire des estimateurs, une linéarisation est effectuée à partir d’extensions doubles. Des variances de niveau supérieur sont obtenues en pondérant les variances de niveau élémentaire.

5.89 Après l’exercice d’optimisation organisé en 1997, l’écart-type de l’indice de tous les produits (pour 65 % de la pondération totale de l’indice) a été estimé à 0,03. Cette valeur est proche de celle estimée en 1993, bien que le nombre d’observations ait diminué. La précision d’un certain nombre de sous-indices a par ailleurs été améliorée.

5.90 Les termes de covariance sont ignorés. Concrètement, cela introduit une très petite différence dans la composante «entre zones urbaines». La composante «au sein des zones urbaines» est indiscutablement plus touchée. L’effet n’en est pas moins considéré comme restreint, car une règle limite le nombre de produits observés au même point de vente.

5.91 S’agissant des 35 % de la pondération (appelés «tarifs») qui sont actuellement exclus du calcul de la variance, des calculs de ce type seront effectués à titre d’assurance. Les éléments nécessaires au calcul de la variance existent aussi pour les services des médecins et des dentistes. Les variances afférentes à ces produits, de même qu’aux automobiles neuves, seront bientôt calculées. Pour un certain nombre de sous-indices (tabac, produits pharmaceutiques), l’échantillon est en fait un comptage total, de sorte que les variances sont égales à zéro.

5.92 Un intervalle de confiance de 95 % pour une comparaison sur 12 mois peut s’exprimer sous forme d’un indice estimé à ±0,06 pour les produits élémentaires ordinaires, autres que les tarifs. Si l’on suppose une variance égale à zéro pour les 35 % restants de l’indice, le seuil de confiance pour l’indice de tous les produits s’établit alors à ±0,04. Cette hypothèse est à l’évidence trop optimiste, mais, si l’on s’en tient aux travaux consacrés jusqu’à présent à l’estimation de la variance, on peut conclure que le seuil de confiance est certainement inférieur à 0,1.

5.93 On trouvera de plus amples détails sur les calculs effectués en France dans Ardilly and Guglielmetti (1993).

La méthode du Luxembourg

5.94 L’IPC du Luxembourg peut être décrit comme un échantillon raisonné stratifié de 258 strates de produits. Un peu moins de 7.000 observations sont effectuées chaque mois, soit en moyenne 27 observations par strate. Dans chaque strate, les observations sont faites à partir de plusieurs points de ventes; mais le même point de vente est représenté dans de nombreuses strates de produits. Le point de vente sert ici à identifier l’organisation qui fixe le prix (le propriétaire pour les loyers, les compagnies spécialisées pour les assurances, etc.). Dans chaque strate, les prix sont observés dans plusieurs points de vente. Sachant qu’il y a de bonnes raisons de penser que chaque point de vente a ses propres habitudes de fixation des prix, le niveau et les variations des prix dans un même point de vente tendent à être corré-lés, ce qui entraîne des covariances positives dans l’expression générale de la variance:

5.95 Dans le modèle d’échantillonnage, chaque échantillon de points de vente distinct au sein d’une strate de produits est considéré comme un échantillon aléatoire simple. On suppose ensuite un modèle à deux degrés tel que, dans un premier temps, un tirage aléatoire simple des points de vente ait lieu à partir d’une base de sondage (fictive) regroupant tous les points de vente du Luxembourg. Ensuite, dans chaque point de vente de l’échantillon, un échantillon de second degré est supposé être tiré à partir d’une strate de produits h, de sorte que la strate combinant produit et point de vente devienne le plus bas niveau de calcul de l’indice. On suppose que tous les échantillons de second degré sont indépendants les uns des autres et que les fractions d’échantillonnage sont faibles. Ce modèle débouche sur trois composantes de la variance totale:

  • la variance au sein des points de vente;

  • la variance entre les points de vente;

  • la covariance entre les points de vente.

Les covariances sont difficiles à calculer, même avec l’aide d’un ordinateur. Fort heureusement, toutefois, il est possible de conjuguer algébriquement les deux composantes en une, avec un nombre de niveaux de sommation réduit.

5.96 Ce modèle a permis de procéder à des estimations numériques de 22 variations consécutives sur 12 mois, qui vont de la période janvier 1996–janvier 1997 à la période octobre 1997–octobre 1998. L’estimation de la variance moyenne est de 0,02 (ce qui correspond à une erreur-type de 0,14), chiffre dont la faiblesse peut surprendre vu la petite taille de l’échantillon. La raison de cette faible valeur n’a pas été analysée plus en détail, mais tient à la conjugaison des conditions particulières en vigueur sur les marchés au Luxembourg et des procédures utilisées dans le système d’estimation de l’indice.

5.97 Le modèle d’estimation de la variance de l’IPC pour le Luxembourg et ses résultats font l’objet d’une présentation complète dans Dalén and Muelteel (1998).

Autres méthodes

5.98 Un certain nombre de modèles expérimentaux ont été mis à l’essai et ont permis d’effectuer des calculs au Royaume-Uni. Jusqu’ici, aucun d’eux n’a été reconnu comme méthode ou estimation officielle. Kenny (1995, et rapports antérieurs) a appliqué la méthode suédoise aux données du Royaume-Uni. Il a trouvé un écart-type d’environ 0,1 pour l’indice d’ensemble des prix de détail du Royaume-Uni. Cet écart-type apparaît plutôt constant sur plusieurs années, bien que la décomposition détaillée de la variance ait notablement évolué. Sitter et Balshaw (1998) ont utilisé une méthode de pseudo-population, mais sans obtenir d’estimations de la variance globale.

5.99 S’agissant enfin de la Finlande, Jacobsen (1997) a effectué des calculs partiels en appliquant un procédé similaire à la méthode suédoise. Son analyse a été utilisée pour proposer diverses modifications dans l’allocation de l’échantillon.

Allocation optimale

5.100 Dans de nombreux pays, l’établissement d’un indice des prix à la consommation est une opération majeure et des ressources considérables sont consacrées au relevé des prix. Il est bon, par conséquent, de veiller à ce que ces ressources soient allouées de la façon la plus efficace.

5.101 L’approche générale de l’allocation des échantillons élaborée par Neyman est décrite dans tous les manuels consacrés aux échantillonnages. Elle repose sur une expression mathématique de la variance de l’estimation et une expression de son coût. Variance et coût sont fonction de la taille de l’échantillon. Assurer une allocation optimale revient alors à réduire au minimum la variance pour un coût donné, ou à réduire au minimum le coût pour une variance donnée.

5.102 L’estimation de la variance a été examinée plus haut. Pour ce qui est du coût, il importe de noter que celui-ci n’est pas le même pour toutes les observations de prix. Il est moins onéreux de recueillir un prix supplémentaire dans un point de vente qui figure déjà dans l’échantillon que d’ajouter un prix dans un point de vente nouveau dans l’échantillon. Dans l’IPC suédois, par exemple, la fonction de coût suivante a été utilisée:

C fait référence au coût total et C0 à la fraction fixe du coût indépendante de la taille de l’échantillon,

nh est le nombre de points de vente dans la strate de points de vente h,

mg est le nombre de variétés de produit dans la strate de produit g,

ah est le coût unitaire par point de vente et reflète le temps nécessaire pour s’y rendre,

bh est le coût unitaire par produit, qui reflète le coût supplémentaire lié à l’observation d’un produit lorsque l’enquêteur est déjà au point de vente,

rgh est la fréquence relative moyenne des produits de la strate g vendus dans les points de vente de la strate h.

5.103 Dans la formule (5.10), ah est en général beaucoup plus élevé que bh. Ce fait milite en faveur d’une allocation dans laquelle les produits sont relativement plus nombreux que les points de vente, donc où il y aura plusieurs produits par points de vente. Cette allocation est encore renforcée par le fait que les variances entre produits dans un même point de vente et la strate de produits sont en général plus fortes que les variances entre points de vente pour le même produit. C’est ce que montre, en tout cas, l’expérience suédoise.

5.104 Lorsque la fonction de variance et la fonction de coût sont toutes deux spécifiées, il est possible, à l’aide de la technique mathématique des multiplicateurs de Lagrange, de calculer les tailles d’échantillon optimales dans chaque strate. Toutefois, il n’est d’ordinaire pas possible d’obtenir des expressions explicites, car on se heurte alors à un problème d’optimisation non linéaire pour lequel il est impossible de trouver une solution explicite.

5.105 Dans un IPC, l’indice couvrant tous les produits est en général la statistique la plus importante. L’allocation de l’échantillon devrait donc avoir pour but de réduire au minimum l’erreur à ce niveau. Il est important aussi que les autres sous-indices publiés soient de bonne qualité, mais c’est la qualité des sous-indices qui est souvent retenue comme critère pour la publication, plutôt que l’inverse.

Récapitulation

5.106 Les explications qui précèdent peuvent se résumer en une série de recommandations spécifiques.

5.107ClartéLes règles d’échantillonnage doivent être bien définies. Dans de nombreux IPC, il existe une large gamme d’échantillonnages et d’autres solutions pour les différents groupes de produits. Souvent, une méthode relativement bien définie est employée pour le relevé des prix sur le terrain, mais les méthodes exactes utilisées pour recueillir les prix de nombreux produits à l’échelon central sont en général connues de quelques responsables seulement, et l’on ne dispose parfois que d’informations limitées à ce sujet. Il est essentiel, pour la crédibilité de l’IPC, que les règles d’échantillonnage et d’estimation (le traitement des valeurs aberrantes, par exemple) soient bien définies et décrites avec précision.

5.108La solution du tirage aléatoire doit être sérieusement envisagée. Il convient de recourir davantage aux procédés de tirage aléatoire. Dans de nombreux secteurs, des bases de sondage utiles existent ou pourraient être bâties sans que cela pose de difficultés majeures. Le tirage PPT, ordonné et stratifié, est un type de procédé d’échantillonnage important qu’il y a lieu d’envisager dans bon nombre de situations. Les mesures de la taille utilisées pour l’échantillonnage doivent être interprétées dans une perspective de long terme, de façon à ne pas être corrélées aux variations des prix.

5.109ReprésentativitéIl ne faut pas laisser de côté des fractions importantes de l’univers considéré. Lorsque les procédés d’échantillonnage sont conçus, la totalité de l’univers des produits alimentaires et des points de vente qui relèvent du groupe de produits élémentaires en question doit être prise en compte. Toutes les parties significatives de cet univers doivent être convenablement représentées, à moins que cela n’entraîne des coûts rédhibitoires ou des problèmes d’estimation.

5.110La variance ou l’erreur quadratique moyenne doit être aussi faible que possible. Les échantillons doivent être raisonnablement optimisés, sur la base d’une analyse au moins rudimentaire de la variance de l’échantillon. À titre d’approximation de premier ordre, les tailles des échantillons peuvent être fixées de manière à être à peu p rès proportionnelles aux pondérations des groupes de produits. On obtient une meilleure approximation en multipliant chaque pondération par une mesure de la dispersion des variations de prix dans le groupe. Les considérations de variance et de coût militent, ensemble, en faveur d’allocations selon lesquelles les produits mesurés dans chaque point de vente sont relativement nombreux, et les points de vente relativement peu nombreux dans l’échantillon. Étant donné que les biais posent en général plus de problèmes que les erreurs d’échantillonnage, il sera le plus souvent préférable d’adopter des échantillons plus restreints mais de meilleure qualité, qui permettent des renouvellements plus fréquents et un suivi attentif des remplacements et des ajustements de la qualité.

    Other Resources Citing This Publication