Chapter

5. Questions relatives à l’échantillonnage dans les relevés de prix

Author(s):
International Monetary Fund
Published Date:
September 2009
Share
  • ShareShare
Show Summary Details

A. Introduction

5.1 Dans un monde idéal, il serait toujours possible d’utiliser des techniques d’échantillonnage orthodoxes d’un point de vue statistique pour établir des indices de prix très précis en respectant un budget donné. Dans la pratique, toutefois, c’est le plus souvent bien différent. Il est presque toujours impossible d’établir des échantillons efficients parce que i) les estimations exactes des variances de la population nécessaires pour affecter les unités d’échantillonnage aux strates sont rarement disponibles, ii) les bases de sondage sont toujours déficientes dans une certaine mesure, car elles ne fournissent pas certaines données essentielles, telles que la création de nouveaux établissements, ou les variables de stratification souhaitées, et iii) les taux de réponse sont imprévisibles et parfois trop faibles, ce qui influe sur l’exactitude de l’indice et des variations de prix mesurées.

5.2 L’objectif du statisticien est donc d’utiliser au mieux ce dont il dispose et d’appliquer les principes de la théorie de l’échantillonnage avec bon sens et pragmatisme. Le plus important est sans doute d’établir et de bien comprendre ce que l’enquête cherche à estimer, les limites inhérentes à la base de sondage et l’environnement dans lequel l’enquête sera conduite, c’est-à-dire les taux de réponse probables, la qualité des données et le niveau des ressources.

5.3 Il existe un lien direct entre les utilisations de l’IPP, la portée de l’enquête sur l’IPP et les conditions à remplir pour les bases de sondage. L’IPP sert notamment d’indicateur général de l’inflation et de déflateur dans les comptes nationaux. Plus l’IPP englobe d’activités économiques, plus il est utile pour l’analyse de l’inflation et l’établissement de mesures du PIB à prix constants. Mais, si l’on adopte une couverture large, il faut pouvoir établir des bases de sondage pour un large éventail d’activités économiques englobant à la fois les activités de production de biens et de prestation de services. En outre, il convient de tenir à jour ces bases de sondage en enregistrant les créations et disparations d’entreprises dans chaque secteur.

5.4 Une fois la couverture et les utilisations établies, on peut décider de la stratification, de la taille de l’échantillon et de l’allocation, et établir ainsi un plan de sondage. Des techniques de tirage aléatoire peuvent être employées dans les pays où les données sont disponibles en grande quantité et où la variance peut être estimée de manière satisfaisante. Dans beaucoup de pays, on dispose des quelques détails seulement sur les paramètres d’échantillonnage et le statisticien devra peut-être s’en remettre à des procédures demandant des connaissances techniques à de nombreux stades du processus de sélection. Dans la mesure du possible, il convient d’utiliser des procédures d’échantillonnage acceptables et applicables, et de n’utiliser des méthodes subjectives qu’en dernier ressort.

5.5 Comme pour la plupart des échantillons de panel qui sont recueillis sur une certaine période, les enquêtes sur les prix doivent compter avec les problèmes liés à l’évolution de la population. Tout échantillon d’établissements et de produits devient de moins en moins représentatif au fil du temps et risque de s’appauvrir à mesure que les établissements arrêtent de vendre ou produire certains produits ou cessent leurs activités complètement. Il est conseillé d’adopter un dispositif permettant d’assurer une rotation des échantillons ou de les compléter pour réduire au minimum les biais causés par leur amenuisement progressif et par la non-couverture des nouveaux produits, des nouveaux établissements ou des nouvelles technologies de production.

B. Problèmes courants dans l’échantillonnage des enquêtes sur les prix

5.6 De nombreux facteurs peuvent expliquer pourquoi les enquêtes sur les prix sont considérées comme non représentatives et donc susceptibles d’aboutir à des résultats inexacts. Toutes les enquêtes nationales sur les prix rencontrent certains problèmes, dont voici quelques exemples:

  • Les échantillons sont sélectionnés par choix raisonné et non à l’aide de méthodes de tirage aléatoire, ce qui accroît le risque de biais. Il arrive, par exemple, que des établissements soient sélectionnés parce que leur localisation géographique est pratique ou qu’ils sont connus pour être de bons répondants.

  • On ne peut pas obtenir d’estimations de l’exactitude des statistiques sans employer des méthodes de sélection aléatoire (mais sans estimation initiale de la variance, un échantillon sélectionné par tirage aléatoire ne peut pas être optimisé—c’est-à-dire présenter la variance la plus faible sous contraintes de coût; c’est un problème difficile, sur lequel nous reviendrons).

  • La dimension de l’échantillon pour un secteur d’activité ou un produit n’est peut-être plus adaptée à la situation actuelle si le secteur d’activité ou le produit s’est développé ou contracté depuis la période de référence (période où l’échantillon a été sélectionné).

  • Les nouveaux produits ne sont peut-être pas recensés ou inclus dans l’enquête. La mise à jour de l’échantillon des établissements peut atténuer ce problème dans une certaine mesure.

  • Il est possible que la base de sondage ne soit plus adaptée à la situation actuelle ou n’inclut pas certains groupes de la population cible. Par exemple, il est fréquent que les données sur les petits producteurs recueillies dans l’IPP ne soient pas fiables parce que ce groupe est instable et difficile à suivre par les autorités administratives, de sorte que leur poids risque d’être erroné (en général, ils sont sous-représentés).

  • Enfin, la participation aux enquêtes est parfois facultative, ce qui augmente le risque d’un biais de non-réponse lorsque ceux qui n’ont pas répondu enregistrent une évolution des prix différente de celle des répondants.

C. Position de départ

5.7 Avant de commencer à concevoir une enquête sur les prix, il est essentiel de comprendre les raisons de l’enquête et ses utilisations, qui vont déterminer le format des résultats nécessaires et permettre de décider quelles données recueillir pour les entrées. Il est essentiel d’évaluer et de comprendre l’environnement dans lequel l’enquête sera menée—par exemple, quel taux de réponse et quelle qualité de données peuvent être attendus. De toute évidence, certaines des décisions les plus importantes à prendre concernent le niveau des ressources disponibles. Donc, tous les paramètres ci-après influeront sur la conception de l’échantillon et le succès de l’enquête.

5.8 Il est indispensable de préciser les objectifs de l’enquête, en consultant les utilisateurs et en répondant à des questions telles que:

  • Les indices de prix seront-ils utilisés pour mesurer la production à prix constant et/ou pour mesurer l’inflation?

Si l’objectif est de mesurer la production à prix constant, il faudra en priorité des indices fiables et détaillés par secteur d’activité et par produit dans l’IPP, et des indices détaillés par produit élémentaire seront nécessaires dans l’IPC. En revanche, si l’on recherche des indicateurs de l’inflation, l’accent sera mis sur des indices d’agrégat et il faudra peut-être établir une série d’indicateurs en utilisant différents prix et pondérations—des indices des prix des intrants, des extrants, de gros et de détail, par exemple.

  • Quelle sera la couverture géographique? Nationale ou régionale?

La couverture géographique est généralement nationale pour l’IPP, mais il peut être important d’établir des indices régionaux dans les pays où les prix évoluent différemment d’une région à l’autre. Plusieurs pays font également des estimations des PIB régionaux. Il peut être nécessaire d’estimer des IPP régionaux pour les utiliser comme déflateurs, surtout si les prix évoluent différemment d’une région à l’autre.

  • Souhaitons-nous disposer d’une série mensuelle ou trimestrielle?

L’IPP est établi en général une fois par mois comme indicateur d’inflation, mais il est trimestriel dans de nombreux pays pour des raisons de coût et parce qu’il est utilisé principalement comme déflateur de comptes nationaux, lesquels sont établis en général tous les trimestres.

  • Quels prix cherchons-nous à estimer? Les prix de base, les prix à la production, les prix de gros ou les prix d’acquisition?

Le concept de prix dépendra du type d’IPP produit. Pour un indice des prix des extrants (IPE), il s’agira du prix de base, c’est-à-dire des recettes que le producteur dégage de chaque unité produite. Pour un indice des prix des intrants (IPI), c’est le prix d’acquisition, c’est-à-dire le coût par unité payé par le producteur pour les intrants (matières premières et énergie) utilisés dans le processus de production.

  • Si un choix doit être fait pour des raisons de coût, quels sont les indices prioritaires: les IPP par secteur d’activité ou les IPP par produits?

Si la priorité est donnée aux IPP par secteur d’activité, un sondage à deux degrés peut permettre d’obtenir des estimations fiables par secteur d’activité et par produit; si la priorité est donnée aux IPP par produit, il faut établir des échantillons fiables par produit, puis les agréger pour obtenir des IPP par secteur d’activité qui ne seront peut-être pas aussi fiables.

  • Des indices distincts seront-ils établis pour les prix à l’exportation et les prix intérieurs?

L’IPP doit englober toute la production des producteurs intérieurs, c’est-à-dire à la fois les produits destinés au marché intérieur et les produits destinés à l’exportation. Souvent les pays ne recueillent que des données sur les produits destinés au marché intérieur, bien que l’IPP puisse être utilisé aussi pour établir des indices des prix à l’exportation.

  • Quels secteurs d’activité et quels produits doivent être englobés? À quel niveau de détail?

Le secteur industriel (activités extractives et de fabrication) et les services publics sont les principaux secteurs généralement inclus dans l’IPP. Cependant, les services deviennent beaucoup plus importants pour l’économie et la croissance, et devraient être inclus dans l’IPP à l’occasion de futures extensions.

5.9 Les données à recueillir doivent être identifiées et comprises:

  • Quel type de prix faut-il relever et peut-on relever les prix de transaction effectives plutôt que des prix de liste?

Il peut être difficile de définir et de relever le prix de nombreux biens et services. Souvent, le prix affiché sur une liste ou un catalogue ne correspond pas au prix reçu par l’établissement. Dans l’idéal, nous souhaitons relever les prix effectivement reçus pour un échantillon représentatif des transactions des établissements. Pour les biens, cela peut se faire de façon assez régulière. C’est le cas aussi pour la plupart des services. Cependant, pour certains services—par exemple, les services bancaires et d’assurance—, le service et le prix de l’intermédiation financière ne sont pas clairement distingués, et il peut être nécessaire de consulter les informations sur la transaction visée pour en établir le prix effectif. (D’autres informations sur les prix de ces services figurent au chapitre 10.) En outre, si les indices sont utilisés principalement pour mesurer la production à prix constant, les prix relevés doivent être les prix effectifs des transactions.

  • Faut-il relever les prix de base (hors taxes sur les produits, y compris les subventions et hors frais de transport facturés séparément)?

Selon le SCN 1993, la production de biens et services doit idéalement être évaluée aux prix de base et il doit en aller de même pour les IPP s’ils sont utilisés comme déflateurs. Si les IPP des extrants utilisent d’autres prix que les prix de base comme déflateur, la mesure du volume pourrait être inexacte.

  • Quand les prix doivent-ils être enregistrés?

Conformément à l’évaluation de la production telle qu’elle est définie dans le SCN 1993, les règles de comptabilité sur la base des droits constatés doivent être suivies autant que possible, afin que, dans l’IPP, les prix de vente soient enregistrés au moment de l’expédition ou de la livraison. Bien que les pratiques diffèrent souvent d’un pays à l’autre—les prix peuvent être enregistrés au moment de l’achat ou de la commande, par exemple—il est préférable d’enregistrer les prix au moment de l’expédition ou de la livraison. Il peut s’agir d’une moyenne de plusieurs observations effectuées pendant le mois considéré ou du prix relevé un jour donné; les deux méthodes sont utilisées et acceptables.

  • Comment faut-il décrire un prix (une transaction)?

Les caractéristiques qui déterminent le prix de chaque produit ou catégorie de produits doivent être recensées pour que les informations sur les transactions soient suffisamment détaillées. Par exemple, le prix par litre de peinture dépend du nombre de pots à expédier, du type et de la qualité de la peinture, des modalités de paiement (net 30 jours), du type de client et d’éventuelles remises.

  • Est-il probable qu’il y ait des périodes pendant lesquelles certaines données ne seront pas disponibles? Si oui, comment les prix manquants seront-ils traités?

Le fait que des données ne soient pas disponibles pendant certaines périodes a un impact direct sur la qualité de l’indice, car la taille de l’échantillon diminuera pendant ces périodes. Il faut prendre cela en compte lors de la conception des strates de l’échantillon, afin que plusieurs produits similaires inclus dans les strates soient disponibles toute l’année. Il faut aussi accroître la taille des échantillons pour ces strates, car les prix des produits saisonniers varient davantage.

5.10 Le niveau d’exactitude requis doit être précisé:

  • Dans l’idéal, il convient de définir une variance d’échantillonnage maximum acceptable pour chaque indice publié.

Cependant, la variance d’échantillonnage ne peut être évaluée que si des techniques de tirage aléatoire sont utilisées. Il s’agit souvent de commencer par des estimations de la variance pour l’indice élémentaire afin de déterminer les tailles initiales des échantillons. Ensuite, une fois les échantillons recueillis et les variances calculées, l’échantillon peut être optimisé en fonction des nouvelles données sur la variance. Il est très difficile, toutefois, de calculer les variances et les biais de sélection (Leaver, Johnstone, and Archer, 1991; Leaver and Swanson, 1992; Cope and Freeman. 1998; et Morris and Birch, 2001)1.

  • Dans la pratique, il faut trouver un compromis entre le coût et l’exactitude.

Le degré élevé d’exactitude qui serait souhaitable exige des échantillons de plus grande taille, dont le coût peut être prohibitif. Dans ce cas, c’est souvent le coût qui détermine la taille des échantillons et le degré d’exactitude ne peut qu’en souffrir.

5.11 Une fois la couverture décidée, il convient de définir la population à sonder et d’examiner la base de sondage existante pour déterminer si elle doit être complétée.

  • La base de sondage contient-elle toutes les unités de la population-cible? Englobe-t-elle tous les secteurs d’activité qui font partie du champ de l’indice et tous les établissements des secteurs d’activité-cibles? Faudra-t-il établir des bases de sondage distinctes pour chaque secteur d’activité, groupe ou division?

La plupart des registres du commerce n’incluent pas les établissements situés au-dessous d’un certain seuil (nombre d’employés ou valeur des ventes), et des secteurs d’activité tels que la construction et le commerce de détail sont sans doute moins bien couverts. En outre, il est nécessaire de recenser les établissements séparément de leur société mère.

  • Comment les unités sont-elles définies dans la base de sondage? Il y a probablement des unités dont l’appartenance à la population est incertaine.

Il faudra établir une base de sondage distincte pour les secteurs d’activité ou produits couverts par l’IPP afin de faciliter la sélection de l’échantillon d’établissements pour ces secteurs d’activité et de produits. Par exemple, les unités auxiliaires d’une entreprise pourraient être hors du champ de l’indice, ou des produits qui sont secondaires pour un secteur d’activité donné devraient être inclus dans la base de sondage d’un autre secteur d’activité.

  • Les unités s’excluent-elles mutuellement?

Il pourrait y avoir un double comptage, comme cela arrive lorsqu’un établissement est inclus à la fois en tant que tel et comme partie de la société mère.

  • Dispose-t-on d’informations pour effectuer la stratification?

Il faut disposer de certains éléments pouvant servir de variables pour la stratification—par exemple, la classification industrielle, la production ou les ventes, le nombre d’employés et l’emplacement de l’établissement—afin de sélectionner l’échantillon.

  • Dispose-t-on d’informations pour établir des pondérations selon un tirage à probabilité inégale proportionnelle à la taille?

On a besoin de mesures des ordres de grandeur, telles que la production, le total des ventes et la valeur des chargements expédiés. Si ces indicateurs de valeur ne sont pas disponibles, il est peut-être nécessaire d’utiliser l’emploi comme variable de substitution.

5.12 Il faut décider du niveau des ressources disponibles:

  • La contrainte de ressources influera sur la taille de l’échantillon.

Il est en général plus coûteux d’augmenter le nombre d’établissements sondés que celui des prix relevés auprès de chaque établissement. La simple augmentation du nombre de prix relevés auprès de chaque établissement améliorera un peu l’exactitude, lorsque la variance intra-établissement est faible par rapport à la variance interétablissements.

  • Et elle pourrait dicter les méthodes d’enquête.

Aura-t-on, ou non, recours aux visites personnelles, par exemple, en complément des relevés par téléphone ou des questionnaires envoyés par voie postale ou électronique?

5.13 Des questions d’ordre législatif peuvent influer sur la conception des échantillons.

  • La participation à l’enquête sera-t-elle facultative ou obligatoire?

La solution adoptée aura une influence sur les taux de réponse, et partant, sur l’exactitude et la dimension des échantillons. Les enquêtes obligatoires auront un taux de réponse plus élevé, mais leurs données risquent d’être de moins bonne qualité.

  • Y a-t-il des règles de confidentialité?

De telles règles pourraient imposer une taille minimale pour les échantillons—par exemple, un minimum de quatre unités par strate pourrait être requis.

D. Conception des échantillons

5.14 Lorsque l’on connaît les objectifs de l’enquête, le format des entrées et des sorties, le niveau d’exactitude souhaité et les ressources disponibles, le processus de conception de l’échantillon peut commencer2. Des décisions doivent être prises là aussi, mais le principal objectif du processus est clair: il s’agit de maximiser l’efficience, c’est-à-dire de réduire au minimum les variances d’échantillonnage, les erreurs et les coûts.

5.15 Il faut se prononcer sur:

  • les techniques d’échantillonnage (aléatoire/non aléatoire),

  • les bases de sondage,

  • les structures et la stratification des échantillons,

  • l’allocation des échantillons entre les strates,

  • les méthodes de réduction des erreurs autres que les variances d’échantillonnage.

D.1 Techniques d’échantillonnage

D.1.1 Tirage aléatoire ou non aléatoire?

5.16 Face à un problème de mesure, le statisticien doit commencer par examiner s’il est possible d’établir un échantillon aléatoire rigoureux. Dans le contexte des IPP, on entend par tirage aléatoire la sélection d’un échantillon de producteurs et de produits (transactions) à partir d’un univers de l’activité économique dans lequel chaque producteur et chaque produit a une chance connue de sélection.

5.17 Le tirage non aléatoire est un échantillonnage par choix raisonné (appelé aussi par choix d’expert), où des experts choisissent des échantillons qu’ils considèrent représentatifs. Dans la pratique, cependant, il est rare que différents experts s’accordent sur ce qui est représentatif et les échantillons sont sujets à des biais d’une ampleur inconnue. L’échantillonnage par choix raisonné peut se justifier lorsque les échantillons sont de petite taille, mais le risque de biais augmente avec la taille de l’échantillon.

5.18 L’utilisation d’un échantillon aléatoire présente deux avantages bien connus. Le premier est d’assurer que les produits élémentaires dont les prix sont suivis sont sélectionnés de manière impartiale et objective. Si l’échantillonnage n’est pas aléatoire, seuls des produits dont le prix est facile à estimer risquent d’être sélectionnés, avec pour résultat des estimations (indices) biaisées. En particulier, la couverture des produits de haute technologie, tels que les machines-outils, le matériel électronique, les avions ou les produits électroniques de grande consommation, sera probablement insuffisante dans l’IPP. Il est difficile d’estimer le prix de ces produits, car leurs spécifications évoluent rapidement. Il existe aussi une tendance à accorder trop d’importance à des produits plus simples, tels que les produits alimentaires, le ciment, les textiles ou les barres en acier, pour lesquels une série comparable de prix peut facilement être fournie.

5.19 Le second avantage est que l’échantillon aléatoire permet de mesurer la qualité des résultats d’une enquête grâce à des estimations de la variance ou du biais de tirage. Dans ce contexte, la qualité des résultats se rapporte à la possibilité d’enregistrer une différence entre les résultats obtenus à partir des observations de l’échantillon et le résultat qu’aurait donné une énumération complète de toutes les unités déclarantes de l’univers considéré. Bien entendu, l’utilisation d’un échantillon aléatoire ne permet pas de mesurer les erreurs résultant de non-réponses, de déclarations inexactes, de coefficients de pondération obsolètes, de la non-représentativité des produits dont le prix a été relevé ou de toute autre source que l’échantillon.

5.20 Il est concevable que le tirage aléatoire soit utilisé à toutes les étapes du processus de sélection. Par exemple, un échantillon aléatoire de produits peut être sélectionné à partir d’une liste de tous les biens produits par toutes les entreprises des secteurs des activités extractives ou de fabrication. Pour chaque produit sélectionné, un échantillon aléatoire de producteurs peut être choisi à partir d’une liste de tous les producteurs; pour chaque producteur sélectionné, un échantillon aléatoire de marques spécifiques dont les prix seront relevés régulièrement peut être choisi à partir d’une liste de tous les produits de chaque producteur. Une méthode moins rigoureuse consisterait à sélectionner les producteurs ou détaillants de manière aléatoire, puis à sélectionner les produits par choix raisonné; les producteurs ou détaillants pourraient aussi être sélectionnés de manière non aléatoire à l’aide d’un échantillonnage fondé sur un seuil d’inclusion (décrit plus loin), tandis qu’un échantillon aléatoire est établi à partir de tous les produits fabriqués par les producteurs sélectionnés. Ce mélange de procédures de tirage aléatoire et non aléatoire et de procédures d’échantillonnage fondé sur un seuil d’inclusion limite l’interprétation que l’on peut faire des biais de tirage estimés, mais a l’avantage d’assurer une certaine objectivité du processus de sélection.

5.21 Pour concevoir des échantillons optimaux, il faut disposer, pour toutes les unités de la population, d’informations qui permettent de procéder à une bonne stratification et conduisent à une plus grande efficience, car la probabilité de sélection est proportionnelle à la taille. Les organes statistiques peuvent utiliser diverses variantes du tirage aléatoire:

  • Tirage aléatoire simple—chaque unité a la même chance d’être tirée;

  • Échantillonnage systématique—chaque kème unité est sélectionnée, avec un point de départ aléatoire. Tout ordre ou toute tendance dans la base de sondage influe sur ce type d’échantillonnage: un ordre entraîne une sorte de stratification implicite, et une tendance peut conduire à des échantillons biaisés;

  • Probabilité proportionnelle à la taille (PPT)—chaque unité a une probabilité de sélection proportionnelle à sa taille (ou un autre indicateur d’importance, mais c’est la taille qui est en général utilisée). Une fois ces probabilités de sélection attribuées, on peut utiliser des techniques de tirage aléatoire simple ou d’échantillonnage systématique.

5.22 En dépit de leur attrait, il peut arriver que les méthodes de tirage aléatoire ne soient ni nécessaires, ni souhaitables. Les indices de prix sont un domaine des statistiques où les risques de ne pas disposer d’un échantillon aléatoire sont relativement peu élevés. La dispersion potentielle des variations des prix appliqués par divers producteurs d’un produit sur de nombreuses périodes est relativement faible, comparée par exemple à celle des ventes ou des dépenses d’équipement d’entreprises qui fabriquent le même produit sur la même période. Certaines entreprises peuvent même cesser de produire le produit en question, ou d’autres commencer à le produire. En résumé, la mesure des variations de prix semble exiger moins de rigueur dans le tirage aléatoire que d’autres domaines d’application des statistiques. Il est donc possible d’économiser, à ce niveau, des ressources qui peuvent être allouées à d’autres aspects de l’enquête, tels que la collecte des données sur les prix ou l’amélioration des données de base sur les coefficients de pondération.

5.23 Cela dit, sans tirage aléatoire, les offices de statistique ne pourront pas mesurer de manière significative les variances d’échantillonnage pour aider les utilisateurs à distinguer les variations dues véritablement aux prix et celles dues au bruit de fond statistique. Ils auront du mal aussi à prendre les décisions requises pour améliorer la conception de leurs échantillons et affecter leurs ressources de manière plus efficiente. De bonnes mesures de variances fournissent aux offices de statistique des données qui leur permettent de réorienter l’échantillon vers des domaines où la variance est élevée afin de la réduire.

5.24 Dans plusieurs pays, la gamme des biens des industries extractives et de fabrication produits dans le pays est si limitée et le nombre d’entreprises qui les produisent si faible qu’il ne sert à rien d’opérer une sélection; il faut chercher à inclure tous les produits et tous les producteurs.

5.25 Dans d’autres cas, il n’existe peut-être pas de moyen pratique de déterminer l’univers à l’avance. Une exigence fondamentale du tirage aléatoire est de définir l’univers (ou population) et d’en identifier toutes les unités. La liste de l’univers doit être actualisée et toutes les unités doivent être classées à l’aide d’un code de secteur d’activité tel que ceux utilisés dans la CITI ou la NACE, ce qui est coûteux et difficile dans la pratique.

5.26 Le coût de l’établissement et de la gestion d’un échantillon aléatoire peut être jugé trop élevé. Il est clair que la conception, la sélection, le contrôle et la gestion d’un échantillon aléatoire destiné à recueillir des observations de prix coûtent cher.

5.27 Des estimations de la variabilité des prix sont nécessaires aussi. Ces données sont rarement disponibles pour toutes les unités de la population, et jamais à un niveau détaillé (bien élémentaire ou produit). Ce problème peut être résolu en faisant appel à un échantillon établi en deux phases, certaines informations étant recueillies auprès d’un échantillon d’unités qui sont ensuite rééchantillonnées à l’aide de ces mêmes informations. Au Royaume-Uni, on recueille ainsi des données détaillées par produit dans le cadre de l’enquête PRODCOM de l’UE auprès d’un échantillon de producteurs, lesquels constituent ensuite la base de sondage pour l’IPP, et les données détaillées sont utilisées pour la stratification et le tirage PPT.

5.28 Une sélection aléatoire sera souvent inappropriée parce que, idéalement, l’enquête sur les prix à la production devrait être un volet d’un programme intégré de statistiques des prix. En d’autres termes, le choix des produits dont les prix sont suivis au stade intermédiaire (c’est-à-dire les prix à la production) peut dépendre des produits sélectionnés à un stade antérieur (par exemple, les importations) ou ultérieur (par exemple, les exportations ou la consommation).

5.29 Pour la plupart des pays, le recours à une méthode strictement aléatoire ne sera donc pas possible, ou seulement à un coût très supérieur aux avantages, si bien que l’on combinera des techniques de tirage aléatoire et de choix raisonné.

D.1.2 Échantillonnage fondé sur un seuil d’inclusion

5.30 L’échantillonnage fondé sur un seuil d’inclusion est une méthode fréquemment utilisée par les pays pour sélectionner des échantillons. Dans cette méthode, toutes les unités qui atteignent ou dépassent un seuil déterminé à l’avance sont incluses dans l’échantillon (choisies avec certitude) alors que celles qui se situent au-dessous de ce seuil ne sont pas incluses (probabilité de sélection nulle). Cette méthode permet en général d’assurer une très large couverture du petit nombre d’unités susceptibles d’être incluses, car la distribution de la variable de sélection (par exemple, la production ou les ventes) est concentrée sur un petit nombre de grands établissements3.

5.31 Le problème, avec cette méthode, c’est que les variations de prix observées dans les petits établissements peuvent être différentes de celles des gros établissements. L’indice de prix est alors entaché d’un biais, qui correspond à la différence entre la variation moyenne des prix pour les unités non couvertes et la variation des prix pour la population totale. Si l’importance des unités exclues ou le biais est très faible, l’effet sur l’erreur d’échantillonnage totale peut être très faible. En général, l’erreur totale est mesurée par l’erreur quadratique moyenne

et l’échantillon qui présente l’erreur quadratique moyenne la plus faible est jugé plus efficace. Donc, la méthode qui produit l’erreur d’échantillonnage totale ou l’erreur quadratique moyenne la plus faible sera privilégiée. Il est possible qu’un échantillon fondé sur un seuil d’inclusion soit plus efficient si la composante «biais» des unités exclues est faible. Par exemple, si les unités non couvertes présentent des variations des prix très différentes mais un faible biais (autrement dit, si la variation moyenne des prix n’est guère différente), l’erreur quadratique moyenne pourrait être plus faible si l’on utilise l’échantillon fondé sur un seuil d’inclusion, et l’enquête coûterait alors beaucoup moins cher.

5.32 L’échantillonnage fondé sur un seuil d’inclusion est très pratique pour sélectionner les secteurs d’activité et les produits dans un dispositif d’échantillonnage à plusieurs étapes. Par exemple, pour sélectionner les secteurs manufacturiers qui seront inclus comme strates, on peut définir un seuil en posant que seules les secteurs d’activité qui représentent au moins 1% de la production seront choisis. La méthode du seuil d’inclusion peut aussi être utilisée pour un autre aspect de l’échantillonnage, à savoir la sélection des produits représentatifs dans un établissement: si, par exemple, quatre prix doivent être relevés dans l’établissement sélectionné, les quatre produits les plus vendus peuvent être choisis.

5.33 L’échantillonnage fondé sur un seuil d’inclusion n’est pas identique au tirage aléatoire. Les variances d’échantillonnage provenant d’échantillons fondés sur un seuil d’inclusion risquent de ne pas être pertinentes, car l’échantillon n’est pas nécessairement représentatif de la population de l’indice. Les offices de statistique devront s’efforcer en particulier de mesurer le biais dû aux petites entreprises afin de calculer l’erreur quadratique moyenne et d’obtenir une mesure complète de l’erreur d’échantillonnage.

D.1.3 Stratification multiple

5.34 Une autre méthode consiste à utiliser des échantillons stratifiés où diverses classes d’établissements sont tirées séparément. Il est souvent utile d’établir trois ou quatre strates selon la taille, en distinguant par exemple les établissements de taille élevée, moyenne et petite, chaque strate ayant un taux d’échantillonnage différent. Ainsi, les établissements de grande taille (sur la base du chiffre d’affaires ou de l’emploi) pourraient être tous inclus avec certitude dans l’échantillon, ceux de taille moyenne avoir 25% de chances (1 sur 4) d’y figurer et les plus petits 2% de chances (1 sur 50) seulement.

D.2 Bases de sondage

5.35 Que l’échantillon soit sélectionné à l’aide de techniques de tirage aléatoire ou non aléatoire, il n’en faut pas moins définir l’univers (la population) à échantillonner; en d’autres termes, il faut établir une base de sondage. Dans la plupart des pays, la population peut être définie à partir de diverses listes d’entreprises (registres de commerce) établies à des fins administratives. Toutefois, ces registres ne constitueront probablement pas une base de sondage idéale pour l’IPP et devront être manipulés avant d’être utilisés. Mais il est probable aussi que les registres de commerce seront aussi la base de sondage pour les recensements officiels ou les enquêtes sur la production, auquel cas cette manipulation aura été opérée en partie. Les résultats des recensements et enquêtes auront aussi été utilisés pour mettre à jour et améliorer les registres de commerce.

5.36 La base de sondage idéale

  • est une liste complète de toutes les unités (productrices et exportatrices) admissibles pour la région géographique, les secteurs d’activité ou les produits couverts.

5.37 Les registres sont en général le sous-produit d’un système administratif tel que le dispositif de recouvrement des cotisations de sécurité sociale. Des listes peuvent aussi être établies à partir de comptes bancaires, par exemple. En général, ces listes contiennent au minimum des informations sur la localisation géographique et la taille (chiffre d’affaires ou nombre d’employés), mais il est possible qu’elles n’indiquent pas l’activité principale d’une entreprise, ni ses activités d’exportation. Il se peut que des listes supplémentaires soient nécessaires lorsque la couverture se révèle insuffisante. Au Royaume-Uni, par exemple, on établit un fichier d’adresse des sociétés de construction distinct du registre de commerce principal, car la construction est considérée comme un domaine particulier. Aux États-Unis, les listes de logement qui figurent dans les recensements de la population sont complétées par des données sur les nouvelles constructions extraites des registres des permis de construire. De même, des informations sur la localisation des magasins et la valeur des dépenses peuvent être recueillies, aux fins de l’IPC, dans le cadre de l’enquête sur le budget des ménages ou dans une enquête distincte sur les points d’achat.

  • est mise à jour instantanément, avec toutes les créations et disparitions d’unités, et tous les changements d’adresse, de numéro de télécopieur, etc.

5.38 La mise à jour d’un registre mobilise des ressources considérables. En général, les informations sur les unités de grande taille sont plus à jour que celles qui concernent les petites unités. Cela pose un problème particulier en période de changement des structures économiques, lorsque certains secteurs d’activité ou zones résidentielles se développent et que de nouvelles unités apparaissent, parfois en grandes quantités. Si les unités ne sont pas éliminées de la base de sondage lorsqu’elles n’existent plus, elles risquent d’être sélectionnées pour faire partie de l’échantillon. Il faut tenir compte de ce risque lorsque la taille des échantillons est définie. Par ailleurs, une erreur fréquente dans l’échantillonnage systématique consiste à remplacer une unité disparue qui est incluse dans l’échantillon par l’unité suivante dans la liste; il convient d’éviter cette pratique, car la probabilité de sélection de cette unité suivante est accrue. L’intervalle d’échantillonnage doit être maintenu et les unités qui ont disparu doivent simplement être omises.

  • contient certains champs pour chaque unité, ce qui permet au besoin de procéder à un tri dans la liste ou à une stratification.

5.39 Par exemple, la classification des secteurs d’activité au niveau à quatre chiffres de la CITI et les informations sur la valeur de la production seraient maintenues aux fins de l’IPP—dans l’idéal, pour chaque bien, au niveau à six chiffres de la Classification des produits associée aux activités (CPA). Ces informations seraient mises à jour chaque année.

5.40 Les listes établies principalement aux fins du recouvrement des impôts contiennent probablement des informations au sujet des valeurs sur lesquelles l’impôt est perçu, telles que la valeur ajoutée, les bénéfices ou les ventes. Les listes établies pour la sécurité sociale donneront quant à elles des informations en matière d’effectifs, de masse salariale, etc. Dans les pays où les enquêtes sur la production ou les recensements sont effectués aux fins de la comptabilité nationale, les registres de commerce peuvent aussi contenir des informations sur la production et la consommation intermédiaire. Au Royaume-Uni, des informations détaillées sur la valeur de la production (au niveau à neuf chiffres) sont recueillies chaque année auprès d’un échantillon d’entreprises, conformément aux règles de l’UE (PRODCOM), et ces informations sont consignées dans le registre (pour les entreprises figurant dans l’échantillon uniquement).

  • recense chaque unité uniquement au niveau institutionnel correct.

5.41 Dans la pratique, il arrive que certaines unités soient mentionnées plus d’une fois et que d’autres soient regroupées sous un seul nom. Dans l’idéal, les entreprises et leurs structures devraient être identifiées séparément de façon à présenter, pour chacun des établissements correspondants, des informations distinctes sur la classification et la stratification. Si ces informations ne sont pas immédiatement disponibles dans le registre de commerce, des étapes ou des enquêtes supplémentaires seront peut-être nécessaires pour les recueillir dans le cadre du processus d’amélioration de la base de sondage.

D.3 Structure de l’échantillon

5.42 La structure de l’échantillon dépendra probablement de la réponse apportée à ces deux questions: les statistiques par secteur d’activité ou par région des enquêtes sur les prix sont-elles ou non considérées comme plus prioritaires que les statistiques par produits ou par sous-groupes de la population et quelles informations figurent dans la base de sondage?

5.43 Examinons la structure de l’IPP à l’aide de l’exemple suivant:

  • Nous demandons des IPP pour les secteurs d’activité (CITI quatre chiffres) et des IPP pour les produits (CPA à six chiffres).

  • Notre nomenclature des produits est alignée sur notre système de classification des secteurs d’activité de façon à ce que chaque produit se rattache à un seul secteur d’activité.

  • Certains établissements produisent une série de produits qui se rattachent à plus d’un secteur d’activité.

5.44 La première étape de ce processus peut consister à sélectionner les secteurs d’activité et les produits qui seront représentés dans l’IPP. Dans la plupart des pays, il existe des produits ou des secteurs d’activité dont la production ou les ventes sont extrêmement faibles—et représentent moins de 0,02% de la production ou des ventes dans un secteur comme celui de la fabrication (si ce n’est pas le cas, tous les produits et secteurs d’activité pourraient être inclus dans l’estimation.) On peut utiliser un seuil d’inclusion lorsque les secteurs d’activité et produits qui se situent au-dessous du seuil (dans notre exemple, 0,02% des ventes) sont exclus de l’échantillon de secteurs d’activité ou de produits, mais leur poids est affecté à une autre strate étroitement liée ou distribué sur plusieurs autres strates. Une base de sondage est ensuite établie pour chaque secteur d’activité et produit.

5.45 L’office de statistique doit passer en revue les secteurs d’activité qui se situent au-dessous du seuil d’inclusion et décider si des secteurs d’activité ou produits traditionnellement importants doivent être inclus. Les nouveaux secteurs d’activité dont l’importance devrait croître peuvent aussi être inclus, car ils finiront par dépasser le seuil d’inclusion. Enfin, pour les secteurs d’activité non sélectionnés, l’office doit déterminer s’il existe des combinaisons logiques qui permettraient d’atteindre le seuil d’inclusion. Par exemple, les secteurs d’activité codes CITI 3118 (usines et raffineries de sucre) et 3119 (fabrication de cacao, chocolat et sucreries) se situent peut-être au-dessous du seuil, mais pourraient le dépasser s’ils étaient combinés. On pourrait donc créer un secteur d’activité combiné (3118, 9, fabrication de sucre, cacao et chocolat)4.

5.46 Pour établir des IPP par secteur d’activité, il faut classer chaque établissement selon un code CITI à quatre chiffres en fonction de son activité principale, puis tirer un échantillon d’établissement pour chaque code. On sélectionne les produits et transactions dont les prix seront relevés auprès de chaque établissement de l’échantillon, qui sont ensuite pondérés de façon à obtenir les IPP par secteur d’activité.

5.47 Pour établir des IPP par produit, il faut disposer de données sur la production ou les ventes pour chaque établissement et chacun des produits à six chiffres qu’il fabrique, ce qui permet de dresser une liste de tous les producteurs pour chaque produit à six chiffres. À partir de chaque liste, on sélectionne des transactions qui sont ensuite pondérées de façon à obtenir les IPP par produit.

5.48 La gestion en parallèle de deux listes et de deux échantillons, comme décrit ci-dessus, serait évidemment inefficace et pesante pour les entreprises, et exigerait que l’on dispose d’un grand nombre de données sur les produits au début du processus. C’est pourquoi, dans la pratique, on adopte en général une solution de compromis. Dans des pays comme le Royaume-Uni par exemple, où l’on dispose de données détaillées sur les produits (au moins pour une sous-population) et où les utilisateurs accordent de l’importance aux IPP par produit, les établissements sont repris sous les codes produits et échantillonnés pour donner des IPP par produit, lesquels sont ensuite pondérés ensemble pour donner des IPP par secteur d’activité. Cette méthode ne tient pas compte du fait que le comportement des entreprises ne cadre pas forcément selon l’alignement des produits sur les secteurs d’activité—point iii) au paragraphe 5.43; en d’autres termes, il arrive que des établissements classés dans un secteur d’activité (A) produisent (du fait d’activités secondaires) des produits relevant d’un secteur d’activité différent (B). Les prix de ces produits secondaires doivent être inclus dans l’IPP du secteur d’activité dans lequel l’établissement est classé (A), bien que le code produit apparaisse ailleurs (B).

5.49 Un compromis consiste à utiliser un échantillonnage à deux degrés5: la base est stratifiée d’abord par le secteur d’activité à quatre chiffres, puis par taille dans chaque secteur d’activité. Des échantillons sont ensuite sélectionnés pour chaque strate, et des échantillons de produits sont tirés à partir des établissements sélectionnés. Chacune des transactions sélectionnées doit alors être classée sous un code produit, et des IPP par produit peuvent être établis en utilisant tous les prix de chaque produit, quel que soit le secteur d’activité dans lequel les établissements sont classés. En choisissant ce type d’échantillonnage à deux degrés, on renonce en partie à l’exactitude des IPP par produit. C’est la structure employée aux États-Unis.

D.3.1 Unités de formation des prix

5.50 Il peut être utile, et plus efficace, de regrouper les unités élémentaires de la base de sondage en unités de formation des prix6. Une unité de formation des prix est une entité dont les niveaux et variations de prix sont plus ou moins identiques (parfaitement corrélés). Ainsi, plusieurs établissements détenus par une seule entreprise peuvent constituer un centre de maximisation des profits opérant sous le même régime de détermination des prix, et constituent une «grappe» ou unité de formation des prix. Si l’on utilise un échantillonnage à deux étapes ayant pour principales strates les secteurs d’activité, les établissements seront alors classés par secteur d’activité, puis regroupés au sein des secteurs d’activité.

D.4 Stratification

5.51 Selon un principe bien connu de l’échantillonnage, la stratification en segments pour lesquels la dispersion des variations de prix est plus faible (plus homogène) que la dispersion globale tend à accroître l’efficience de l’échantillon en réduisant la variance.

5.52 Ainsi, dans l’échantillon à deux phases décrit ci-dessus, la liste des unités de formation des prix est d’abord stratifiée par secteur d’activité (avec le code CITI à quatre chiffres, par exemple). Chaque strate peut encore être stratifiée selon des variables appropriées pour le secteur d’activité en question. La variante idéale pour la stratification est la valeur à mesurer dans l’enquête—c’est-à-dire la variation des prix. Dans la pratique, cependant, on utilise des variables représentatives que l’on suppose corrélées avec les variations des prix. Par exemple, la taille de l’unité de production peut entraîner l’emploi des technologies de production différentes, donc des réactions différentes aux variations de la demande ou des coûts des facteurs de production.

5.53 Dans l’IPP américain, l’échantillon est conçu de manière à ce que toutes les unités (produits ou producteurs) dépassant une certaine taille soient incluses. Les autres unités sont tirées avec une probabilité de sélection proportionnelle à leur taille (PPT). Si l’on opte pour l’autre méthode fondée sur l’établissement de strates larges—valeur des ventes comprise entre 1 et 5 million(s), 5 et 10 millions, etc.—, les unités au sein de chaque strate ont la même chance d’être sélectionnées et, si elles le sont, elles ont une pondération égale. Dans un échantillonnage PPT, une unité qui affiche des ventes de 5 millions aura environ cinq fois plus de chances d’être choisie qu’une unité dont les ventes sont de 1 million. De plus, l’unité incluse dans l’échantillon après une sélection PPT recevra une pondération inverse à sa taille, ce qui représente une autre amélioration par rapport à l’échantillonnage en strates larges.

5.54 Dans l’idéal, la stratification doit être optimisée afin de réduire au minimum les variances d’échantillonnage. Par exemple, le nombre de strates (L) peut être optimisé sur la base d’une équation comme suit

Sy2 est la variance de la variable estimée (y), dans ce cas la variation des prix, n la taille de l’échantillon, et ρ la corrélation entre y et la variable utilisée pour la stratification, dans ce cas une variable de remplacement pour la variation des prix, telle que la production ou les ventes.

D.5 Allocation de l’échantillon

5.55 Comme le volume des ressources disponibles limite toujours la quantité de données pouvant être recueillie, il faut décider comment répartir la collecte des données entre les strates, c’est-à-dire combien d’établissements inclure dans chaque strate et combien de prix relever auprès de chaque établissement. Il est en général plus coûteux d’accroître le nombre d’établissements inclus dans l’échantillon que d’accroître le nombre de prix relevés auprès de chaque établissement, bien que la seule augmentation du nombre de prix ne rehaussera sans doute pas beaucoup l’exactitude de l’indice si la variance au sein de chaque établissement est faible. En règle générale, donc, la contrainte est le nombre d’établissements à inclure dans l’échantillon, et non pas le nombre total de prix relevés.

5.56 Idéalement, l’allocation de l’échantillon est optimisée de manière à maximiser son exactitude sous contrainte de ressources, selon une équation liant la taille de l’échantillon à l’exactitude. Par exemple, la forme la plus simple d’une allocation optimale est de faire en sorte que la fraction échantillonnée (fh) dans une strate (h) soit proportionnelle à l’écart-type Sh dans la strate, et inversement proportionnelle à la racine carrée du coût (ch) de l’inclusion d’une unité de cette strate dans l’échantillon, soit

Les tailles des échantillons sont donc grandes dans les strates plus hétérogènes et moins chères. Souvent, les coûts ne diffèrent pas d’une strate à l’autre, de sorte que l’allocation optimale est ramenée à fh α Sh, c’est-à-dire à l’allocation de Neyman.

5.57 Si des techniques de tirage aléatoire ont été utilisées, il est possible, en théorie, d’estimer des variances à chaque niveau. Prenons les autres structures ci-après comme exemples:

  • i) Seuls des IPP par secteur d’activité sont demandés. La base de sondage est donc stratifiée par code CITI à quatre chiffres puis par taille, et l’on utilise un échantillonnage PPT en deux phases afin de sélectionner des établissements sous chaque strate, puis des transactions pour chaque établissement.

5.58 La variance de chaque IPP établi pour un secteur d’activité donné dépendra de la variance entre les établissements de ce secteur (inter-établissements) et de la variance au sein de chaque établissement inclus dans l’échantillon (intra-établissement). Comme la deuxième phase de l’échantillonnage ne stratifie pas la base des transactions de chaque établissement par produit, la variance intra-établissement sera sans doute relativement élevée, surtout si le secteur produit une large gamme de produits. Dans ce cas, un modèle d’optimisation allouera le nombre total d’établissements à échantillonner entre les différents secteurs d’activité et types de taille, selon la variance interétablissements dans chaque strate. Il est probable que le modèle recommandera de relever un grand nombre de prix auprès de chaque établissement, et en particulier auprès de ceux qui affichent une variance interne élevée.

  • ii) Seuls des IPP par produit sont demandés. La base est donc stratifiée par code produit à six chiffres et l’on utilise un échantillonnage PPT à deux phases afin de sélectionner des établissements pour chaque code, puis des transactions pour chaque établissement.

5.59 De nouveau, la variance de chaque IPP dépendra de la variance entre les établissements produisant un produit et de la variance au sein de chaque établissement de l’échantillon. La variance intra-établissement peut être due aux différences de variété ou de modalités des transactions, mais elle sera probablement relativement faible par rapport à la variance interétablissements. Donc, un modèle d’optimisation allouera l’échantillon d’établissements en proportion de la variance dans chaque strate, mais recommandera de ne relever qu’un nombre de prix limité pour chaque produit auprès de chaque établissement.

  • iii) Des IPP par secteur d’activitéetde produit sont demandés. La base est donc stratifiée par code CITI à quatre chiffres puis par taille, et l’on utilise un échantillonnage PPT à deux phases afin de sélectionner des établissements pour chaque rubrique, puis des transactions pour chaque établissement. Les transactions au sein de chaque établissement sont stratifiées par code produit.

5.60 Le calcul des variances des IPP par secteur d’activité et de produit étant complexe, il en va de même pour l’algorithme d’optimisation. Il existe des variances entre les établissements dans chaque secteur d’activité, et au sein de chaque strate de produits dans chaque établissement de l’échantillon.

5.61 Les exemples ci-dessus reposent sur l’hypothèse que des techniques de tirage aléatoire sont utilisées et que des variances peuvent donc être calculées. Cependant, dans les enquêtes par sondage, on suppose en général qu’il existe très peu d’informations sur la distribution de fréquences des mesures de l’échantillon. Cela signifie que, dans la pratique, l’optimisation s’effectue souvent à l’aide d’informations disparates appliquées à des modèles d’optimisation plus ou moins formels. Les informations disponibles peuvent concerner:

  • la taille possible de l’échantillon compte tenu des ressources disponibles;

  • le nombre d’unités dans la base de sondage de chaque secteur d’activité;

  • les données économiques relatives à chaque secteur d’activité, c’est-à-dire la valeur de la production, la composition par entreprise et par produit, la dispersion des produits, les mécanismes de détermination des prix, etc.;

  • quels IPP doivent être publiés—pour certains produits ou secteurs d’activité, il faut parfois utiliser des échantillons plus vastes que ceux établis à l’aide de méthodes empiriques simples si l’on veut publier les IPP à un niveau détaillé sans risquer de contrevenir aux directives en matière de confidentialité;

  • les taux de réponse.

5.62 Souvent, l’objectif est simplement d’établir des indices par secteur d’activité d’un degré d’exactitude comparable et de publier une quantité raisonnable de détails sur les produits. Quant au nombre de prix recueillis auprès de chaque établissement, il faut recourir parfois à une règle générale, en posant par exemple que le nombre moyen de prix doit être de 4 à 5 prix et qu’aucun établissement ne doit en fournir plus de 15 ou 20.

E. Exemple de choix d’un échantillon et des établissements

5.63 Toutes les étapes précédentes de la conception doivent avoir été menées à bien pour que l’on puisse choisir l’échantillon. Des décisions ont notamment été prises quant aux techniques d’échantillonnage à utiliser à chaque étape du processus. Supposons, pour prendre un exemple simple, que le secteur manufacturier ait été choisi comme premier secteur à inclure dans l’IPP. (Les industries extractives, l’agriculture, les services publics, les transports, etc., peuvent être ajoutés ultérieurement.) À cet effet, un recensement récent de l’industrie manufacturière ou des établissements donne une série d’informations sur ces derniers: secteur d’activité, production, ventes, raison sociale, localisation. Les secteurs d’activité au niveau du code CITI à quatre chiffres sont sélectionnés à l’aide d’une technique d’échantillonnage fondé sur un seuil d’inclusion. Tous les secteurs d’activité dont la production (les ventes) est supérieure à 0,02% de la production manufacturière totale sont retenus. (Le seuil d’inclusion—0,02%—est déterminé par le niveau d’activité économique jugé significatif dans le pays. Si le nombre de secteurs d’activité est trop élevé par rapport aux ressources disponibles, il peut être nécessaire de relever le seuil d’inclusion.)

5.64 En outre, dans un assez grand nombre de secteurs d’activité, la production est concentrée sur quelques grandes entreprises seulement, alors qu’elle est plus dispersée dans d’autres: il serait donc utile de stratifier les secteurs d’activité selon la taille des entreprises. Dans les secteurs d’activité où la production est très concentrée sur quelques grandes entreprises (ceux, par exemple, où trois entreprises représentent 90% de la production), les grandes entreprises sont sélectionnées. Dans les secteurs d’activité où la concentration est moins forte, les grandes entreprises pourraient être sélectionnées avec certitude (c’est-à-dire avec une probabilité de 1,0), tandis qu’un échantillon de petites entreprises serait sélectionné à l’aide de techniques de tirage aléatoire (par exemple, par tirage aléatoire PPT comme nous le verrons décrit plus loin). En règle générale, le nombre d’unités d’échantillonnage alloué aux petites entreprises devrait augmenter à mesure que le ratio de concentration (pourcentage des grandes entreprises dans la production totale) diminue. Ainsi, un échantillon de quatre unités pour les établissements pourrait être adéquat dans les secteurs d’activité dont le ratio de concentration est de 70%, par exemple, mais le nombre d’unités pourrait être doublé pour les secteurs dont le ratio de concentration est inférieur à 50%. Ce processus exige que l’on assigne des pondérations appropriées à chacune des unités sélectionnées. Pour les unités sélectionnées avec certitude, cette pondération serait la production (les ventes); pour les autres, ce serait l’intervalle d’échantillonnage (voir l’exemple ci-dessous).

5.65 À ce stade, la base est stratifiée, les nombres d’unités d’échantillonnage ont été alloués et la technique d’échantillonnage est déterminée. Il reste en général trois phases à accomplir pour sélectionner l’échantillon:

  • i) sélectionner les établissements;

  • ii) obtenir la collaboration des établissements;

  • iii) sélectionner les transactions.

E.1 Sélectionner les établissements

5.66 La base de sondage des établissements est stratifiée par code de secteur d’activité à quatre chiffres et par taille en vue de procéder à un tirage aléatoire (on pourrait aussi recourir à un échantillonnage raisonné, et certaines des questions que cela soulève sont abordées dans la section intitulée «Sélectionner les produits et transactions dans l’établissement»). Dans le cas présent, on peut utiliser un échantillonnage systématique, un tirage PPT ou une combinaison des deux. Une application courante du tirage PPT consiste à attribuer une probabilité de 100% aux unités de la strate la plus large (comme il est dit plus haut), puis à opérer, dans chacune des autres strates, une sélection aléatoire à probabilité de sélection proportionnelle à la taille.

5.67 Les États-Unis utilisent une combinaison d’échantillonnage systématique et de tirage PPT, et établissent pour ce faire une base de strates selon la taille et des totaux cumulés. Supposons, par exemple, que nous connaissons le coût moyen par établissement du relevé de données sur les prix et que ce coût ne varie pas sensiblement selon le secteur d’activité. Sur cette base, nous déterminons que le nombre d’établissements dans l’échantillon sera de 400 (coût total de la collecte des données divisé par coût moyen par établissement). Si le secteur d’activité pour lequel nous établissons l’échantillon représente 1,0% de la production totale du secteur, nous lui allouons quatre établissements (400 x 0,01), et nous pouvons établir l’échantillon à partir de la base de sondage. Supposons que les informations qui figurent ci-dessous au tableau 5.1 sont disponibles dans cette base.

Tableau 5.1.Première étape dans la sélection de l’échantillon d’établissements
Identificateur de l’établissementTaille (valeur de la production, en millions)Taille cumuléePourcentage cumulé
E20020034
C10030052
D8038066
B6044076
G5049084
F4053091
H3056097
A2058010

L’intervalle d’échantillonnage est calculé:

5.68 Tous les établissements dont la production a une valeur supérieure à l’intervalle d’échantillonnage (145) reçoivent une probabilité de sélection de 100% et sont appelés «unités automatiquement sélectionnées» (établissement E). On retire ces unités sélectionnées de la base, on recalcule la taille cumulée, puis un nouvel intervalle d’échantillonnage, à partir de cette base réduite et du nombre restant d’unités à sélectionner (voir tableau 5.2).

Tableau 5.2.Deuxième étape dans la sélection de l’échantillon d’établissements
Identificateur de l’établissementTaille (valeur de la production, en millions)Taille cumulée
C100100
D80180
B60240
G50290
F40330
H30360
A20380

5.69 S’il y a de nouvelles unités automatiquement sélectionnées dans l’échantillon restant, elles sont sorties de celui-ci (ce n’est pas le cas ici) et le processus est répété jusqu’à ce que l’on obtienne un intervalle d’échantillonnage sans unités automatiquement sélectionnées. Celui-ci est alors utilisé pour un échantillonnage systématique. L’échantillon restant est classé (du plus grand au plus petit, tableau 5.3), un nombre aléatoire entre 0 et 1 est généré et l’intervalle d’échantillonnage est multiplié par ce nombre aléatoire pour donner le point de départ de la grille d’échantillonnage.

Tableau 5.3.Troisième étape dans la sélection de l’échantillon d’établissements
Identificateur de l’établissementTaille (valeur de la production, en millions)Taille cumulée
C100100
D80180
B60240
G50290
F40330
H30360
A20380

Nombre aléatoire = 0,34128

Point de départ: 0,34128 x 127 = 43

Grille d’échantillonnage:

43(43 + 127)(43 + 127 + 127)
43170297

Donc, les établissements C, D et F sont sélectionnés, si bien que l’échantillon total comprend C, D, E et F.

5.70 Chaque établissement se verrait affecter les pondérations suivantes. L’établissement E aurait une pondération de 200; il a été choisi avec certitude et il conservera la même pondération parce qu’il se représente lui-même dans l’échantillon. Les établissements C, D et F recevront une pondération de 127, car ils représentent tous les autres établissements non repris dans l’échantillon. Le total de leurs pondérations doit donc être celui de tous les établissements qui ne sont pas choisis avec certitude, soit 380 dans cet exemple. Pour plus de détails sur la source des pondérations et les méthodes d’affectation proportionnelle des pondérations au sein des établissements, on se reportera, aux sections D et E du chapitre 4.

5.71 Certains pays choisissent une autre solution, qui consiste à utiliser des échantillons fondés sur un seuil d’inclusion pour atteindre un certain niveau de production ou de vente. On peut souhaiter par exemple que l’échantillon représente 70% de la production dans chaque secteur d’activité: on utilise alors un échantillon fondé sur un seuil d’inclusion. Les établissements retenus dans la base de sondage du secteur d’activité sont classés selon leur production (de la plus élevée à la plus faible). On calcule le pourcentage de la production de chaque établissement dans le total du secteur d’activité, puis le pourcentage cumulé. Un seuil d’inclusion de 70% est établi: tous les établissements situés au-dessous de ce seuil dans le classement cumulé sont éliminés, et l’échantillon se limite aux établissements restants. Cette méthode garantit que l’échantillon inclut les grands établissements.

5.72 Dans l’exemple précédent, si l’on avait utilisé la méthode du seuil d’inclusion, les établissements E, C, D et B auraient été sélectionnés, car leur pourcentage cumulé de la production est de 76.

E.2 Obtenir la collaboration des établissements

5.73 Il faut obtenir la collaboration du personnel des établissements sélectionnés (surtout si la participation à l’enquête est facultative), de manière à ce que les données soient de bonne qualité. Il est fortement recommandé que le statisticien rende visite personnellement à chaque établissement pour expliquer l’objectif et la fonction de l’enquête sur les prix et pour sélectionner l’échantillon de transactions ou de variétés dont les prix seront suivis. Il peut aussi profiter de cette visite pour recueillir des données supplémentaires qui serviront à pondérer les transactions. Il est plus efficace d’effectuer toutes ces tâches lors de visites personnelles que de procéder par appels téléphoniques ou envois de questionnaires par la poste.

E.3 Sélectionner les produits et transactions dans l’établissement

E.3.1 Tirage aléatoire fondé sur un seuil d’inclusion

5.74 Le tirage aléatoire peut être utilisé aussi pour sélectionner produits et transactions à partir des données des registres des établissements. Sur place, cependant, le répondant n’est pas toujours disposé à fournir des données détaillées pour la sélection des produits et transactions. On peut alors lui demander de dresser une liste des produits et de donner une estimation du pourcentage que chaque produit représente dans le total des ventes. Ces informations peuvent être utilisées pour sélectionner l’échantillon en classant les produits du plus élevé au plus bas, puis en les sélectionnant à l’aide des techniques décrites ci-dessus.

5.75 Si le répondant n’est pas disposé à fournir ces pourcentages par produit, une autre solution consiste à lui demander de classer les produits par ordre d’importance, et d’estimer des pourcentages à partir de ce classement. Prenons les informations du tableau 5.4, qui sont fournies pour un établissement fabriquant huit produits. Le répondant a classé les produits par ordre d’importance. L’importance de chaque produit peut alors être déduite en inversant l’ordre de ce classement: par exemple, le produit G a une importance 5, le produit H une importance 4, etc. On estime ensuite le pourcentage des ventes en utilisant chaque importance comme un pourcentage du total des importances qui ont été affectées. Supposons que le plan de sondage indique que l’on souhaite retenir trois produits pour cet établissement. Ces pourcentages peuvent être utilisés pour sélectionner un échantillon de produits à l’aide de la méthode de tirage aléatoire décrite ci-dessus ou de la méthode de tirage fondé sur un seuil d’inclusion.

Tableau 5.4.Sélection des produits à l’aide de la méthode du classement
Produit-ClassementImportancePourcentage estiméPourcentage cumulé
G153333
H242760
I332080
J421393
K517100
Total15100

5.76 Si l’on recourt au tirage aléatoire, l’intervalle d’échantillonnage est d’abord calculé:

intervalle d’échantillonnage = 100/3 = 33.

On génère un nombre aléatoire pour déterminer le point de départ et la grille d’échantillonnage:

nombre aléatoire = 0,45814

point de départ = 0,45814(33) = 15

grille d’échantillonnage = 15, 48 (15+33) et 81 (48+33).

Les produits G, H et J seront retenus dans l’échantillon. (On notera que le produit I n’est pas sélectionné parce qu’il se situe au-dessous du troisième intervalle dans la grille d’échantillonnage.)

5.77 Si l’on recourt au tirage fondé sur un seuil d’inclusion, les trois premiers produits (G, H et I) seront sélectionnés, car cette méthode retient les trois produits les plus importants.

5.78 Il faudra aussi recenser des transactions représentatives pour un relevé continu des prix, en demandant au répondant de fournir des informations sur diverses transactions pouvant concerner les produits sélectionnés. Là encore, les données peuvent prendre la forme de valeurs effectives tirées des livres des entreprises, de pourcentages estimés ou de classement. S’il faut deux transactions par produit, on appliquera une méthode identique à celle décrite ci-dessus pour sélectionner ces deux transactions.

5.79 Dans les exemples susmentionnés, si le répondant ne peut fournir aucune information ou déclare que tous les produits ont la même importance, on retient l’hypothèse de probabilité égale. Dans ce cas, chaque produit ou transaction a la même importance (à savoir, 100 divisé par le nombre de produits) et la procédure de sélection se poursuit comme expliqué ci-dessus.

E.3.2 Échantillonnage par choix raisonné

5.80 Comme la sélection reposera dans une large mesure sur le jugement des représentants des établissements qui assisteront à la réunion, il est important que ceux-ci soient compétents et aient un poste de responsabilité dans des départements comme ceux du marketing, des ventes ou de la comptabilité.

5.81 La première étape consiste à opérer une stratification par produits de l’établissement sélectionné pour l’échantillon du secteur d’activité. En règle générale, il est raisonnable d’avoir entre 3 et 10 strates de produits (selon la taille de l’établissement) jugés représentatifs de la production de l’établissement. Il devrait être possible d’obtenir un chiffre de vente ou une estimation pour chaque strate, ou au moins de classer ces strates par taille. Si les exportations représentent plus de 20% des ventes de l’établissement, et si les prix à l’exportation semblent varier différemment des prix intérieurs, l’idéal serait de stratifier aussi les strates de produits entre exportations et marché intérieur. Des prix distincts devraient être relevés pour les exportations et les produits intérieurs, si nécessaire.

5.82 Il faut ensuite choisir une ou deux transactions spécifiques pour chaque strate, en gardant à l’esprit la règle générale selon laquelle le nombre moyen des prix de chaque établissement doit être voisin de 4 ou 5, et qu’aucun établissement ne doit en fournir plus de 15 ou 20 (il peut être nécessaire de combiner les strates si le nombre est trop élevé). L’objectif est de choisir des transactions et des modalités de vente qui représentent une part significative des ventes, qui sont plus ou moins représentatives du reste de la production et qui devraient être encore vendues ou produites lors de futurs relevés des prix.

5.83 Les pondérations de chaque transaction sélectionnée pourraient être déterminées par une allocation proportionnelle de la pondération de l’établissement à chaque produit et transaction sélectionnée. Cette méthode est examinée à la section E du chapitre 4.

E.4 Enregistrement des spécifications des produits

5.84 Une fois les transactions sélectionnées, les caractéristiques qui servent à en fixer le prix doivent être examinées avec soin et consignées sur le formulaire de relevé des prix. (Pour plus de détails sur l’enregistrement des spécifications de produits, voir le chapitre 6.) Parmi ces caractéristiques, on citera par exemple:

Spécifications des produits:

  • Type de produit;

  • Marque ou numéro de modèle;

  • Principales caractéristiques qui servent à en fixer le prix—taille, poids, puissance, etc.

Spécifications des transactions pour l’IPP:

  • Type d’acheteur—exportateur, grossiste, détaillant, fabricant, administration publique;

  • Type de contrat—livraisons uniques ou multiples, commande, contrat annuel, volume convenu;

  • Unité de mesure—par unité, mètre, tonne;

  • Taille du chargement—nombre d’unités;

  • Type de livraison—franco à bord, vente avec ou sans livraison au client;

  • Type de prix—moyen, catalogue, franco à bord, net de remise;

  • Type de remise—saisonnière, volume, espèces, compétitive, professionnelle.

F. Mise à jour et rotation des échantillons

5.85 Les enquêtes sur les prix sont des enquêtes sur panel en ce sens que les données sont collectées auprès des mêmes établissements à plusieurs reprises. Les problèmes qui se posent en général avec ces enquêtes sont les suivants: le panel tend à s’appauvrir car des établissements cessent de produire, il devient de moins en moins représentatif au fil du temps au fur et à mesure que la population change, et certains établissements ont parfois du mal à supporter le poids de l’enquête et quittent le panel ou fournissent des données de mauvaise qualité. Tous ces problèmes entraînent des biais.

5.86 Une méthode largement utilisée pour atténuer certains de ces problèmes consiste à limiter la période pendant laquelle les établissements font partie du panel en recourant à une sorte de rotation7. Celle-ci présente deux avantages: i) elle assure que la plupart des producteurs ne participent à l’enquête que durant une période limitée, donc que la charge occasionnée est répartie entre les entreprises, et ii) elle aide à atténuer les problèmes dus au fait que l’échantillon s’appauvrit et n’est pas représentatif des tendances actuelles. L’inclusion de nouveaux établissements assure que des nouveaux produits sont représentés dans les enquêtes sur les prix.

F.1 Méthodes de rotation des échantillons

5.87 La rotation des échantillons a évidemment un coût, puisqu’il faut inclure de nouveaux participants. Plusieurs options sont possibles. On peut fixer un taux de rotation, en posant par exemple que l’ensemble du panel doit être modifié tous les cinq ans. Le taux de rotation annuel sera de 20% et, pour mener à bien cette rotation, on pourra diviser le secteur d’activité en cinq groupes et faire appel à un groupe différent chaque année. On peut aussi décider de remplacer chaque année 20% des répondants, répartis parmi tous les secteurs d’activité. Le cycle de rotation d’un établissement peut aussi être fonction de sa taille, de manière à ce que les grands établissements restent dans l’échantillon pendant plus de cinq ans, et les petits pendant moins de cinq ans.

5.88 Si la rotation se fait par groupe de secteurs d’activité, groupe de produits ou emplacement géographique, c’est une bonne occasion de réexaminer le plan de sondage et de réaffecter ou sélectionner de nouveaux établissements, si nécessaire. La rotation et la révision des échantillons sont particulièrement adaptées aux systèmes d’indices-chaînes annuels où la structure et la pondération des produits peuvent être mises à jour chaque année8.

F.2 Procédures à suivre pour mettre en place un nouvel échantillon d’établissements

5.89 Les procédures utilisées pour se doter d’un nouvel échantillon d’établissements sont similaires à la méthode du chevauchement utilisée pour lier des observations de prix des produits remplaçants ou renouveler la structure de produits lors de la mise à jour des pondérations. Supposons que la stratégie de rotation adoptée consiste à remplacer 20% des secteurs d’activité. Si l’échantillon de l’IPP comprend 100 secteurs d’activité à quatre chiffres, l’office de statistique remplacera chaque année les échantillons dans 20 secteurs d’activité. Pour chacun des secteurs concernés, il faut disposer d’une base de sondage pour sélectionner un nouvel échantillon d’établissements. Il faut alors obtenir la collaboration des établissements, comme il est expliqué à la section E.2.

5.90 Le nouvel échantillon de secteurs d’activité aura de nouvelles pondérations pour les établissements, produits et transactions sélectionnés. Le nouvel échantillon et les nouvelles pondérations seront utilisés directement pour remplacer l’ancien échantillon. Pendant le même mois, la personne chargée de la collecte des données devra recueillir des observations de prix pour l’ancien et le nouvel échantillon. Les prix de l’ancien échantillon seront utilisés pour calculer l’indice de la manière habituelle, tandis que le nouvel échantillon fournira de nouveaux prix de référence pour calculer l’indice de la période suivante à partir des nouvelles pondérations. Supposons, par exemple, que pour un secteur d’activité donné, l’ancien échantillon comprend 5 établissements et 20 observations de prix, contre 8 et 32 pour le nouvel échantillon. Les deux échantillons, soit 13 établissements et 52 observations de prix (en supposant qu’aucun établissement de l’ancien échantillon ne figure aussi dans le nouveau) sont recueillis pendant le mois de chevauchement. Les 20 observations de l’ancien échantillon sont utilisées pour calculer l’indice de la période en cours, et les 32 observations de prix pour le nouvel échantillon fournissent des données de base pour le calcul des nouveaux prix de référence dans le nouvel échantillon.

5.91 La formule d’indice utilisée influera sur le rapport entre la période de référence des pondérations et la période de référence des prix de référence. Si l’office de statistique établit un indice de Lowe ou de Laspeyres, il utilisera le premier ensemble de prix recueilli dans le nouvel échantillon pour établir les prix de référence pour l’indice. La période de référence des prix de référence et celle des pondérations doivent correspondre si l’on utilise un indice de Laspeyres. Si la période de référence des pondérations pour l’établissement et les pondérations des produits est 2000, par exemple, et que les prix relevés pour le nouvel échantillon sont ceux de juin 2003, les nouveaux prix devront être estimés rétrospectivement de manière à obtenir la moyenne pour 2000. Pour ce faire, on applique la variation de prix pour le secteur d’activité entre juin 2003 et la moyenne pour 2000 aux observations des prix de juin 2003. Par exemple, si les prix dans le secteur d’activité ont augmenté de 10% entre l’indice moyen pour 2000 et l’indice de juin 2003, chaque observation de prix est déflatée par le facteur 1,109. Ce calcul permet de corriger les nouvelles observations des prix en fonction de la variation moyenne des prix dans le secteur d’activité entre la période de référence des observations et la période en cours.

5.92 Prenons un exemple similaire pour l’indice de Lowe. Supposons à nouveau que la période de référence des pondérations est 2000 et que la période de référence des prix de référence est décembre 2001. Dans ce cas, l’office de statistique devra mettre à jour les pondérations en fonction des variations des prix entre la moyenne pour 2000 et décembre 2001. L’indice des prix dans le secteur d’activité est utilisé pour calculer la variation des prix entre 2000 et décembre 2001, et cette variation des prix est appliquée à toutes les pondérations. Les prix de juin 2003 doivent ensuite être ajustés rétrospectivement à décembre 2001. L’indice des prix dans le secteur d’activité est utilisé pour mesurer la variation des prix entre décembre 2001 et juin 2003, et ce rapport de prix sert ensuite à actualiser les observations de prix de juin 203 pour obtenir les prix de référence de décembre 200110.

5.93 Le processus est beaucoup plus simple si l’office de statistique utilise un indice de Young, car les nouvelles pondérations sont utilisées directement dans le calcul de l’indice à l’aide des nouveaux prix, sans aucun ajustement (pour un examen des indices de Lowe et de Young, voir les sections D.2 et D.3 du chapitre 15.)

5.94 L’utilisation de ces procédures assure que les nouveaux prix et les nouvelles pondérations sont conformes à la formule d’indice pour chaque secteur d’activité à quatre chiffres sélectionné pour la rotation. Il se peut que la période de référence des pondérations ne soit pas la même pour les indices de niveau supérieur que pour les secteurs d’activité qui font partie de la rotation. Dans la pratique, les pondérations d’agrégation utilisées pour combiner les secteurs d’activité et les produits ont souvent une période de référence des prix différente de celle des groupes de la rotation. Par exemple, les pondérations pour les groupes de secteurs d’activité et de produits utilisées pour produire des indices de niveau supérieur (à trois chiffres, deux chiffres, etc.) pourraient avoir pour date de référence 2000 parce qu’elles sont tirées d’un recensement des établissements organisé cette année-là. La période de référence de l’indice pourrait aussi être 2000 = 100, parce que l’office de statistique a pour politique de modifier la période de référence des indices tous les cinq ans. D’autre part, les pondérations de la base de sondage du secteur d’activité utilisées pour tirer l’échantillon qui fait l’objet d’une rotation pourraient dater de 2001 parce que les pondérations pour les secteurs d’activité soumis à une rotation sont tirées d’une enquête annuelle sur ce secteur (avec, peut-être, un supplément spécial pour les secteurs d’activité qui feront l’objet de la rotation). La période de référence de l’indice des prix pourrait être décembre 2002 parce que les informations sur les prix sont aisément disponibles auprès des répondants.

5.95 Il peut donc y avoir une différence entre la période de référence des prix de référence pour le nouvel échantillon au niveau le plus bas (agrégat élémentaire)—décembre 2002—et la période de référence pour les indices de niveau supérieur—moyenne annuelle pour 2000. Dans de tels cas, la variation des prix par rapport aux indices de niveau inférieur sera utilisée pour rapporter les indices de niveau supérieur à la période actuelle. Par exemple, dans le secteur d’activité 3411 (fabrication de pâte à papier, de papier et de carton), l’indice était de 108,0 en décembre 2002 et de 110,2 en septembre 2003, avec pour période de référence de l’indice 2000 = 100. L’échantillon de 10 établissements et de 40 observations de prix pour ce secteur d’activité a été mis à jour en janvier 2003 en utilisant les prix de référence de décembre 2002. Les indices élémentaires pour les produits de ce secteur d’activité ont pour période de référence des prix de décembre 2002. Pour calculer l’indice du secteur d’activité, l’office statistique devra utiliser la variation de prix par rapport au nouvel échantillon et lier celle-ci au niveau de l’indice de niveau supérieur. Cela peut se faire de deux manières, selon que l’office statistique utilise une formule d’indice des prix directe ou en chaîne (voir chapitre 9, section B.3). Supposons que l’on utilise un indice direct comparant le prix courant pour octobre 2003 au prix de référence en décembre 2002, pour donner un indice des prix de 102,96 (décembre 2002 = 100). Le rapport de prix à long terme (1,0296) est multiplié par l’indice des prix du secteur d’activité 3411 pour décembre 2002 (108,0), ce qui donne un indice de 111,2 pour octobre 2003. Si l’on utilise une formule d’indice en chaîne comparant les prix d’octobre à ceux de septembre, l’indice de niveau inférieur est lié alors à l’indice de niveau supérieur de septembre 2003. Supposons que le rapport des prix d’un mois sur l’autre était de 1,0091 en octobre 2003. L’indice du secteur d’activité 3411 de septembre 2003 (110,2, où 2000 = 100) est multiplié par ce rapport de prix pour donner l’indice de 111,2 d’octobre 2003. Les résultats devraient être les mêmes avec les deux formules. L’avantage de la formule d’indice en chaîne est qu’elle facilite les ajustements de qualité (voir chapitre 7, section C.3.3).

G. Résumé des stratégies d’échantillonnage pour l’IPP

5.96 La mise en œuvre d’une stratégie d’échantillonnage dans l’IPP s’ordonne en plusieurs étapes qui permettent d’obtenir suffisamment d’informations et de concevoir une enquête qui produira des estimations satisfaisantes de la variation des prix compte tenu des ressources disponibles. Les points suivants constituent une séquence logique de ces différentes étapes de l’échantillonnage telles qu’elles sont présentées dans ce chapitre.

  • i) Déterminer les objectifs, les utilisations, la couverture et le budget de l’enquête avant de déterminer les données à recueillir, la périodicité des relevés et le type d’échantillonnage qui sera employé.

5.97 Il est important de décider dès le début du processus si l’on aura besoin de recueillir les variations des prix à la fois pour le secteur d’activité et pour les produits et quel sera le degré d’exactitude requis. Il importe aussi de décider si les indices produits seront mensuels ou trimestriels, car cela détermine le niveau des ressources consacrées au programme. En revanche, si le budget disponible est fixe, il est possible de déterminer la taille des échantillons et la fréquence des relevés sous contrainte de coût, au détriment de l’exactitude.

  • ii) Recenser les sources à utiliser pour établir un plan de sondage et sélectionner les établissements et produits pour les secteurs et branches d’activité couverts.

5.98 Un registre de commerce actualisé assorti de paramètres de sélection appropriés (codes des secteurs d’activité et mesures de la taille, par exemple) peut être utilisé comme point de départ afin d’établir une base de sondage pour certains secteurs d’activité. Bon nombre des sources de données sur les pondérations examinées au chapitre 4 (recensements industriels, enquêtes et fichiers des administrations, par exemple) pourraient aussi être utilisées pour établir une base de sondage.

  • iii) Recourir autant que possible au tirage aléatoire.

5.99 S’il est souhaitable d’utiliser des techniques de tirage aléatoire d’un bout à l’autre du processus de sélection, cela risque de ne pas être toujours possible pour des raisons de coût. La solution peut consister à utiliser l’échantillonnage fondé sur un seuil d’inclusion à certains stades du processus—pour sélectionner des branches d’activité dans un secteur ou des produits dans des groupes importants, par exemple. Des bases de sondage pour chaque branche ou produit peuvent ensuite être établies pour procéder à l’échantillonnage par tirage aléatoire à PPT.

  • iv) Prévoir de multiples niveaux de stratification afin de rendre l’échantillon plus efficient.

5.100 Dans la plupart des cas, trois strates seront identifiées dans l’échantillon—secteur d’activité, produit et établissement. Cependant, l’échantillon pourrait être plus efficient et plus représentatif si l’on utilise des strates supplémentaires, telles que la taille de l’établissement (grande, moyenne ou petite), la région ou l’emplacement géographique (si les tendances des prix diffèrent d’une région à l’autre), et la destination de la production (marchés d’exportation ou marché local, si les tendances des prix diffèrent là aussi). Dans tous les cas où les tendances ou les variations des prix peuvent être différentes, il est bon de prévoir des strates supplémentaires pour l’échantillon.

  • v) L’échantillon de prix doit reposer sur des transactions effectives et les caractéristiques de ces transactions doivent être décrites en détail.

5.101 On utilise fréquemment des prix moyens ou des valeurs unitaires (valeur des ventes divisée par les quantités vendues) comme prix relevés pour l’IPP. Or, ce ne sont pas de véritables prix de transactions puisqu’ils représentent la moyenne d’un certain nombre de transactions pour lesquelles il peut y avoir des différences de qualité ou de prix. Il importe donc de sélectionner un échantillon de transactions dont toutes les caractéristiques qui déterminent le prix sont décrites en détail. Ces prix de transactions et leurs caractéristiques seront ensuite observés dans le temps.

  • vi) Le choix initial des établissements doit être complété par des visites personnelles.

5.102 Le choix initial doit se faire à la suite d’entretiens individuels avec les responsables des établissements afin de sélectionner les produits et transactions effectivement représentatifs. L’objectif de l’enquête et la nécessité d’un relevé continu des prix pour les transactions sélectionnées doivent être expliqués.

  • vii) Les échantillons d’établissements et de produits doivent être tenus à jour de manière à garantir la fiabilité de l’IPP. Un programme de mise à jour des échantillons est nécessaire à cet effet, et leur rotation peut aussi être souhaitable.

Les établissements changent fréquemment leurs produits pour répondre aux conditions du marché. Certains d’entre eux cessent aussi de produire certains biens et d’autres lancent de nouvelles productions. La taille des échantillons doit être maintenue si l’on veut que les estimations des IPP soient exactes. Il faut donc se doter d’un programme visant à maintenir l’échantillon intact et les produits représentatifs de la production actuelle, sur le double plan des biens produits et des établissements qui les produisent.

Les États-Unis estiment la variance pour leur IPC, le Royaume-Uni celle de son IPP. Dans les deux cas, les échantillons ont été établis initialement sans information sur les variances. Les estimations obtenues sont plus élevées que si les variances avaient été connues à l’avance. Une fois ces premières variances calculées, elles peuvent servir à concevoir des échantillons plus efficaces en réallouant les strates de l’échantillon et le nombre d’observations de prix dans chaque strate.

Il existe de nombreux manuels sur la théorie et l’application de l’échantillonnage. Celui de Cochran (1977), disponible partout dans le monde, est souvent utilisé.

Pour une analyse de l’échantillonnage fondé sur un seuil d’inclusion dans l’IPC, voir de Haan, Oppredoes, and Schut (1999).

L’office de statistique peut aussi établir un échantillon au niveau à trois chiffres, en rassemblant tous les secteurs d’activité du niveau inférieur à quatre chiffres dans un seul groupe.

Une distinction est établie entre un échantillonnage à deux degrés, où l’on sélectionne un échantillon d’établissements, puis, à partir de celui-ci, un échantillon de transactions, et un échantillonnage en deux phases, où l’on sélectionne un échantillon d’établissements pour fournir des données détaillées sur la production, puis on utilise cet échantillon comme nouvelle base de sondage. Cette nouvelle base peut être classée et stratifiée de manière beaucoup plus efficace que la base originale grâce aux informations recueillies dans la première phase.

Ce n’est pas une application de la technique appelée échantillonnage en grappes, dans laquelle les unités sont regroupées en grappes, dont un certain nombre est sélectionné et où toutes les unités des grappes sélectionnées sont incluses dans l’échantillon. Dans l’échantillonnage en grappes, ces dernières doivent être hétérogènes (dans leur structure interne) dans les variables de l’enquête, car celles qui sont sélectionnées doivent être représentatives des autres. Ici, le terme grappe est utilisé pour décrire une méthode qui permet d’accroître l’efficience de l’échantillon en regroupant des unités homogènes. À proprement parler, il s’agit de strates.

Dans de nombreux pays, la rotation est limitée aux petites entreprises, pour lesquelles on considère que la participation aux enquêtes constitue une charge considérable. Cela ne doit pas être une règle générale, et la rotation de l’intégralité du panel est encouragée.

La mise à jour annuelle des pondérations n’est pas exigée pour la rotation des échantillons: elle rend simplement le processus un peu plus facile, puisque les pondérations sont déjà mises à jour pour la plupart des niveaux de l’indice. Lorsqu’il n’y a pas de dispositif de mise à jour annuelle, la rotation passe par un système de pondération double—des pondérations fixes aux niveaux d’agrégation plus élevés pour les indices de niveau supérieur, et des pondérations distinctes pour les indices de niveau inférieur mis à jour périodiquement.

L’office de statistique pourrait aussi effectuer ces calculs à partir des informations des indices par produit. Il lui faudrait calculer plus de facteurs de déflation pour les prix de référence—un pour chaque produit dans le secteur d’activité. Ensuite, chaque observation serait déflatée par la variation des prix dans son indice par produit, et non par l’indice de la branche.

Si des indices par produit sont utilisés, les calculs doivent se faire à l’aide des variations de ces indices. Là encore, il s’agira de calculer plus de variations des prix—une pour chaque produit.

    Other Resources Citing This Publication