mercredi 14 septembre 2011

Sondages: L'échantillon national représentatif de la population française n'existe plus !

Je ne sais pas si vous avez remarqué, mais pour donner un semblant de vernis scientifique à leurs sondages, beaucoup d'instituts, la loi les y obligeant, précisent que l'échantillon de populations qui a été sondé par eux est un “échantillon national représentatif de la population française”.

Or cela m'énerve au plus haut degré, car il est impossible, en France, de nos jours, même à un génie mathématique, de constituer un échantillon représentatif de la population française. Il n'entre pas dans mon propos ici de vous bassinez avec la théorie des échantillons statistiques, ni de vous faire un long discours sur les différentes écoles qui s'y réfèrent.

Il suffit de savoir qu'un échantillon représentatif doit être tel que toutes les personnes faisant partie de la population mère ont la même probabilité de faire parti de l'échantillon (définition statistique pure). Hormis cette approche rigoureuse, on peut éventuellement, dans la pratique, limiter la représentativité à une représentativité structurelle qui doit faire en sorte que l'échantillon sondé soit fidèle aux caractéristiques de la “population mère”.

Quoi qu'il en soit, dans les deux cas, il est absolument nécessaire de connaître les moindres détails quantitatifs et qualitatifs de la population de référence, à savoir la « population mère ».

Pour faire simple, c'est un peu comme si vous décidiez de faire un sondage en tirant, dans un sac opaque,10 billes dont vous ignorez, avant le tirage, de quel poids, couleur, matériaux elles sont et la quantité de billes que contient le sac. La seule chose que vous savez c'est qu'il y a des billes dans ce sac.

Alors, imaginez que vous tirez 10 billes rouges.

Pouvez-vous pour autant en conclure que le sac ne contient que des billes rouges? Il se peut pourtant qu'au fond du sac il y ait des billes bleues. Ça n'est qu'en retournant le sac que vous saurez avec certitude, en le constatant visuellement, si votre échantillon représente bine la réalité de la population  de billes contenues dans le sac.

Et si parmi ces 10 billes rouges, quatre sont des agates et les six autres des billes de terre, pouvez-vous honnêtement en conclure que 40 % des billes du sac sont des agates et 60 % des billes du sac son des billes de terre? Non bien sûr puisque vous ne savez pas si il y a REELLEMENT 100 billes dans le sac!

Je pourrais multiplier l'exemple à l'infini. Mais mon propos est de vous faire comprendre l'importance de connaître parfaitement la "population mère" si l'on veut que l'échantillon, sur lequel on va enquêter, soit réellement représentatif.

Or, nos instituts de sondage ont beau prétendre que leur échantillon est représentatif de la population française, il n'en est absolument rien.

Pour la bonne et unique raison qu'à l'heure actuelle, en France, depuis 2004, ce ne sont plus des recensements individuels des habitants de la France- effectués en tête-à-tête, par des agents recenseurs, pendant la même période - qui permettent d'établir avec certitude et précision comment se répartit la population française. Avant 2004, les agents recenseurs pouvaient aisément constater de visu que les renseignements portés sur la feuille de recensement correspondait très éclatement aux dires de la personnes recensées. Ce qui donnait indubitablement une grande fiabilité aux fichiers nationaux de l'INSEE.

Malheureusement, ce;  Comptage minutieux a été abandonné par l'INSEE au profit de sondage et d'estimations statistiques. De fait, il est désormais impossible de savoir à l'unité près comment se répartit la population française, et quelles sont ses caractéristiques. Ce qui implique que la « population mère » de référence de tous les instituts de sondage n'est pas fiable à 100 %.

L'échantillon construit par les organismes de sondages devant refléter les dites caractéristiques de la population réelle, je serais curieuse de savoir par quel miracle, ne connaissant plus la population réelle dans son degré le plus fin, on peut prétendre avoir un échantillon représentatif.

Il serait également intéressant de savoir quel coefficient de pondération est apporté pour corriger cette imprécision au sujet de la « population mère ».

On le voit donc, les sondages - basés actuellement sur un échantillon  d'une population mère dont on ne connaît absolument pas les caractéristiques- ne peuvent absolument pas se prétendre construits sur un échantillon représentatif de la population française.

C'est pourtant ce que faut Brice Teinturier, directeur général délégué de l'Ipsos-France, dans une analyse publiée par le Nouvel Observateur, le 14 septembre.

Pour son plus grand malheur, Brice Teinturier, croyant probablement donner un vernis de sérieux à ses propos, affirme que la technique qu'il utilise pour effectuer des sondages sur la primaire socialiste est “ancienne et largement éprouvé”. Certes, mais il oublie de dire ce que je viens de vous apprendre. La population mère dont est issu l'échantillon sondé n'est pas représentative à 100 % de la population française. Elle ne peut absolument plus l'être:

  • puisqu'il n'y a pas de recensement individuel des français
  • puisqu'on ne sait plus combien il y a réellement d'hommes et de femmes en France,
  • puisqu'on ne sait plus précisément comment se répartissent les âges de la population française,
  • etc..

Il peut essayer tant qu'il veut de noyer cette réalité avec des explications pléthoriques sur la façon de faire le tri parmi les personnes sondées, ça ne change rien au fait qu'on ne sait pas si, dans son échantillon,  il y a trop ou pas assez d'ouvriers, trop ou pas assez de femmes, etc., simplement parce qu’on ne sait pas exactement combien il y a d'ouvriers, de femmes, en France, aujourd'hui, en 2011.

À noter, pour l'anecdote, que Brice teinturier, dans cet article du Nouvel Observateur, semble frappé d'anosognosie. En effet, il prétend qu'aucun sondage n'a été réalisé par un quelconque institut à l'occasion de la primaire d'Europe Ecologie Les Verts, «puisque cette primaire était réservée à des adhérents et que personne n'avait accès à leur fichier?

Et pour le coup c'est à mon tour de rester pantoise.

Comment ça,"Aucun sondage n'a en effet été réalisé par un quelconque institut" pour essayer de déterminer qui est allé gagner cette primaire ?

Il y a eu très exactement quatre sondages effectués entre le 3 février 2011 et 18 juin 2011 au sujet de la primaire d'Europe Ecologie Les Verts!

Que M. Brice Teinturier se sente investi de la mission de défendre la branche sur laquelle il est assis, humainement, ça peut se comprendre.

Mais que, pour ce faire, il bascule en plein déni et demande qu'on ne casse pas son gagne-pain, en le critiquant, il y a là matière à douter fortement de la bonne qualité du travail effectué par les instituts de sondage que ce monsieur défend.

Et sachant qu'ils savent parfaitement:
- que leur échantillon n'est absolument pas représentatif de la population française, pour les raisons que je viens d'énoncer,
- que leurs échantillons ne sont en rien un sous-ensemble de la réalité
- que les résultats du sondage ne peuvent en rien être assimilés à ce que donnerait une enquête à grande échelle auprès de chacun des éléments de la « population mère ».

Il me paraît plus judicieux pour eux d'admettre une bonne fois pour toutes que leurs sondages ne sont, tout au plus, que des sondages probabilistes et hasardeux - n'oublions tout de même pas que ce qui est probable n'est pas pour autant possible - dont on ignore totalement si les estimations ne dépasseront pas un niveau acceptable d'erreur - la statistique étant une "science" qui peut uniquement permettre de fixer des limites vagues à l'incertitude".

Bibliographie : Modélisation statistique appliquée aux sciences sociales - Pascal Bressoux 

Source : Université de Rennes ; INSEE; le Nouvel Observateur ; Google

Aucun commentaire:

Enregistrer un commentaire