Hoe deugdelijk zijn de peilingen? (Bethlehem)

Jelke Bethlehem is bijzonder hoogleraar in de survey-methodologie en verbonden aan het Instituut Politieke Wetenschap van Universiteit Leiden

‘The UK polling disaster’. Zo werd het door sommige Engelse media genoemd. Daarbij doelden ze op de peilingen voor de parlementsverkiezingen van 7 mei 2015 in Groot-Brittannië. Die verkiezingen waren een ramp voor de peilers. Ze voorspelden allemaal een nek-aan-nek race tussen Labour en de Conservatieven. Dat zou weer een ‘hung parliament’ betekenen en dus coalitieonderhandelingen. Maar de uitslag was heel anders: de conservatieven wonnen met een comfortabele meerderheid van bijna 7% en konden alleen gaan regeren. Hoe kon dit zo gebeuren?

De grafiek brengt het debacle in beeld. Daarin voorspellen elf peilers het verschil tussen Labour en de Conservatieven. De stippen geven aan hoe groot die verschillen zijn. Duidelijk is te zien dat alle verschillen dicht bij 0 liggen. De verticale zwarte lijn is de werkelijke verkiezingsuitslag. De Conservatieven kregen 6,5 procentpunten meer dan Labour.

De horizontale gekleurde lijnstukken zijn de onzekerheidsmarges. De werkelijke uitslag van de verkiezingen ligt bij elke peiler buiten deze marges. Dus alle peilingen hadden het mis. En ze hadden het allemaal op dezelfde manier mis: het verschil tussen Labour en de Conservatieven werd systematisch veel te klein geschat.

Onderzoek naar peilingen

Na het debacle van de peilingen vroegen diverse deskundigen in Engeland zich af of politieke peilingen nog wel betrouwbaar zijn. Daarom besloot de British Polling Council (BPC), een organisatie van opiniepeilers, een onderzoek in te stellen. De belangrijkste conclusie was een heel simpele: de steekproeven van de peilers waren niet representatief. Ze waren geen goede afspiegeling van de Britse bevolking. En de door de peilers gebruikte correctietechnieken om hun peilingen representatief te maken, hielpen niet.

De Britten hebben twee soorten peilingen: online peilingen en telefonische peilingen. Voor de online peilingen hebben ze online panels gebruikt. Daarin zitten mensen die zich spontaan hebben aangemeld. Voor de selectie is dus geen gebruikt gemaakt van een aselecte steekproef. Daarom zijn deze peilingen niet representatief.

Voor de telefonische peilingen moet een steekproef van telefoonnummers worden getrokken. Het telefoonboek is daarvoor niet geschikt. Mensen met een vaste telefoon staan daar lang niet allemaal in. En de mobiele nummers ontbreken al helemaal. Daarom doen de telefonische peilers het met Random Digit Dailing (RDD). Met een computeralgoritme genereren ze willekeurige telefoonnummers. Dat levert wel een keurige aselecte steekproef op. Bij het bellen gaat het echter mis. Veel mensen willen niet aan een telefonische peiling meedoen. De respons is vaak niet hoger dan 10%. Deze grote non-respons (9 van de 10 doen niet mee) tast de representativiteit in ernstige mate aan.

De onderzoekers van de BPC keken ook naar andere mogelijk oorzaken. Was er misschien een ‘Shy Tory Factor’ geweest? Daarbij zouden vooral Conservatieve kiezers in de peiling zeggen dat ze niet gingen stemmen, maar het uiteindelijk toch wel deden. Daardoor zouden Conservatieven ondervertegenwoordigd zijn in de peilingen. Er werden echter geen aanwijzingen voor een ‘Shy Tory Factor’ gevonden.Er bleek ook geen sprake te zijn van een ‘Late Swing’. Dit is het verschijnsel dat mensen op het laatste moment, na de laatste peilingen en net voor de verkiezingen, nog van mening veranderen. Dat zou betekenen dat ze op het laatste nippertje nog hadden besloten op de Conservatieven te stemmen. Er bleek geen sprake een ‘Late Swing’.

Bij het Brexit referendum op 23 juni 2015 ging het niet veel beter. Veel peilers voorspelden dat de Britten tegen een Brexit zouden stemmen. Hoe anders pakte dat uit. Uiteindelijk stemde 52% voor het verlaten van de EU.

Amerikaanse presidentsverkiezingen

Tijdens de lange campagne voor de presidentsverkiezingen in de Verenigde Staten werd er wel heel erg veel gepeild. Er waren zowel landelijke peilingen als peilingen in de verschillende staten. Ook bij die landelijke peilingen ging het mis. Het beeld lijkt wel erg op dat in Engeland. In de grafiek hieronder staan de uitkomsten van 12 peilingen samengevat. Die peilingen zijn allemaal in de laatste twee dagen gehouden. De bovenste grafiek bevat de uitkomsten voor Hillary Clinton en de onderste die van Donald Trump. De voorspellingen voor Clinton komen nog wel redelijk in de buurt van de werkelijke uitslag, al zijn er wel een paar peilers die er behoorlijk naast zitten. De voorspellingen voor Trump zijn vrijwel allemaal systematisch te laag.

Deze peilingen zijn voornamelijk telefonisch afgenomen. Ook deze peilingen hebben een hoge non-respons. Vier van de twaalf Amerikaanse peilingen zijn online peilingen waarvoor de steekproeven afkomstig zijn uit online panels. De Amerikaanse problemen zouden dus wel eens hetzelfde kunnen zijn als de Britse. De American Association of Public Opinion Research (AAPOR) gaat het uitzoeken.

Hoe vertaalt zich dit allemaal naar de Nederlandse situatie? Het is in ieder geval zo dat er in Nederland geen telefonische peilingen zijn. Alle grote peilers maken gebruik van online peilingen op basis van online panels. Dus de kwaliteit van de steekproef, en dus van de peiling, staat of valt met de kwaliteit van het online panel. Voor sommige panels (zoals bijvoorbeeld dat van Maurice de Hond) is duidelijk dat het niet via een aselecte steekproef tot stand is gekomen. Andere peilers zijn daar minder transparant over. Het is niet duidelijk hoe hun panels zijn opgebouwd. Daardoor valt er weinig te zeggen over de deugdelijkheid van de peilingen. Het zou mooi zijn als de peilers wat transparanter waren.