All Things Data Science

Sunday, April 14, 2024

'Les extrêmes se touchent', maar net iets minder met Jaccard en in twee dimensies

Vorige week lanceerde De Morgen hun stemtest. Deze stemtest, van de hand van Ann De Boeck, Stavros Kelepouris, Jan Straetmans en Joris Heijkant, valt op door haar aantrekkelijke eenvoud. In plaats van allerlei ingewikkelde berekeningen te doen is hun insteek dat je maar best kan kijken naar het stemgedrag van de partijen in de Kamer, in het Vlaams Parlement en in het Europees Parlement en dan gewoon tellen hoeveel overeenstemmingen er zijn met de keuze van de deelnemer van de stemtest.

Het begon wel met een domper. Al snel na de lancering doken er fouten op op de sociale media. Zo wees @_TomGarcia_ op Twitter dat sommige standpunten van partijen initieel niet klopten en naderhand verbeterd werden (zie bvb. deze tweet). Maar goed, elk begin is moeilijk.

Verder ving ik opmerkingen op, o.a. van @gertdecooman dat "Als ik de stemtest van @demorgen doe, is er niet een partij die er uitspringt. En als ik de vinkjes van punten waarom ik niet geef in kruisjes verander, verandert ook de ranking gevoelig." Het is inderdaad jammer dat men niet meer zorg heeft besteed aan 'geen mening', en dit zowel bij de deelnemers van de stemtest, als bij het standpunt van de partijen. Een onthouding werd daar samengenomen met de tegenstemmers. Ik begrijp dat men de zaak zo eenvoudig als mogelijk wou houden, maar deze keuze heeft wel grote gevolgen (meer daarover straks).

Het feit dat CD&V en Open VLD er nooit uitspringen mag alvast niet verbazen. Deze partijen vertoonden hetzelfde stemgedrag op alle geselecteerde stemmingen. Dat is op zich niet vreemd omdat beide partijen zowel in de Vlaamse als in de federale regering zitten. Je zou kunnen argumenteren dat De Morgen de kans gemist heeft om het onderscheid te maken tussen beide partijen, maar je zou ook kunnen argumenteren dat dit gelijklopend stemgedrag een politieke realiteit is waar de deelnemers van de stemtest nu op gewezen worden.

Als je de zaak van dichterbij bekijkt dan zie je dat, als je de voor/tegen benadering van De Morgen neemt, er heel wat partijen op elkaar lijken. Hieronder vind je een matrix van het aantal overeenstemmingen tussen twee partijen:

Er waren 26 stellingen, en hierboven lezen we dat CD&V en open VLD 26 overeenstemmingen hebben, wat wil zeggen dat ze, op de geselecteerde stemmingen, steeds hetzelfde hebben gestemd. Je ziet ook dat Vooruit vrij dicht bij dit duo zit, met 22 overeenstemmingen. Dit is niet verwonderlijk omdat het hier alle drie om centrum partijen gaat. Wat meer verbazing kan oproepen is de kolom van Vlaams Belang (of de rij van PVDA). Vlaams Belang heeft veel overeenstemming met NVA (17), onmiddellijk gevolgd door PVDA. Dat laatste kan wel verrassend overkomen omdat Vlaams Belang als radicaal rechts wordt beschouwd en PVDA als radicaal links.

En dit brengt ons meteen met een verwondering die vaak werd geuit n.a.v. deze stemtest, nl. "Les extrêmes se touchent". Dit werd ondermeer verwoord door @sigridschollen in de volgende tweet:

Eén van de redenen waaraan dat ligt is dat de makers van de stemtest een overeenkomst op een tegen stem voor evenveel laten meetellen als een overeenkomst op een ja stem. Achter een tegenstem kan er van alles schuil gaan. Zo kan de ene partij tegen stemmen omdat een voorstel te ver gaat, terwijl een andere partij ook tegen kan stemmen, maar omdat het voorstel net niet ver genoeg gaat. Op die manier vinden extremen elkaar in de tegenstem. Dat kan ook gebeuren door tactisch stemgedrag of meerderheid/oppositie stemgedrag. In politieke wetenschappen spreekt men soms van "horseshoe theory" en van "strange bedfellows" om dit soort fenomenen te beschrijven. Over de "horsehoe" straks meer.

Stel je voor dat je enkel de positieve overeenkomsten zou tellen in de matrix hierboven (i.e. je zou enkel tellen hoe vaak twee partijen VOOR hetzelfde voorstel hebben gestemd), dan zou je het volgende resultaat krijgen:

Daar waar CD&V en Open VLD 26 overeenkomsten hadden hebben ze nu er nog steeds 23. Zo ook Vooruit t.o.v. dit duo: slechts een kleine daling van 22 naar 19. Als je echter naar de kolom van Vlaams Belang en de rij van PVDA gaat kijken dan merk je daar wel forse dalingen op. De overeenstemming van Vlaams Belang met PVDA tuimelt van 16 naar 4. De overeenstemming tussen Vlaams Belang en NVA neemt ook een stevige duik, nl. van 17 naar 7.

Volledigheidshalve geeft ik hier de verschillen voor alle partij combinaties in matrix vorm:

Dit is een Data Science blog, dus moeten er enkele obligate formules in ;-). Het tellen op de manier waarop De Morgen doet, nl. zowel een overeenkomst in het VOOR stemmen als in het TEGEN stemmen mee te laten tellen, komt overeen met de teller van de Simple Matching Coefficient (SMC):

$$SMC(i, j) = \frac{{\sum_{l=1}^{m} \mathbb{I}(x_{il} = x_{jl})}}{{m}},$$

hierin stelt $SMC(i,j)$ de Simple Matching Coefficient tussen partij $i$ en partij $j$ voor. $x_{il}$ geeft aan of partij $i$ ja stemde (1) of niet (0). Voor partij $j$ is dat $x_{jl}$. Het aantal stellingen is hier $m$. $\mathbb{I}$ staat voor de indicatorfunctie en geeft de waarde 1 als de uitdrukking tussen haakjes waar is en 0 als de uitdrukking niet waar is. Bij de SMC wordt bijkomend gedeeld door het aantal variabelen of kenmerken (in dit geval stellingen) waarmee gewerkt wordt. Bemerk dat voor bepaalde toepassingen (zie straks) men liever werkt met dissimilariteiten dan met similariteiten, waardoor men in de praktijk gebruik maakt van:

$$ D(i, j) = 1 - SMC(i, j).$$

De alternatieve manier waarop enkel de positieve overeenkomsten worden geteld heeft enige verwantschap met de Jaccard afstand:

$$ J(i, j) = 1 - \frac{{\sum_{l=1}^{m} \mathbb{I}(x_{il} = 1 \land x_{jl} = 1)}}{{\sum_{l=1}^{m} \mathbb{I}(x_{il} = 1 \lor x_{jl} = 1)}}, $$

hierin stelt $J(i,j)$ de Jaccard afstand tussen partij $i$ en partij $j$ voor. $\land$ en $\lor$ staan respectievelijk voor de logische EN en de logische OF operator. De Jaccard afstand wordt nogal eens gebruikt in cluster analyse op binaire data, net om dit soort van situaties te vermijden.

We kunnen dus de twee varianten van het tellen van overeenkomsten tussen partijen ook uitdrukken als afstanden of dissimilariteiten (over het verschil tussen de twee gaan we hier niet verder op in). Voor de dissimilariteit op basis van de SMC wordt dit:

Voor de dissimilariteit van Jaccard wordt dit:

Analoog met daarnet zien we dat Jaccard de afstand tussen Vlaams Belang en PVDA groter maakt. Hetzelfde geldt voor de afstand tussen Vlaams Belang en N_VA. Aangezien CD&V en Open VLD op alle geselecteerde gevallen hetzelfde stemden is het logisch dat zowel de SMC dissimilariteit als de Jaccard dissimilariteit 0 is. De nabijheid van Vooruit bij het duo CD&V en Open VLD zien we hier ook terug. Kortom, we zien het equivalente van daarnet, alleen zijn de maten nu gestandaardiseerd en uitgedrukt als een dissimilariteit.

Op deze dissimilariteitsmatrices kunnen we multidimensional scaling (MDS) toepassen. We gaan hier geen technische uitleg geven over deze techniek, maar wel een intuïtieve idee geven van wat je met deze methode kan doen: Vroeger, toen mensen nog landkaarten gebruikten, stond op de achterkant van zo'n kaart soms een (driekhoeks-)matrix met de afstanden tussen de verschillende steden van een land. Stel dat je enkel die matrix hebt, dan laat MDS toe om op basis van de onderlinge afstanden de steden te tonen op een spreidingsdiagram (soms puntenwolk en in het Engels een scatter diagram genoemd). Je zal de oplossing soms moeten roteren of inverteren maar in veel gevallen lukt dat aardig en "herken" je de oorspronkelijke kaart. Op zich heeft deze toepassing weinig nut omdat je reeds over een kaart beschikt. MDS is nuttig in die gevallen dat je je gegevens als afstanden kan uitdrukken en je daaruit een 'kaart' wil afleiden. Overigens, in het geval van een kaart en afstanden tussen steden weten we op voorhand dat we een 2-dimensionele oplossing zoeken. In het geval van afstanden in het algemeen weten we dat niet op voorhand. In de stemtest van de Morgen worden de partijen van de meeste gelijkende (met de deelnemer) naar de minst gelijkende gesorteerd. Impliciet gaat men hier dus uit van een één-dimensionele oplossing.

Als we een één-dimensionele MDS oplossing vragen dan krijgen we voor de SMC dissimilariteit:

en voor de Jaccard dissimilariteit:

Op het eerste zicht lijken die twee oplossingen heel verschillend, maar MDS oplossingen zijn schaal-invariant en mogen geroteerd worden. Je mag dus ook, bvb., de eerste oplossing van onder naar boven nemen. Die volgorde lijkt dan wel op die van Jaccard als je die laatste van boven naar beneden neemt. Het valt wel op dat Groen hier haasje over doet. Het valt ook op dat met SMC groen nu dichter bij het duo CD&V en Open VLD staat. We hadden al aangestipt dat de positie van PVDA t.o.v. Vlaams Belang en NV_A merkwaardig was, maar om PVDA geflankeerd te zien door Vlaams Belang en NV_A is wel heel vreemd. Blijkbaar is er iets in de dissimilariteitsmatrix dat niet voldoende kan worden uitgedrukt in een één-dimensionele oplossing. Er zijn nog andere redenen om naar een 2-dimensionele oplossing te gaan kijken. Dit heeft o.a. te maken met proportie verklaarde variantie, maar het zou ons in deze blogpost te ver leiden om daar verder op in te gaan. Om eenzelfde reden tonen we ook geen 3-dimensionele oplossing. Maar alvorens we naar de 2-dimensionele oplossing kijken, stellen we hier toch ook vast dat het gebruik van de Jaccard afstand ervoor zorgt dat de afstand (in één dimensie) tussen Vlaams Belang enerzijds en NV-A en PVDA anderzijds, groter wordt in vergelijking met de SMC dissimilariteit. De Jaccard oplossing lijkt ook net iets beter de nabijheid tussen het duo CD&V-Open VLD en Vooruit te capteren.

Hoe dan ook, hieronder de twee oplossingen in 2-dimensies. Eerst deze met de SMC dissimilariteit en dan deze met Jaccard.

Om de twee oplossingen eenvoudig te kunnen vergelijken heb ik zelf de oplossing zodanig geroteerd dat Vlaams Belang steeds links staat en Groen steeds rechts. Achteraf bekeken had ik dat beter omgekeerd gedaan ;-). Anderzijds wil ik niet suggereren dat de X-as als een rechts-links dimensie moet worden geïnterpreteerd, dus misschien is het niet eens zo slecht op die manier.

We zien in beide gevallen dat door het toevoegen van de tweede dimensie het verschil tussen Vlaams Belang en PVDA groter wordt, zo ook het verschil tussen Vlaams Belang en PVDA, al is het in een andere richting (op die tweede dimensie). Het toevoegen van een tweede dimensie lost voor een gedeelte het "horseshoe" probleem van daarnet op. We zien dat dit effect bij Jaccard iets prominenter is dan bij SMC. Ik durf dus een lichte voorkeur uit te spreken voor de twee-dimensionele Jaccard oplossing.

Zoals @brechtdv het op Twitter al aangaf ligt de hamvraag bij zo'n MDS bij de interpretatie van de dimensies. Ik laat het aan de lezer over om dat zelf te doen. Ikzelf ben geneigd om, als je met ongeveer -45° roteert, en je projecteert de partijen op de nieuwe X-as, er autoritarisme in te zien. Als je projecteert op de nieuwe Y-as dan zou je die dimensie kunnen interpreteren als eentje die weergeeft of een partij economisch links (boven) of economisch rechts (onder) is.

Friday, March 22, 2024

Over kaduke telescopen en de glazen bol van Madame Soleil

Peilingen zijn weer in het nieuws. Op 20 Maart 2024 schreef Marc Swyngedouw (Em. prof. politieke sociologie, ISPO – KU Leuven) in Samenleving en Politiek een column onder de titel "De Grote Politieke Peiling en De Stemming zijn kaduke telescopen" waarin hij "De Grote Politieke Peiling" en "De Stemming" op de korrel neemt. Enkele dagen later verscheen in De Morgen een artikel "Peiling na peiling, maar wat ben je ermee? ‘Een geschenk voor mijn lessen statistiek: zo ziet slecht onderzoek eruit’" van de hand van Jan Debackere waarin kritisch naar peilingen wordt gekeken.

Op zich vind ik het altijd goed wanneer de media aandacht schenken aan methodologie. Een heel aantal pijnpunten die naar voren worden geschoven zijn correct. Echter, het verhaal is veel genuanceerder dan beide artikels suggereren. In deze blogpost probeer ik dat te duiden.

Maar alvorens ik dat doe, volgt eerst een uitgebreide "full disclosure". Ik heb mijn eerste oefeningen statistiek aan de K.U.Leuven nog gekregen van de toen pas gedoctoreerde Marc Swyngedouw (Marc gaf toen de oefeningen statistiek samen met Ludo Daemen, die later één van de belangrijkste statistici van het onderzoeksbureau Nielsen werd). Verder heb ik gedoctoreerd bij Geert Loosveldt die uitgebreid aan bod komt in het artikel van De Morgen. Ik heb samen met John Lievens gestudeerd aan de (toenmalige) Katholieke Universiteit van Brussel, en Stefaan Walgrave was assistent in Leuven rond dezelfde periode dat ik er was en hij huurde me een 10-tal jaar geleden in in voor de De Grote Stemtest. Tenslotte moet ik vermelden dat ik werk voor Ipsos Nederland en Ipsos Global, en dat ik in het verleden werkte voor GfK en Nielsen, allemaal actief in de marktonderzoek sector.

De grond van de kritiek die in beide artikels wordt geuit is, denk ik, terecht: in veel gevallen is een probabiliteitssteekproef te verkiezen boven een steekproef uit een opt-in panel. Echter, als opdrachtgevers bereid zijn om te betalen voor een toevalssteekproef dan zullen de meeste onderzoeksbureaus daar graag op willen ingaan.

Ik vind het wel jammer dat de academici de indruk wekken dat respondenten zich zomaar kunnen aanbieden om mee te doen met een peiling. Dat is niet zo. Het klopt wel dat respondenten gerekruteerd worden op een manier die niet toevallig is en waar een zekere vorm van zelf-selectie allicht meespeelt, maar de respondent kan niet zelf beslissen of die meedoet aan een peiling. Dat gebeurt nog steeds door het toeval. Als er al politieke partijen zijn die proberen mensen in de opt-in panels te krijgen naar aanleiding van een komende peiling dan is de kans groot dat ze daar niet voor gekozen zullen worden en dat ze wel worden gekozen voor een studie over, bvb. wasproducten. Ik ken de interne keuken van Kantar niet, maar een panelist die weigert aan alle onderzoek mee te doen, en enkel de politieke opiniepeiling "cherry-pikt" die wordt na verloop van tijd uit het panel geweerd. Mijn collega Harm Hartman, stipt aan dat sommige marktondezoeksbureaus, zoals bijvoorbeeld "Ipsos Nederland", een "cool down" periode inbouwen om er zich van te vergewissen dat een kandidaat panelist ter goeder trouw is. Onder andere, op die manier worden mogelijke pogingen van manipulatie tegengegaan.

Ik vind het persoonlijk ook jammer dat geen enkele van de academici het nodig vond om aan te stippen dat, in tegenstelling tot academisch onderzoek, commercieel onderzoek bijna nooit gebruik kan maken van, bijvoorbeeld, het Rijksregister, en dat ze zich noodgedwongen moeten beperken tot (minder nauwkeurige) steekproeven uit adressen. Kortom, de privacy wetgeving maakt het gebruik van een zuivere toevalssteekproef de facto quasi onmogelijk voor marktonderzoeksbureaus.

Een ander punt dat de heren professoren niet vermelden is dat in veel gepubliceerd wetenschappelijk onderzoek er wel degelijk ook gebruik wordt gemaakt van opt-in panels. Als John Lievens zegt dat "Elke peiling die in de media verschijnt is een geschenk voor mijn lessen statistiek aan eerste bachelorstudenten: ze zijn een illustratie van slecht en onverantwoord onderzoek" dan neem ik aan dat hij dat ook zegt telkens één van z'n collega professoren een studie publiceert op basis van een opt-panel.

Een meer technisch puntje is de idee dat je enkel voor een toevaldssteekproef een betrouwbaarheidsinterval kan berekenen. Dat is niet helemaal juist. Betrouwbaarheidsintervallen maken een aantal veronderstellingen waarin toeval idd een grote rol speelt. Maar aan die veronderstellingen is ook niet steeds voldaan bij een toevalssteekproef. In een toevalssteekproef heb je ook non-response en die zal ook bias creëren. Er zijn methoden die dat probleem kleiner maken, maar dat geldt ook voor opt-in panels, alleen is het daar net iets moeilijker. Mark Blumenthal en Natalie Jackson, peilingsspecialisten bij de Huffington Post, geven in "The 'Margin Of Error' Is More Controversial Than You Think" een meer gebalanceerde visie over het gebruik van betrouwbaarheidsintervallen in peilingsondezoek.

Het valt me overigens op dat de methodologische argumenten van de academici dezelfde zijn als deze uit de jaren 80 en 90 van de vorige eeuw. De methodologie als discipline staat echter niet stil. Het is bijzonder om vast te stellen dat methodologen uit de sociale wetenschappen vaak veel dogmatischer zijn dan echte statistici.

Neem, bijvoorbeeld, de statisticus Andrew Gelman, die in The Washington Post een stuk schreef getiteld "Straight talk about polling: Probability sampling can be helpful but it’s no magic bullet". Hij geeft aan dat het verkeerd is om te vervallen in zwart-wit denken door te zeggen dat een probabiliteitssteekproef de enige oplossing is en een opt-in panel per definitie slecht. Of, om het met de woorden van Gelman zelf te zeggen:

Just about no sample of humans is really a probability sample or even close to a probability sample.

Als je Gelman volgt en je, zoals Johan Lievens, stelt dat: "Bij correct onderzoek moeten die toevallig geselecteerd worden uit de hele bevolking. “Alleen dan kan je uitspraken doen over die bevolking”" zeg je eigenlijk dat "correct" onderzoek niet kan zodra er mensen bij betrokken worden. Dat is wel bijzonder sneu voor de sociale wetenschappen.

Tenslotte, dit soort van onevenwichtige kritiek op peilingen is niet zonder gevaar. Hier is een greep uit de reacties op beide artikels op de sociale media:

Heel juist. Geen kat die gelooft dat Spa 13% zal halen, noch dat Vl. Belang maar 25% zou halen. Zal eerder 10% Spa en 30% vl. Belang.
Er is maar één betrouwbare peiling en dat zijn verkiezingen.
Volgens mij kan je de beste peilingen houden op café.

De kritiek zoals op opt-in panels zoals uitgedrukt in de twee artikels zal er niet voor zorgen dat er plots betere methoden worden gebruikt, het zal er wel voor zorgen dat er nog meer plaats wordt gegeven aan de mening van "politcal pundits", die overigens vaak zelf naast de verkiezingsuitslag zitten.

Een meer gebalanceerde analyse kan ook, getuige "The politics of polling: why are polls important during elections?" van Professor Jouni Kuha, Department of Statistics, LSE. kortom, er is meer aan de hand dan de twee artikels laten uitschijnen. Het is die nuance die ik wat miste in beide artikels.

Sunday, September 24, 2023

A Frequentist and a Bayesian go to a bar ...

(Note: you might want to refresh this page on your browser if the equations don't render correctly.)

In the first installment of this blogpost, I illustrated that Fisher's rule of thumb of using $\frac{3}{n}$ for the upper limit of a 95% confidence/credible interval is a good approximation as soon a $n>=25$. This was inspired by a blogpost from John D. Cook on the subject.

At the end I made a remark about something odd that happens when $n=1$. Fisher's rule of thumb results in 1, which is not very informative. The Bionomial solution is 0.95. When $n=1$ this is now an actual Bernoulli, i.e. a special case of the binomial if you will:

$$P(S_1=0)= {1\choose 0}p^0(1-p)^1=0.05$$

$$= 1(1-p)=0.05$$

$$p=1-0.05=0.95.$$

Yet, in the Bayesian analysis, the result is p=0.78. Why?

First let's recalculate that number in an even simpler manual way than I showed in the first installment of this blogpost. We know that the distribution we're interested in is the Bernoulli distribution. The likelihood of a failure in that case is $1-p$. The prior is a uniform distribution. Imagine a grid going from 0 to 1 in steps of 0.0001. The prior distribution will have a constant for all possible values of $p$. For simplicity's sake, let's take 1. As the likelihood is $1-p$, applying this to the grid will yield a series starting from 1, followed by 1-0.0001=0.9999, followed by 0.9998, 0.9997, and so on, down to 0. That last value reflects the fact that for a value of $p$=1, the likelihood of observing a 0 with $p=1$ is 0. The posterior is then trivially the prior multiplied with the likelihood, which, in this case, is the exact same series of the likelihood. Sampling from this posterior results in 0.77791 or approximately 0.78, as can be verified with the following one-liner:

quantile(x=sample(x=seq(from = 0, to = 1, by = 0.0001),

size=10000,

replace=TRUE,

prob=seq(from = 1, to = 0, by = -0.0001)),

probs=.95)

The difference between the Frequentist and Bayesian approach is subtle. Let me illustrate this with the following tale:

Freddy (a Frequentist) and Barry (a Bayesian) go to a bar. After serving them a drink, Ronny, the bartender, has a little quiz for them. They observe one trial, with a failure as the outcome. They don't know $p$, but they need to predict the next outcome. The only thing they know is that there can only be a success (1) or a failure (0), and that the second trial uses the same unknown $p$ as the one from the first trial. Freddy shouts \emph{maximum likelihood} and answers $0$. Barry mumbles something about preferring to answer with a distribution, but the bartender insists on one answer only. Barry then grudgingly agrees and whispers \emph{Maximum A Posteriori} and answers $0$. They witness a new trial and sure enough the outcome is 0 again. Freddy and Barry do a happy dance and continue drinking. "Not so fast" says the bartender and asks how sure they were after the first trial. Freddy, who is a Frequentist, answers first and says: I have a 95\% confidence interval from 0 to 0.95, so if we were to repeat this exercise 100 times under the same conditions, I would expect that that the true $p$ would be in a similarly constructed confidence interval 95 out of the 100 cases, so I'm pretty sure. Barry, who is a Bayesian, is a bit more thoughtful and takes his time to answer. He jots a few numbers on a napkin and finally says: "I have a 95\% credible interval from 0 to 0.78, so there is a 95\% probability that the true parameter value falls between 0 and 0.78." The bartender now needs to decide who he will crown the winner. Luckily Ronny happens to know some R from a previous job, so he decides to simulate a whole series of quizzes. He heard Barry mention a uniform prior, so he decides, for each simulated quiz, to randomly pick a $p$ from the real line between 0 and 1 with equal probability. Next, just like in the actual quiz, he selects only those trials that have a failure, and for each of these he runs a new trial using the same $p$. He then counts the number of times the second trial is a failure, because that's what Freddy and Barry would predict each time. Finally he expresses the counts in proportions. To avoid any discussion he decides to also consider the complete set of outcomes, i.e. those with a failure in the first trial, and, those with a success in the first trial.

After running 10,000 simulated quizzes Ronny gets a proportion of 0.6602 of quizzes where the second trial was a failure. The proportion of simulated quizzes where the second trial is a failure irrespective of the outcome of the first trial was 0.5028.

When Ronny sees that the proportion of simulated quizzes where the second trial is a failure irrespective of the outcome of the first trial is approximately 0.5, he quickly realizes why:

$$ E(X)=\int_0^1 E(X|p)f(p)dp,$$

in which $X$ is the Bernoulli random variable, representing the outcome of the second trial in an experiment, $E(X|p)$ is the expected value of the Bernoulli random variable $X$ given a specific value of $p$, and $f(p)$ is the probability density function of $p$. Because the expected value of a Bernoulli random variable $X$ given a specific value of $p$ is trivially equal to $p$, and since $p$ is uniformly distributed over $[0, 1]$, $f(p)=1$, we now get:

$$E(X)=\int_0^1p \times 1~dp$$

$$ E(X)=\left[\frac{p^2}{2}\right]_0^1=\frac{1^2}{2}-\frac{0^2}{2}=\frac{1}{2}=0.5.$$

So, under these conditions, if you would repeat the quiz many times you would expect to have about as many failures as successes, just like Ronny observed.

If you first only select the cases where the first trial was a failure - just like in the original quiz - things get a tiny bit more complicated. Let's call the outcome of the first Bernoulli trial $X_1$ and the second $X_2$. We want to know $E(X_2)$ so that we then can derive the (expected) proportion of failures in the second trial. Let's start by using the law of total expectation:

$$E(X_2)=\int_0^1E(X_2|X_1=1)\times f(p|X_1=1)dp+\int_0^1E(X_2|X_1=0)\times f(p|X_1=0)dp$$

The first term is trivially 0. For the second term we know that $E(X_2|X_1=0)=p$. Let's work out the second part of the second term separately:

$$f(p|X_1=0)=\frac{f(X_1=0|p)\times f(p)}{f(X_1=0)},$$

using Bayes' rule. $f(X_1=0|p)$ is the conditional probability density function of $X_1$ being a failure given $p$, which is $1-p$. In this context $f(X_1=0)$ is the marginal probability density function of $X_1$ being a failure. To express that part let's start with the law of total probability:

$$f(X_1=0)=\int_0^1f(X_1=0|p)\times f(p)dp$$

All elements in that equation were discussed before so we can perform the integration:

$$f(X_1=0)=\int_0^1 (1-p) \times 1 dp=\left[p - \frac{p^2}{2}\right]_0^1=\left[1 - \frac{1}{2}\right] -\left[0 - \frac{0^2}{2}\right]=\frac{1}{2}.$$

All of this leads to:

$$f(p|X_1=0)=\frac{(1-p) \times 1 }{\frac{1}{2}}=2(1-p).$$

Now we can go back to $E(X_2)$ and write:

$$E(X_2)=0+\int_0^1 p \times 2(1-p) dp,$$

$$E(X_2)=2\int_0^1 (p-p^2) dp,$$

$$E(X_2)=2\left[\frac{p^2}{2}-\frac{p^3}{3}\right]_0^1=2 \left[ \left(\frac{1}{2}-\frac{1}{3}\right) - \left(\frac{0}{2}-\frac{0}{3} \right)\right]=2\left[\frac{1}{6}\right]=\frac{1}{3}.$$

If the expectation of $X_2 = \frac{1}{3}$, the probability of a failure for $X_2$ is $\frac{2}{3}=0.6667$, again very close to what Ronny observed.

Before we continue let me add a comment from Romke Bontekoe on an earlier version of this blogpost. He remarked that Ronny was not the first to figure this out. Pierre-Simon Laplace, who lived from 1749 to 1827, had established the rule of succession that states that:

$$P(X_{n+1}=1|X_1+X_2+ \dots+X_n=s)=\frac{s+1}{n+2}, $$

in which $s$ is the number of successes and $n$ the number of trials. Applied to this case, where we are interested in the probability of a failure, given 1 previous failure, we get:

$$P(X_2=0| X_1=0)=1-P(X_2=1| X_1=0)$$

$$P(X_2=0| X_1=0)=1-\frac{0+1}{1+2}=1-\frac{1}{3}=\frac{2}{3}.$$

So now Ronny understand where his results are coming from, but does that help him to decide who the winner will be? He decides to look at 95th percentile of the distribution of the generated $p$'s, both when all $p$'s are considered and when only those $p$'s are considered that returned a failure on the first trial. The results are 0.9478 and 0.7829 respectively. These numbers are very close to the 0.95 and 0.78 that Freddy and Ronny had mentioned. Ronny thus concludes that, while both Freddy and Barry answered 0, Barry gets the advantage for properly taking into account the result of the first trial. Freddy didn't learn anything from that first trial. If we would do the same exercise, but we would have witnessed a success in trial 1, and we would only continue with the $p$'s that lead to that success, Freddy would still insist on a 95% confidence interval from 0 to 0.95 for a failure in trial 2, while Barry would adjust his credible interval so that now it would go from 0 to 0.9746 instead of going from 0 to 0.78.

What can this be used for? Not much, I will admit, but it shows that, sometimes, even if you only get a sample of 1 you can already come to some conclusions.

A second thing we can learn from this is that you don't need the integrals for Bayesian analysis, often you can just rely on simulations or other alternatives. One of the reasons why I only picked up Bayesian statistics at a later age is that when I was younger, as soon as a paper would use integrals instead of summations, I would mentally block and most often give up. But, if you're careful about the books and articles you read, Bayesian statistics is also accessible for people who are less fond of integrals.

Tuesday, September 19, 2023

A note on observing zero successes

Say that you have a sample of size $n=1000$ and you observed $S_n=100$ successes. Traditionally you would use $\hat p=\frac{S_n}{n}=\frac{100}{1000}=0.1$ as a point estimate of the population proportion $p$. From a frequentist perspective you would probably also report a confidence interval:

$$p_-=\hat p - z_\alpha\sqrt{\frac{\hat p(1-\hat p)}{n}}=0.1-1.96\sqrt{\frac{0.1 \times 0.9}{1000}}=0.08140581,$$

and

$$p_+=\hat p + z_\alpha\sqrt{\frac{\hat p(1-\hat p)}{n}}=0.1-1.96\sqrt{\frac{0.1 \times 0.9}{1000}}=0.1185942,$$

using $z_\alpha=1.96$ for a 95% confidence interval (Assuming that the sample fraction is small, i.e. the universe size $N$ is large relative to $n$. Also, I will not go into how such a confidence interval needs to be interpreted.).

So far, so good.

Now say you have observed zero successes, i.e. $S_n=0$, and you want to apply the procedure above. To start with, you can't because it violates the non-zero sample proportion assumption. There are some alternatives such as the Wilson Score Interval or the Clopper Pearson Interval. I will not discuss those, instead I will focus on how Bayesian analysis can help.

Say that someone wants to know what proportion of human beings can fly and say that you observe zero successes in a sample of $n=1000$. Many people would be willing to conclude that people can't fly. This is partly because people have very strong priors about the human capacity to fly. From an inductive reasoning point of view, you can never, with full certainty, conclude that humans can't fly until you have checked that for each individual in the population. The absence of evidence does not necessarily mean evidence of absence.

In business statistics we don't have the time and resources to check all individuals of the population, furthermore, the complete absence of something is seldom of great concern from a business perspective.

Nonetheless, sometimes, even in business, the absence question can be important. Think about the presence or absence of errors, for example. Clearly, in a lot of cases you can't verify all units whether there's an error or not. You then often sample cases. If it is of business interest to know whether the whole population of interest has no errors it's clear you will have to work with confidence intervals, credible intervals or some other way of expressing uncertainty.

What can you do?

As explained by John D. Cook in his blogpost Estimating the chances of something that hasn’t happened yet (See https://www.johndcook.com/blog/2010/03/30/statistical-rule-of-three/), you could argue that we want to find the largest proportion $p$ such that:

$$P(S_n=0)= {n\choose 0}p^0(1-p)^n=0.05$$

$$(1-p)^n=0.05.$$

The 0.05 is coming from the fact that we want to have a 95% confidence interval.

We want to resolve this last equation for $p$. First we take the logarithms at both sides:

$$\log((1-p)^n)=\log(0.05),$$

and we work out further to:

$$n \log(1-p)= -2.995732 \approx -3$$

We then apply the Taylor series expansion for $\log(1-p)$ and get:

$$n \left(-p -\frac{p^2}{2}-\frac{p^3}{3} - \dots \right) \approx -3$$

For small values of $p$ the higher-order terms become negligible and we can truncate the series after the first term, so that:

$$n (-p) \approx -3,$$

which leads to the rule of thumb that:

$$p \approx \frac{3}{n}$$

This rule of thumb is attributed to Ronald A. Fisher who described it in his book Statistical Methods for Research Worker published in 1925.

Notice that from a frequentist perspective, more specifically how confidence intervals should be interpreted, this rule of thumb is not without problems. Why this is the case would lead us too far, but there's a Bayesian argument to be made that leads to the same rule of thumb.

In the blogpost I mentioned earlier John D. Cook gives a Bayesian derivation:

Suppose you start with a uniform prior on p. The posterior distribution on p after having seen 0 successes and N failures has a beta(1, N+1) distribution. If you calculate the posterior probability of p being less than 3/N you get an expression that approaches 1 – exp(-3) as N gets large, and 1 – exp(-3) $\approx$ 0.95.

This derivation really relies on your knowledge of how to analytically come to an expression for the posterior distribution in this particular case. If you don't have that knowledge I present a more intuitive illustration here.

We start again from a uniform prior distribution. The likelihood is simply the binomial. We don't know which $p$ to use so we use grid-approximation and use 10,000 values of p evenly distributed between 0 and 1. We multiply prior and likelihood to have an unstandardized posterior. Then we standardize the posterior. Next we sample from the posterior and we summarize by picking up the 95th percentile.

Below you can find example code that illustrates how simple this idea can be implemented in R:

n<-100

p_grid<-seq(from=0, to=1, length.out=10000)

prior<-rep(1,10000)

likelihood<-dbinom(0, size=n, prob=p_grid)

unstd.posterior<-likelihood*prior

posterior<-unstd.posterior/sum(unstd.posterior)

samples<-sample(p_grid, prob=posterior, size=1e5, replace=TRUE)

q95<-as.numeric(quantile(samples, 0.95))

print(q95)

The result is close to Fisher's rule of thumb $p=\frac{3}{100}=0.03$.

Next to the Bayesian approach with grid-approximation (abbreviated as Bayes), and Fisher's rule of three (abbreviated as Fisher), we also work out the binomial case (abbreviated as Binomial).

To do this we go back a few equations a go , and work it out further:

$$\log(1-p)= \frac{-2.995732}{n},$$

and exponentiate both sides:

$$1-p= \exp\left(\frac{-2.995732}{n}\right),$$

which finally leads to:

$$p= 1- \exp\left(\frac{-2.995732}{n}\right).$$

I did this for $n$ going from 1 up to 50 and summarized it in the chart below.

First notice that the blue line with the results of the Bayesian analysis is more wobbly than the others. That's because we're sampling and we're using grid-approximation in that approach. But for all practical purposes we see that all three approaches are pretty much equal to each other as soon as $n>25$. Finally, the attentive reader will have observed that something odd happens when $n=1$. This will be discussed in follow-up blogpost!

Wednesday, November 17, 2021

A simple R/Shiny app to illustrate two properties of means and medians

Recently I saw two interesting discussions on Twitter that had to do with means and medians and the relationship between both. Both were in Dutch. The first one was between Casper Albers (@CaAl) and Zihni Özdil (@ZihniOzdil) about student loans (see here). The bottomline is dat Casper Albers reminded us that a positive stochastic variable can never have a median that is more than twice the mean.

The second discussion was between Joël De Ceulaer (@jdceulaer), Karel Anthonissen (@KAnthonissen), Youssef Kobo (@Youssef_Kobo) and Koen Fillet (@filletk) about young people buying houses and the support they get from their parents (see here). That discussion also involved means and medians. I mentioned that if a distribution has a finite variance, the absolute value of the difference between mean and median is at most equal to the standard deviation (see here).

These two properties are not well know and suprising to some. I will admit that I only learned about them many years after I had left university and even then rather by accident.

To illustrate this I made a small R/Shiny App that allows you to flexibelly specify a distribution. The app will then generate some data according to that distribution, calculate mean and median, and plot the results to show that the properties hold.

To specify the distribution I use a mixture of two 5-parameter beta-distributions. The first component of the mixture distribution specifies the bulk of the distribution. Optionally one can use the second component to specify outliers that are much further away from the first component.

You can access the R/Shiny here. Enjoy!

Tuesday, July 13, 2021

Opmerkingen bij kadering statistische resultaten van de Grote Coronastudie

Inleiding

Enkele weken geleden hebben Thomas Neyens (UHasselt & KU Leuven), Jonas Crèvecoeur (UHasselt & KU Leuven), Niel Hens (UHasselt & UAntwerpen), Geert Molenberghs (UHasselt & KU Leuven), Koen Pepermans (UAntwerpen), Jan Aerts (UHasselt), Pierre Van Damme (UAntwerpen), Philippe Beutels (UAntwerpen) een lang verwachte kadering van de statistische resultaten van de Grote Coronastudie (GCS) gepubliceerd.

De eerste bladzijden lezen als een beknopte inleiding in kwantitatieve onderzoeksmethoden. Alleen daarom al, loont het de moeite om het stuk van Neyens, Crèvecoeur, Hens et al. (2021) te lezen. Met name voor niet-specialisten is dit zeer lezenswaardig. De auteurs slagen er in om in enkele paragrafen en in een eenvoudige taal wegwijs te maken in de verschillende onderzoeksmethoden.

Daarna wordt de GCS in dit kader geplaatst en van naderbij bekeken. Samengevat is de GCS is een observationele, niet-probabilistische survey die cross-sectioneel gebruikt wordt en zowel een samenvattend als een comparatief oogmerk heeft.

Het zal voor veel lezers duidelijk zijn dat het meest problematische van deze opzet het niet-probabilistisch karakter van de studie is. Concreet wil dat zeggen dat deelnemers zelf het initiatief nemen om deel te nemen. De vertekening die hiermee gepaard gaat wordt in de GCS gecorrigeerd door een weging op geslacht, leeftijd, opleidingsniveau en residentiële provincie.

In het tweede deel doen de auteurs hun best om te illustreren dat, ondanks de gebreken van niet-probabilistische studies, de GCS toch waardevolle informatie kan opleveren. Ze doen dat door te verwijzen naar de brede oproepen die ze gedaan hebben op de klassieke media en de betaalde reclame waarvan ze gebruik hebben gemaakt op de sociale media. Ze wijzen (terecht) op het feit dat de GCS beschikbaar is in vier talen (Nederlands, Frans, Duits en Engels). Verder verwijzen ze naar het feit dat de resultaten vaak worden vermeld in de media waardoor veel mensen zich bewust zijn van de studie. Uiteraard wordt het heel grote aantal deelnemers vermeld. Initieel was dat meer dan een half miljoen deelnemers. Nu schommelt het tussen de 20,000 en de 35,000.

Neyens, Crèvecoeur, Hens et al. (2021) besluiten dan ook dat ze “ervan overtuigd zijn dat deze studie, ondanks gebruikelijke studiebeperkingen, van grote waarde is, niet enkel als gegevensbron voor de wetenschappelijke wereld, maar ook als tool die de beleidsvorming kan helpen door snel tendensen en signalen op te vangen”.

Kritische evaluatie

Mijn mening is iets genuanceerder. Ik denk dat het goed is dat we over de GCS kunnen beschikken, al is het maar omdat we over weinig andere alternatieven beschikken. Maar na meer dan een jaar had men toch aan beter instrument kunnen werken. Enkele weken geleden was er weliswaar een initiatief van, o.a., Statistiek Vlaanderen waarin wel een toevalssteekproef werd gebruikt, maar dat was enkel voor Vlaanderen. Overigens, heb ik tot mijn verbazing moeten vaststellen dat deze studie veel minder media aandacht heeft gekregen dan, bijvoorbeeld, de GCS.

Selectie vertekening

Ook al halen de auteurs selectie vertekening of selection bias aan, toch wordt er vrij snel om het probleem gewalst. In deze paragraaf proberen we alvast één bijkomend probleem aan kaarten. We gebruiken hiervoor een vereenvoudigde, fictieve, probleemstelling, kwestie van het overzichtelijk te houden. Voor een algemeen overzicht van selection bias bij web surveys verwijs ik naar Bethlehem (2010).

Stel dat we willen weten in welke mate de Belgische bevolking achter de Corona-maatregelen van het regeringscomité staat. We hebben een hypothese dat leeftijd daarin geen rol speelt, en we willen nagaan of onze hypothese wel klopt. We zijn dus geïnteresseerd in de mate waarin mensen achter de Corona-maatregelen staan, en het verband tussen die variabele en leeftijd. Bovendien weten we de exacte verdeling van de variabele leeftijd voor de ganse populatie. We gebruiken die gegevens om te wegen, net zoals de GCS dat ook doet. De GCS weegt niet enkel op leeftijd, maar ook op geslacht, opleidingsniveau en residentiële provincie. De redenering achter weging van GCS samen met een eenvoudig voorbeeld vind je terug in de paragraaf Samenvattende statistische analyse op p. 6-7 van Neyens, Crèvecoeur, Hens et al. (2021). We doen dit omdat we uit ervaring of ander onderzoek weten dat, bijvoorbeeld, jongeren minder bereid zijn om mee te werken aan wetenschappelijk onderzoek. In de realiteit is het verband tussen leeftijd en de mate waarin men meewerkt met onderzoek veel complexer. Stel je nu voor dat de houding ten opzichte van de Corona-maatregelen van de regeringen ook een invloed heeft op het deelnemen aan de GCS. Opnieuw, in de realiteit zijn dergelijke verbanden complexer, maar voor de eenvoud van deze illustratie gaan we ervan uit dat er een positief verband tussen houding ten opzichte van de Corona-maatregelen en bereidheid tot deelname. Dit lijkt bij de haren getrokken, maar er zijn genoeg voorbeelden uit de sociaal-wetenschappelijke literatuur die op zo'n verband wijzen. Bemerk overigens dat bij de Motivatiebarometer van de Universiteit van Gent er al expliciet in de fout wordt gegaan door op de landingspagina uit te pakken met een boodschap van de eerste minister. Voor alle duidelijkheid. Ik steun de eerste minister en z’n campagnes, maar dit hoort niet thuis in een objectief meetinstrument.

Schematisch kunnen we de hierboven geschetste situatie als volgt voorstellen (Voor meer details over deze notatie zie Pearl & Mackenzie (2019) en Thoemmes & Mohan (2015).):

Om te illustreren wat er in zo'n situatie gebeurt heb ik een kunstmatige bevolking van 1 miljoen volwassen personen gegenereerd waarbinnen geen verband is tussen leeftijd en houding. In deze denkbeeldige populatie bedraagt het gemiddelde 58.5 jaar (Dit is aan de hoge kant en niet realistisch voor de Belgische volwassen populatie). en is de gemiddelde score op de houdingsvariabele 5 (op een 10-punten schaal). De correlatie tussen de 2 variabelen bedraagt afgerond 0.00.

Vervolgens heb ik een steekproef van 10,000 eenheden genomen waarbij de selectiekans afhangt van leeftijd en de houding t.o.v. de Corona maatregelen. In die steekproef is de gemiddelde leeftijd bijna 10 jaar ouder (67.6 jaar) dan in de populatie waar ze uit getrokken is. Dat hoeft niet te verbazen, gegeven de selectiemethode die gehanteerd is. We merken trouwens op dat na weging de gemiddelde leeftijd terug daalt naar 58.8, zeer dicht bij de populatie-waarde. Laat ons dan eens kijken naar de gemiddelde score op de 10-punten schaal van mate waarin men achter de Corona-maatregelen van het regeringscomité staat. Deze bedraagt 6.2 in de steekproef. Dat is bijna een kwart meer dan het gemiddelde in de populatie waaruit de steekproef genomen is. Ook dat hoeft niet te verbazen gegeven dat we een verband hebben verondersteld tussen leeftijd en bereidheid tot deelname aan dit soort van onderzoek.

Wat vervelender is, is dat, na weging, dit gemiddelde nagenoeg hetzelfde blijft of zelfs iets stijgt (6.4). Meer nog, daar waar in de populatie de correlatie tussen leeftijd en de mate waarin men achter de Corona-maatregelen van het regeringscomité staat 0 was, bedraagt die correlatie nu -0.18. Dit is, bij zo'n grote steekproef, overigens significant. Ook hier helpt wegen niet (correlatie bedraagt dan -0.21). Dit verschijnsel is een illustratie van wat soms de paradox van Berkson wordt genoemd. De epidemiologen en bio-statistici onder de auteurs kennen deze paradox maar al te goed, maar men had volgens mij duidelijker moeten verwoorden dat de assumptie wordt gemaakt dat er in de GCS geen enkele van dergelijke variabelen bestaan. Persoonlijk denk ik overigens dat zo'n assumptie niet realistisch is in deze context. Overigens verscheen onlangs nog een overzichtsartikel over collider bias in de context van COVID-19 (zie Griffith, Morris, Tudball et al., 2020).

Het punt hier is niet dat leeftijd een effect heeft op deelnamebereidheid, dat weten we al. Ik probeer wel te illustreren dat er heel wat variabelen denkbaar zijn die die rol kunnen spelen en dat weging in dat geval weinig aan het probleem verhelpt. Dit had in Neyens, Crèvecoeur, Hens et al. best wat explicieter naar voren mogen worden geschoven.

Comparatieve statistische analyse

De auteurs stellen dat (Neyens, Crèvecoeur, Hens et al., 2021, p. 7):

Vergelijkingen doen we via statistische modellen. In die modellen hebben niet-representatieve steekproeven meestal geringe effecten wanneer de karakteristieken die vertekening veroorzaken als zogenaamde confounders in de modellen opgenomen worden.

De vraag is natuurlijk of die mogelijke confounders op afdoende wijze zijn gemeten in de vragenlijst en vervolgens zijn opgenomen in statistische modellen. Het is, bijvoorbeeld, helemaal niet zo'n gekke hypothese om te veronderstellen dat de houding van mensen ten opzichte van de Corona-maatregelen voor een deel te maken hebben met de algemene politieke en ideologische houding van mensen. Voor zover ik weet werd dit niet gemeten in de GCS.

Het probleem van niet gemeten confounders geldt natuurlijk ook voor onderzoek dat gebaseerd is op een representatieve steekproef. Het punt is hier eerder dat de auteurs expliciet het opnemen van confounders vermelden als voorwaarde voor het maken vergelijkingen bij niet-representatieve steekproeven. Met andere woorden, de assumptie hier is dat alle mogelijke, belangrijke, confounders zijn gemeten in de GCS en vervolgens zijn opgenomen in de statistische modellen.

Terloops wil ik hierbij opmerken dat, in de context van houdingen en gedragingen gemeten via zelf-rapportering, de richting van causale verbanden niet altijd éénvoudig vast te stellen is. Een confounder kan dan eigenlijk een collider blijken te zijn en in dat geval kan je de variabele beter niet opnemen in je statistisch model (Zie McElreath, 2020).

Hoe dan ook, de auteurs geven, mijns inziens, een te optimistisch beeld van de mate waarin statistische modellen in staat zijn om uit niet-representatieve steekproeven zoals de GCS toch correcte vergelijkingen te maken. Het probleem ligt voornamelijk bij de niet-geobserveerde determinanten van de variabelen waarin we interesse hebben. Mijn bekommernis richt zich voornamelijk op het gedeelte van de studie dat gaat over de publieke opinie rond Covid en de regeringsmaatregelen. Ik laat dus wel de mogelijkheid open dat de data van de GCS nuttig kan zijn om het verloop van de epidemie te modelleren. Ik ga er immers van uit dat die modellen expliciet rekening houden met de vertekeningen die zich bij niet-representatieve steekproeven kunnen voordoen.

Vertekening-variantie afweging

Vertekening-variantie afweging, beter bekend onder de Engelse benaming Bias–variance tradeoff, verwijst naar het conflict dat ontstaat door te proberen twee soorten fouten, bias en variantie, te minimaliseren. Concreet wil dit bij de GCS zeggen dat men weging op geslacht, leeftijd, opleidingsniveau en residentiële provincie gebruikt als middel om bias te reduceren (bij routinematige rapporten). De auteurs geven toe dat dit problematisch is voor bepaalde groepen. Zo zijn er relatief weinig laaggeschoolde, oudere mannen uit Henegouwen in de steekproef, wat de precisie doet dalen. Dit verwijst naar de variantie component van de bias-variantie afweging. De oplossing die de GCS daarvoor hanteert is het aftoppen van gewichten zodat een gewicht maximaal 40 keer zo groot kan zijn als het kleinste gewicht.

Het criterium van 40 wijst erop dat bepaalde groepen zoals mannelijke, oudere, laagopgeleide inwoners van Henegouwen verschillende malen minder vaak voorkomen dan je zou verwachten op basis van de populatie. Het exacte aantal keren kan ik niet afleiden uit het getal 40, maar ik vermoed dat het groter is dan 5 keer. Aftoppen op zich is zeker verdedigbaar, maar je zou dan wel explicieter mogen stellen dat je de variantie reductie betaalt door een verhoogde bias. Je kan je de vraag stellen wat in de GCS primeert, bias of variantie. Mij lijkt het dat voor heel wat rapporten en kerncijfers die uit de GCS worden afgeleid, bias belangrijker is dan variantie. Laat me deze stelling illustreren door terug te grijpen naar de vraag in welke mate de Belgische bevolking achter de Corona-maatregelen van het regeringscomité staat. Als we niet over een wetenschappelijk instrument beschikken om dit te meten kunnen we alleen maar gissen op basis van wat er in de kranten geschreven wordt, wat op de sociale media te lezen is of wat onze vrienden en collega's te vertellen hebben. Ik denk dat iedereen het over eens zal zijn dat dit geen goede alternatieven zijn. De GCS zou, voor deze vraagstelling, zich moeten concentreren op de vraag of het percentage voorstanders, ik zeg maar wat, 25%, 50% of eerder 75% is. M.a.w. staat de meerderheid erachter, of slechts een minderheid, of is het een dubbeltje op z'n kant? In dat geval zijn we minder geïnteresseerd of er nu rond die schatting een betrouwbaarheidsinterval van, ik zeg opnieuw maar wat, 2%, 4% of 8% breed is. Uiteraard is een kleiner betrouwbaarheidsinterval beter, maar in dit gevoelig thema, waarin de zwijgende meerderheid zelden gehoord wordt, lijkt bias me erger.

Ik wil hier wel opnieuw een uitzondering maken voor het gedeelte van de GCS dat gebruikt wordt om de statistische modellen die gebruikt worden op het verloop van de pandemie te voorspellen. Voor deze modellen is variantie allicht wel belangrijker dan voor de meer algemene rapportering rond maatschappelijke thema's. De auteurs verwijzen trouwens naar specifieke, en vaak vernieuwende, technieken die hiervoor werden gebruikt.

Alternatieven

Zijn er dan geen alternatieven? Die zijn er wel. Het meest evidente alternatief is de toevalssteekproef. Als er één toestand is waarbij vrijwel iedereen het ermee eens zal zijn dat het trekken van een toevalssteekproef uit het Rijksregister geoorloofd is dan is het deze wel. De Corona-crisis is allicht de grootste crisis waar België tegenaan kijkt sinds de tweede wereldoorlog. Het is van cruciaal belang om te weten wat de houdingen zijn van mensen rond deze crisis. Het is van cruciaal belang om dat dan ook op een wetenschappelijk correcte manier te doen. Bovendien lijkt deze Corona-crisis de mogelijkheid bij uitstek om een goede respons te halen. Zowat iedereen, zowel de voorstanders van strenge maatregelen als de tegenstanders daarvan, hebben belang bij een correct meting. Een goed georchestreerde campagne, met zowel voor als tegenstanders, rond het belang van deelname aan zo'n onderzoek zou in mijn ogen een historische responsegraad kunnen opleveren.

Toegegeven, in zo'n geval zou je niet de grote steekproef aantallen halen waar de GCS over kan buigen. Ik ben er me ook bewust van dat die grote aantallen van belang zijn van zodra men ook geografische verschillen wil meten. Ik vermoed dat dit vooral voor de modellen belangrijk is. Hoe dan ook, ik vind het een gemiste kans dat men niet minstens één van de GCS edities heeft laten samengaan met een landelijke, op het Rijkregister gebaseerde, studie. Als men dan een aantal gemeenschappelijke vragen had opgenomen had men over vergelijkingsmateriaal beschikt dat vanuit wetenschappelijk en beleidsstandpunt bijzonder waardevol was geweest. Gegeven de gigantische kost die de overheid moet dragen in deze Corona-crisis is deze kost peanuts. Als uit zo'n vergelijking zou blijken dat de GCS het best aardig doet, dan zou dat sceptici zoals ikzelf over de streep kunnen trekken.

In de survey literatuur worden overigens ook een aantal alternatieven voorgesteld. Graag verwijs ik naar een methode die Multilevel Regression and Post-stratification (MrP) wordt genoemd. In die methode wordt poststratificatie gebruikt om te corrigeren voor selection bias, ook al is de vertekening groot en zijn er veel (combinaties van) variabelen in betrokken. Multilevel regressie wordt dan weer gebruikt om te zorgen voor stabiele schattingen op kleine subgroepen. Voor meer details zie Wang, Rothschild, Goel and Gelman (2015).

Een gekend voorbeeld is dat van een panel van xbox-gebruikers in de Verenigde Staten dat werd bevraagd over hun voorkeur voor twee presidentskandidaten. Zo'n panel is bij uitstek niet-probabilistisch en gebiased. Het panel heeft een oververtegenwoordiging van jongeren, mannen en blanken. Toch bleek dat de analyse met de MrP-methode goede resultaten opleverden (Wang, Rothschild, Goel and Gelman, 2015).

De steekproef van de GCS is natuurlijk niet zo zwaar gebiased als deze van de xbox gebruikers, maar het toepassen van dergelijke methoden zou volgens mij ook voor de GCS vruchtbaar kunnen zijn.

Beleidsconsequenties

Mijn conclusie is dat het goed is dat de GCS bestaat. Het heeft z'n dienst bewezen in moeilijke tijden. Maar, naar analogie met het Deltaplan dat na de overstromingsramp van 1953 in Nederland werd opgezet om ervoor te zorgen dan een dergelijke ramp zich niet nogmaals zou kunnen voltrekken, heeft België, m.i., nood aan een sociaal-wetenschappelijk Deltaplan waarin, op een rigoureus wetenschappelijke manier, op geregelde tijdstippen, naar de houdingen van de Belgen t.o.v. belangrijke maatschappelijke thema's wordt gepeild. Bij afwezigheid van een dergelijk meetinstrument wordt het maatschappelijk debat te veel gekleurd door de hardste roepers op de sociale media. De afgelopen anderhalf jaar hebben we te vaak regeringen zien zwichten voor de druk waarbij, m.i., de stem van de stille meerderheid over het hoofd werd gezien.

Referenties

Bethlehem, J. (2010). Selection bias in web surveys. International Statistical Review, 78(2),

161-188. https://doi.org/10.1111/j.1751-5823.2010.00112.x

Griffith, G.J., Morris, T.T., Tudball, M.J. et al. (2020). Collider bias undermines our understanding of COVID-19 disease risk and severity. Nat Commun 11, 5749. https://doi.org/10.1038/s41467-020-19478-2

McElreath, R (2020). Statistical Rethinking. A Bayesian Course with Examples in R and Stan. Second Edition. Boca Raton: CRC Press.

Neyens, T, J. Crèvecoeur, N. Hens, G. Molenberghs, K. Pepermans, J. Aerts, P. Van Damme, P. Beutels (2021). De Grote Coronastudie: een kadering van statistische resultaten. In: https://covid-en-wetenschap.github.io/2021/04/grote-coronastudie-kadering.

Pearl, J. and D. Mackenzie (2019). The Book of Why: The New Science of Cause and Effect. Penguin

Thoemmes, F. and K. Mohan (2015). Graphical Representation of Missing Data Problems. Structural Equation Modeling: A Multidisciplinary Journal, 22: 631–642, 2015

Wang, W., D. Rothschild, S. Goel, A. Gelman (2015). International Journal of Forecasting, 31(3), 980-991. Elsevier.

Thursday, February 25, 2021

Beware of the constrictive data science pyramid!

I tried writing on Medium. It features data science, constrictive pyramids and carpentry, but essentially it's about #HR in #Tech 😎.

Here's the result.

Regards,

Istvan