Thursday, May 10, 2018

Bespreking van - Het algoritme heeft u door - op Interne Keuken.

Zoals velen luister ik graag naar het programma "Interne Keuken" op Radio 1 op zaterdag middag. Vorige week, op 5 mei 2018, was de literatuurwetenschapper Jos De Putter te gast over z'n interview met Michal Kosinski, één van de personages in het Facebook/Cambridge Analytica schandaal. Deze bijdrage kon me minder bekoren. In  deze blogpost leg ik uit waarom. Je kan het gesprek met Jos De Putter zelf terugvinden op Interne Keuken.

Het gaat al meteen goed fout na de inleiding wanneer Jos De Putter Michal Kosinski omschrijft als de grondlegger van de psychometrie en psychometrie definieert als de combinatie van psychologie en Big Data. Dus, voor alle duidelijkheid, psychometrie is een tak van de psychologie dat zich bezighoudt met de theorie en de  technieken van het meten van psychologische fenomenen zoals persoonlijkheidskenmerken, attitudes, enzovoort, en heeft op zich weinig te maken met Big Data. Francis Galton, een neef van Darwin overigens, wordt vaak als één van de grondleggers van de psychometrie beschouwd. Andere bekende psychometrici waren Thurstone (o.a. bekend van de Thurstone-schaal), de Deen Georg Rasch en Charles Spearman (die ook bekend is in de statistiek o.a. omwille van de  Spearman's rank correlation coefficient en voor zijn werk op het vlak van Factor Analyse).
Los van de verkeerde benaming is Kosinski ook niet de grondlegger van het meten van psychologische eigenschappen op basis van andere gegevens buiten de klassieke psychologische tests, bvb. op basis van Big Data. Wat wel waar is is dat hij gewerkt (en gedoctoreerd) heeft aan The Psychometrics Centre van de universiteit van Cambridge, een departement dat een reputatie heeft op dat soort van onderzoek. Ter illustratie een foto die ik van hun Facebook (ja, ja)  pagina heb geplukt (Echt gevaarlijk zien ze er niet uit, me dunkt.).
Zoek het kwade genius.

 Wat ook waar is dat hij en z'n collega's een aantal publicaties hebben gehad die enige ruchtbaarheid hebben gekregen. Het feit dat de man nu op Stanford werkt, is ook een illustratie dat de man geen uil is, maar om nu te zeggen dat hij een uitzonderlijk academisch parcours heeft afgelegd klopt niet. Hij is allicht een bekwame onderzoeker in het vakgebied van de psychometrie zoals er honderden anderen zijn. Of nog anders gezegd: gezagsargumenten zijn zelden goed, met Kosinski komen aandraven nog minder.

Een tweede punt van ergernis was de onbewezen veronderstelling dat het allemaal werkt. In veel media wordt er inderdaad al te gemakkelijk van uitgegaan dat Brexit en de Trump verkiezingen gekanteld zijn omwille van Cambridge Analytica (en overigens niet Cambridge Analytics zoals Jos maar bleef herhalen). Hiervoor is geen enkel bewijs (ook al wil ik toegeven dat dit bewijzen nogal moeilijk is), en de meningen onder experten lopen uiteen (zie bvb. hier). Een interessant artikel in dat verband is van de hand van Antonio García Martínez in Wired. In The Noisy Fallacies of Psychographic Targeting verdedigt hij de eenvoudige stelling:
"Cambridge Analytica’s data theft and targeting efforts probably didn’t even work, but Facebook should be embarrassed anyhow".
Contrasteer dat met de argumentatie van Jos dat de beurswaarde van Facebook een indicatie is van de effectiviteit van dit soort zaken.

Hoe je het ook draait of keert, als het over Cambridge Analytica gaat zijn er, voor zover ik het weet, 3 observaties waar we wat mee kunnen. De eerste was de Ted Cruz campagne (Ted Cruz haalde de nominatie niet), Trump en Brexit. Het feit dat twee zaken (gebruik maken van Cambridge Analytica en een verkiezingsoverwinning behalen) samengaan in de tijd is natuurlijk geen enkele bewijs van een causaal verband. Bovendien wordt zowel bij de overwinning van Trump als bij Brexit  (ook door Jos) aangevoerd dat de overwinning als een verrassing kwam, suggererend dat dit wel door manipulatie moest komen. Tenzij de magie van Cambridge Analytica plots zou beginnen te werken enkele uren voor de verkiezingen zelf, zou een substantiële verschuiving in het electoraat ook opgemerkt moeten worden in de opiniepeilingen. Overigens zou ik graag enkele kanttekeningen willen plaatsen bij het verrassend karakter van de Trump en Brexit overwinningen. In verband met de Trump overwinning citeer ik graag Nate Silver:
"Another myth is that Trump’s victory represented some sort of catastrophic failure for the polls. Trump outperformed his national polls by only 1 to 2 percentage points in losing the popular vote to Clinton, making them slightly closer to the mark than they were in 2012. Meanwhile, he beat his polls by only 2 to 3 percentage points in the average swing state".
Dat is niet alleen praat achteraf, want diezelfde Nate Silver schreef vlak voor de eigenlijke verkiezingen Trump Is Just A Normal Polling Error Behind Clinton.
Wat betreft Brexit zijn het vooral de "pundits" en de betting matkets die ernaast zaten. De peilingen deden het zo slecht nog niet (zie hier).

Maar bon, terug naar Interne Keuken. Er zijn heel wat indicaties dat men in de Verenigde Staten niet hoog op liep met de prestaties van Cambridge Analytica. Zie bvb. het volgende stukje uit Mother Jones:
In reality, Cambridge Analytica’s reputation for spotty work had circulated widely among Democratic and Republican operatives, who were also put off by Nix’s grandstanding and self-promotion. Mark Jablonowski, a partner at the firm DSPolitical, told me that there was “basically a de facto blacklist” of the firm and “a consensus Cambridge Analytica had overhyped their supposed accomplishments.”

Een derde zaak die ik jammer vond in deze uitzending is dat er geen onderscheid werd gemaakt tussen het aantonen van het bestaan van een effect enerzijds, en, de grootte van dat effect anderzijds. De stelling "Facebooks likes zijn spontaan, daar denk je niet over na, en dus die zeggen veel over jou" is niet juist. Facebook likes zeggen soms iets over jou en dan nog wel in beperkte mate. Het is niet een alles of niets spel. Neem nu stemgedrag. Politieke wetenschappers bestuderen al meer dan honderd jaar hoe stemgedrag kan verklaard worden.  Als zij het niet (goed) kunnen, dan psychologen met Facebook likes ook niet. Hoogstens kan het iets beter dan vroeger. Maar de schaal waarop die enkele percent verbetering geschied is wel nieuw en relevant.  Commercieel is een kleine verhoging van de "pakkans" al interessant want kostenbesparend, maar wetenschappelijk is zo'n vinding niet voldoende. De fout die velen maken is dat omdat de Brexit en Trump overwinningen een feit zijn dit meteen aantoont de Cambridge analytica en Facebook alles over je weten. Ten eerste is nooit aangetoond dat Brexit en Trump omwille van Cambridge Analytica is gebeurd, maar zelfs dan zou dat alleen willen zeggen dat ze de pakkans iets of wat hebben verbeterd, eerder dan een grote wetenschappelijke doorbraak.
Een gelijkaardige voorbeeld van dit zwart-wit denken is de volgende stelling van Kosinski: "Als je van Romantic comedies houdt dan ben je neurotisch". Dat is nooit aangetoond. Hoogstens is er misschien een iets groter kansje, en zelfs dan, met de huidige replicatie crisis in de psychologie en de andere wetenschappen zou ik daar niet veel van geloven. Eén van de twee medewerkers van Interne Keuken zegt dan beschroomd "ik geloof dat eigenlijk niet". Waarop Jos er een grapje van maakt. Ik neem aan dat de Stones/Beatles/stemgedrag stelling ook maar om te lachen was.
Interessant punt is dat de interviewer zegt: hij (Kosinki) kan dat bewijzen met grote getallen. Dat klopt. Maar, als je maar genoeg observaties hebt, wordt alles wel significant, maar het is daarom niet substantieel. Ook dat is een voorbeeld van het verwarren van het aantonen van een effect met de grootte van het effect.

Nog een andere misvatting die in deze uitzending naar boven kwam is de idee dat de wetenschappers zelf niet meer weten hoe het precies werkt. Samen met de uitspraak dat tegenwoordig het niet mensen, maar computers zijn die aan wetenschap doen schept dit het beeld van de wat onbeholpen wetenschapper die gebruik maakt van de computer als een soort orakel. Dat klopt natuurlijk niet. Ik meen dat het misverstand afkomstig is van het onderscheid tussen "black-box models" en "white-box models". Een klassiek voorbeeld van een "white-box model" is lineaire regressie. Neem aan dat verband tussen gewicht in Kg en lengte (in cm) kan beschreven worden door het volgende lineaire regressiemodel:
$$ g=0.6*l-30 + \epsilon
$$
De geschatte parameters 0.60 en 30 zijn eenvoudig te interpreteren en te berekenen. Bij veel (black-box) machine learning modellen en in het bijzonder bij (diepe) neurale netwerken ligt dat iets moeilijker. Je kan meestal nog wel de parameters opvragen maar die zijn niet meer zo eenvoudig te interpreteren als in het regressievoorbeeld (waar je bvb. kan zeggen dat (gemiddeld) een eenheidswijziging in lengte overeenstemt met een toename van 0.6 kg). Dat wil dus helemaal niet zeggen dat de wetenschapper geen idee heeft van wat zij/hij doet. Vaak is het zo dat black box modellen (iets) accurater zijn, wat in sommige toepassingen een voordeel is. In andere toepassingen is de interpreteerbaarheid dan weer belangrijker. Het is aan de wetenschapper om de afweging te maken welk soort van methode te gebruiken afhankelijk van het soort toepassing.
Op dit punt gekomen zegt één van de  interviewers  dat:  'iemand heeft geprogrammeerd dat als je een schoenmaat x ziet dan volgt y'. Waarop Jos antwoordt dat het zo eenvoudig niet is en dat er Artificiële intelligentie bij komt kijken. Nog het één nog het andere is juist. Wat er gebeurt is dat tijdens de "leer-fase" of de modelopbouw de best mogelijke waarden van de parameters worden geschat. Tijdens de voorspellingsfase worden de inputs omgezet in een output met behulp van die best passende parameters en het hangt ervan  af of het een "white-box" is of een "black-box" is of je er ook zinvolle conclusies uit kan trekken.

Op een bepaald punt wordt de opmerking gemaakt dat de bevinding dat ogenschijnlijke weinig zeggende feitjes (een like op Facebook bvb.), samen met andere feiten, toch een voorspellingskracht kan hebben, iets zegt over hoe ons brein werkt. Ik denk dat dit niet klopt. Ten eerste wordt het effect vaak overschat, ten tweede wil dat nog niet zeggen dat het causaal is. Volgens mij is eerder het omgekeerde geval, sommige artificiële intelligentie methoden hebben hun inspiratie gehaald uit de werking van het brein (bvb. neurale netwerken), ook al is dat in feite niet veel meer dan een analogie. 

Hierna glijdt het gesprek helemaal af naar een discussie over determinisme. Ik denk dat filosofen en fysici beter geschikt zijn om daarover te discussiëren dan statistici en psychologen. De claim dat er algoritmen zijn die (nauwkeurig) kunnen inschatten wanneer je gaat sterven is dan weer een illustratie van het verwarren tussen het aantonen van een effect en de grootte van het effect. Deze verwarring wordt gevoed door de manier waarop de media erover schrijven. Een voorbeeld daarvan is The AI that can tell you when you'll DIE: Stanford reveals 'startlingly accurate' system to predict the end of life for hospital patients in de Daily Mail. Als je dan naar het oorspronkelijke wetenschappelijke artikel gaat kijken (zie hier) dan zie je dat het gaat om het inschatten van de kans op overlijden in de volgende 12 maanden met als doel een betere palliatieve zorg te kunnen geven. Bovendien blijkt het met de "startingly accurate" voorspelling best mee te vallen. Voor een goed begrip, ik denk dat de wetenschappers hier prima werk hebben geleverd, maar hebben de media er een vertrokken beeld van geschetst.

Wat betreft die andere studie van Kosinski waarin de sexuele geaardheid van mensen werd geschat op basis van foto's kwamen al snel schedelmetingen en frenologie naar voren.  Grappig werd het wanneer de frenologie als pseudowetenschap werd weggezet (terecht overigens) terwijl bijna alles wat er voor kwam eigenlijk ook pseudowetenschap was (of goede wetenschap maar dan verkeerd voorgesteld). Grappig is ook dat uitgerekend Kosinski voor de paper werd beschuldigd van het beoefenen van "junk science". Hoe dan ook, als je  de zaak van dichterbij bekijkt dan zie je dat het algoritme enkel in specifieke omstandigheden goed werkt en in meer realistische settings tekort schiet  (zie hier voor een kritische bespreking). 
 
Vervolgens komt een andere gast, de papyrologe Valérie Wyns, met de ultieme dooddoener dat je met statistiek alles kan bewijzen. In de realiteit is het omgekeerde geval: met statistiek kan je bijna niets bewijzen en als je het al kan is de statistiek maar een heel klein hulpmiddeltje geweest.
   
Nog wat verder in het programma  wordt verwezen naar Kosinski die zegt dat het privacydebat een achterhoede gevecht is. Los van het feit dat heel wat wetenschappers het daar helemaal niet mee eens zijn, is de stelling (van Jos) dat de illusie van privacy voldoende is helemaal gek. Nadat hij door de interviewers klem is geredeneerd meent hij dat het een provocatie van Kosinksi was. Tja, zo is het natuurlijk eenvoudig.

Kortom, deze aflevering van Interne Keuken, of althans het eerste onderwerp vond ik iets minder geslaagd. Maar, om op een positieve noot te eindigen, ik heb ook wel iets geleerd, in mijn stad Leuven is blijkbaar een museum waarin je iets rond frenologie kan zien. Ik kijk er al naar uit.





 


 


Thursday, December 1, 2016

(small) samples versus alternative (big) data sources



Those of you who already have attended a meetup of the Brussels Data Science Community know that, besides excellent talks, those meetups are fun because of the traditional drinks afterwards. So after the last meetup we were on our way to a bar on the campus of the University of Brussels and I had this chat with @KrisPeeters from Dataminded. Now if you are expecting wild stories about beer and loose women (or loose men for that matter), I'm afraid I'll have to disappoint you. Instead we discussed ... sampling. Kris was questioning whether typical sample sizes market research companies work with (say in the hundreds or a few thousand at the max) still matter these days, given that we have other sources that give us much larger quantities of data. I told him everything depends on the (business) question the client has.

To start with we can look at history to answer this question. In 1936 the Literary Digest poll had a sample size in the millions. But, obviously, that sample wasn’t representative because it only consisted of its readers. They predicted that Republican Alf Landon would beat Democrat Franklin D. Roosevelt. Roosevelt won in one of the largest landslides ever.

A more recent example is a study that claimed that the Dutch are the best non-native English speakers. This was debunked in http://peilingpraktijken.nl/weblog/2016/11/beheersen-nederlanders-de-engelse-taal-echt-het-best/ (Dutch). Even though the sample size was 950,000 (in 72 countries) statistician Jelke Bethlehem, a Dutch national himself, concluded that the sample was not representative and did not allow to draw the conclusions that the researchers had claimed.

Of course samples can and are biased as well. But there is a difference: Samples are constructed specifically with a research question in mind, and often are designed to be unbiased. Big data or other sources of data are often created for other reasons than research questions. As a consequence big data might have some disadvantages that are not offset by its bigger size.

Take this hypothetical example. Say you have a population consisting of N=10,000,000 individuals and you want to estimate the proportion of people that watched a certain TV show. Say that you have an unbiased sample of size $n=1,000$ and that you find that 100 of them watched the television show. So, with 95% confidence, you would estimate p=0.10 with a margin of error of $z_{\alpha / 2} \times \sqrt{{pq\over n}}= 1.96 \times \sqrt{{0.1 \times 0.9 \over 1,000}}= 0.01859$, which amounts to an confidence interval in absolute figures from  814,058 to  1,185,942. Suppose your friend has an alternative datasource with $N'=6,000,000$, so for those you know exactly whether they watched or not, with no sample error at all, so no confidence interval (unless you are a Bayesian, but that's another story). Now you know the exact number of people who watched from the 6,000,000. For simplicity's sake assume this is 600,000. To be fair, you know nothing about the remaining $N''=4,000,000$ , but you could assume that since your subpopulation is so big, they will be close to what you already have. This effectively means that you consider the alternative data source as a very large sample of size $n'=6,000,000$. In this case the sample fraction is ${n' \over N}={6,000,000\over 10,000,000}=0.6$ which is pretty high,  so you get an additional bonus because of finite population correction yielding a confidence interval between $p_-=p-z_{\alpha / 2} \times \sqrt{{pq\over n}} \times \sqrt{{N-n'\over N-1}}=0.09984$ and  $p_+=p+z_{\alpha / 2} \times \sqrt{{pq\over n}} \times \sqrt{{N-n'\over N-1}}=0.10015$. In terms of absolute figures we end up with a confidence interval from 998,482 to 1,001,518, which is considerably more precise than the 814,058 and 1,185,942 we had in the case of $n=1000$. Of course, the crucial assumption is that we have considered the n'=6,000,000 to be representative for the whole population, which will seldom be the case. Indeed, it is very difficult to setup an unbiased sample, it is therefore not realistic to hope that an unbiased sample would pop up accidentally.  As argued above, big data sources are often created for other reasons than research questions and hence we can not simply assume they are unbiased.

The question now becomes, at what point is the biasedness offset by the increased precision. In this case bias would mean that individuals in our alternative data source are more likely or less likely to watch the television show of interest than is the case in the overall population. Let's call the proportion people from the alternative data source who watched the television show $p'$. Likewise we will call the proportion of remaining individuals from the population that are not in the alternative data source that have watched the relevision show, $p''$. We can then define the level of bias in our alternative data source as $p'-p$. Since the number of remaining individuals from the population that are not in the alternative data source is $N''=N-N'$, we know that
$$Np=N'p'+N''p'', $$
which is a rather convoluted way of saying that if your alternative data source has a bias, the remaining part will be biased as well (but in the other direction).
Let's consider different values of $p'$ going from 0.05 to 0.15, which, with $N'=6,000,000$ and $N''=4,000,000$, corresponds with $p''$ going from 0.175 to 0.025, and corresponds with levels of bias going from -0.05 to 0.05. We then can calculate confidence bounds like we did above. In figure 1 the confidence bounds for the alternative data source (in black) are hardly noticeable. We've also plotted the confidence bounds for the sample case of $n=1000$, assuming no bias (in blue). The confidence interval is obviously much larger. But we also see that as soon as the absolute value of the bias in the alternative data source is larger than 0.02, the unbiased sample is actually better.   (Note that I'm aware that I have loosely interpreted the notions of samples, confidence interval and bias, but I'm just trying to make the point that more is not always better).


As said before, samples can and are biased as well, but are generally designed to be unbiased, while this is seldom the case for other (big) data sources. The crucial thing to realize here is that bias is (to a very large extent) not a function of (the sample) size. Indeed, virtue of the equation above, as the fraction of the alternative data source becomes close to 1, bias is less likely to occur, even if it was not designed for unbiasedness. This is further illustrated in the figure 2. For a few possible values of p (0.10, 0.25, 0.50 and 0.75) we have calculated what biases the complement of the alternative data source should show in function of the fraction that the alternative data source represents in the total population (i.e. sample fraction $N'/N$) and the bias $p'-p$. The point here is that the range of possible bias is very wide, only for sample fractions that are above 0.80 the sheer relative size of the subpopulation starts to limit the possible biases one can encounter, but even then biases can range from -0.1 to 0.1 in the best of cases. Notice that this is even wider than the example we looked at in figure 1.


For most practical cases in market research the fraction of the alternative data source(s) can be high, but will seldom be as high as 0.80. In other words, for all practical purposes (in market research) we can safely say that the potential bias $p'-p$ of alternative data source(s) is not a function of size, but rather from design and execution. I believe it is fair to assume that well designed samples combined with a good execution will lead to biases that will be generally lower than is the case for alternative data sources where unbiasedness is not something that is cared about.


Some concluding remarks.

I focused on bias but with regard to precision the situation is inversed, alternative (big) data sources will generally be much larger than the usual survey sample sizes leading to much smaller confidence intervals such as those in figure 1. The point of course remains that it does not help you much to have a very tight (i.e. precise) confidence interval if it is on a biased estimate. Of course, sampling error is just one part of the story. Indeed, measurement error is very often much more an issue than sampling error.

Notice by the way that enriching the part of your subpopulation that is not covered by the subpopulation with a sample does not work in practice because, in all likelihood, the cost of enriching is the same as the cost for covering the whole population. This has to do with the fact that, except for very high sample fractions, precision is not a function of population size $N$ (or in this case $N''$).

Does that mean that there is no value in those alternative (big) data sources? No, the biggest advantage I see is in granularity and in measurement error. The Big Data datsets are typically generated by devices, and thus have less measurement error and because of size they allow for a much more granular analysis. My conclusion is that if your client cares less about representativity and is more interested in granularity, than, very often, larger data sources can be more meaningful than classical (small) samples, but even then you need to be careful when you generalize your findings to the broader population.

Sunday, February 22, 2015

Market Research and Big Data: A difficult relationship

This is a write up of the talk I gave on the 'Insight Innovation eXchange Europe 2015' conference on 18-02-2015 in Amsterdam. IIeX is a conference that is focused around Innovation in Market Research.

My talk was a rather general one in which I tried to sketch the relationship between market research and big data. After a brief introduction, I started by explaining how computing played an important role in Market Reseach right after the second world war. Then I gave an overview of the current state, and finally I looked at what the future might bring us when it comes to Big Data applications in Market Research.



When I talk to people in market research and I tell them that I work in Big Data I have the impression that I'm greeted with less enthusiasm than was the case a few years a go.  Indeed, it appears that the initial enthusiasm for Big Data in the Market Research community has dwindled down a bit.

I like to describe the relationship between market research and big data with The Three Phases of A Narcissistic Relationship (See The Three Phases of A Narcissistic Relationship Cycle: Over-Evaluation, Devaluation, Discard by Savannah Grey).  A narcissist will choose a victim who is attractive, popular, rich or gifted. They will then place the target on a pedestal and worship them. The target is seen as the greatest thing ever. Here the Narcissist is ecstatic, full of hopes and dreams. They will talk and think about them constantly, they are euphoric. Now I'm not going to say that market research people where excstatic and full of dreams when it came to big data, but you will have to admit that the initial enthusiasm for big data was especially high amongst market researchers.

But the narcissist is easily bored. The attention they  gave to their target is gone and is replaced by indifference. This is the devaluation phase. The narcissist becomes moody, easily agitated, starts to blame and criticize the target. In the market research world, after a while, we saw a larger amount of papers that were quite critical with regard to Big Data. Big Data was often blamed for stuff we are not so good at ourselves (bad sampling, self-selection, dodgy causality).

Finally, in the Discard phase, the narcissist pulls away and starts to devote attention to its next victim, such as Neuro marketing, Internet of Things, and what have you. 

Now of course I realize that this story is purely anecdotical, and has no scientific value. All I want to do here is to illustrate the tendency of Market Research to cherry pick innovations in other domains and apply it as a novelty in Market Research and then move on to the next darling. 


The 'old' days

Now let me show you an example of true innovation in Market research, albeit from a long time a go. For that, I need to take you to the streets of Chicago in the 1940's, where a young man was thinking about how he could help his father's business become more efficient. His father, Arthur Nielsen Senior, had devised this methodology where he would sample stores in the U.S., and send out people to those stores to measure the stock levels of the products in the stores and look at the purchase invoices. By a simple substraction rule and projecting up to the population he could reasonably estimate sales figures. Back in the fourties there were no computers in private companies yet. They just started to emerge in the army and in some government administrations.  In those days it was not unusual to see a team of human calculators who did the number crunching.



I can't read the mind of the son, Arthur Nielsen Junior, but I can imagine that he must have said to himself while looking at his dad's calculation team:
Hmm, Volume seems to be high here. And so is the Velocity.
Indeed, in those days they were doing this every two months. This is slow by today's standards, but it was fast in the 1940's. I can only speculate, but I like to think that he also added:
Hmm, luckily we're doing OK on Variety and Veracity. Otherwise we would have to talk about the 4 V's of Human Calculators.
Back on a more serious note, Arthur Junior was in the army during the war and there he had seen that the army deployed computers to crack the encrypted messages of the Germans. He convinced his dad's company to invest a large amount of money in these new machines. Not many people outside of market research know this, but it was a market research company that was the first private company to ever order a computer.  OK, I must admit the first order was in fact a tie with Prudential, and that first order might not have led to the first deployment of a computer in a private company (I believe the order got postponed at some point), but the important point here is the vision that these new machines would be useful in market research.

Let me give you a second example. PL/1 stands for Programming Language 1 and is, as the name indicates, one of the first programming languages. It got introduced in the 60's. The first versions of SAS were written in PL/1 and its DATA STEP has a bit of a PL/1 flavour to it. One of my current clients in the financial area still runs PL/1 in production, so it's still around today. Well, Nielsen UK was the 6th company in that country to adopt this new language. Market researchers in those days were true pioneers. We tend to forget that a little bit.


Big Data Analytics in Market Research Today

According to GreenBook GRIT-report Market Research is doing quite well in Big Data.



More than 35%, both of clients and suppliers, have used Big Data Analytics in te past. But notice that this includes those that have done a one-off experiment. Secondly, the ambiguous definition of Big Data might have played a role as well. If we look at those that consider it, we see that that percentage for clients is a bit higher than with the suppliers.

What about evolution? 



Let's compare the second half of 2013 with the first half of 2014. In terms of using Big Data Analytics we see a very small increase and in terms of considering it, there is no increase at all. We seemed to have plateaued here, albeit at at a high level.



In terms of papers and articles this list is more anecdotical than representative, but titles such as 'The promise and the peril if Big Data' illustrate the mixed feelings we seem to have.

In other words, market research seems to be bipolar when it comes to Big Data. We want to be part of the game, but we're not really sure.


My advice to suppliers of market research

  • Don’t look at Big Data as just a fad or hype. By treating it as a fad we will miss an opportunity (and revenue) to answer questions our clients have. The hype will go, but the data will not go away!
  • Don’t look at Big Data as a threat to Market Research. It's not. Very often we already have a foot in the door. Very often we are seen as the folks who know how to deal with data. If we decline, other will players move in. Yes, in some sectors we might have lost some ground, especially to consultancy firms, Business Intelligence folks and companies with a strong IT background.
  • But embrace it as a new (business) reality and learn how to process large amounts of structured and unstructured data.  
The latter, learning how to process large amounts of data, is not difficult, and it doesn't have to be expensive. You can already do a lot with R on a reasonably priced system and parallelize if need be, if you want to stay away from the typical Big Data Platforms, such as Hadoop. 



Distributed storage and processing



But in fact we should not shy away from those new platforms. Again, it's (relatively easy) and it's, in principle, cheap. Any reasonably sized market research company with a few quants should at least consider it. 

Hadoop takes care  of distributed storage and distributed processing on clusters of commoditidy hardware. The storage part is called HDFS, The processing part is based on Map Reduce. I'm sure a lot of you have heard about Map-Reduce, but for those of you who have not, let me give a quick recap. Map Reduce is a strategy to run algorithms in parrallel on a cluster of commodity hardware. 

Let's take the example a making hamburgers. I got the following figure from Karim Douïeb. 



Imagine you  have plenty of ingredients and a lot of kitchen personnel. What you don't have is a lot of time. People are waiting for their burgers. Furthermore, you have a rather small kitchen, say you only have one place to panfry the burgers. One approach would be to assign one person in the kitchen per order and let them individually slice the ingredients, fry the meat for their burger, assemble it and serve it. This would work, but you quickly would get a queue at the frying pan, and your throughput of burgers would suffer.

An alternative approach is to assign one person in the kitchen per ingredient and have them slice or fry it. One or more other persons would pick up the required number of slices per ingredient, assemble it and serve the burgers. This approach would substantially increase the throughput of hamburgers, at the cost of a bit more coordination. The folks who do the slicing or frying are called the Mappers, the persons who are assembling the burgers and serve it, are called the Reducers. In Hadoop, think about data rather than ingredients, and about processors (CPU's) rather than kitchen personnel.  

The trick is thus to try and express your algorithm in this map and reduce framework. This may require programming skills and detailed knowledge of the algorithms that might not be available in your quant shop. Luckily there are some tools that shield the Map and Reduce for you. For instance you can access HDFS easily with SQL (Impala, Hive, ...). If you have folks in your team who can program in, say SAS, where they might already use PROC SQL today, they will have no problem with Impala or Hive.  

Another approach is to use R to let your quants access the cluster. It works relatively well,  although it needs some tweaking.

The new kid on the block is Spark. Spark does not require you to write barebones Map Reduce jobs anymore. It is sometimes hailed as the successor to Hadoop, although they often co-exist in the same environment. Central to Spark is the Resilent Distributed Dataset (RDD) which allows you to work more in-memory than traditionally, it abstracts some of the Map/Reduce steps for you, and it generally fits better with traditional programming styles.  Spark allows you to write in Java, Scala or Python (and soon R as well). With SparkSQL it has an SQL-like interface, Spark Streaming allows you to work in real-time rather than in batch. There is a Machine Learning  library, and lots of other goodies.  

Tools such as Hive, R and Sparc make distributed processing within reach of market researchers. 


Trends


There are few trends in the Big Data and Data Science world that can be of interest to market researchers:
  • Visualization. There is a lot of interest in the Big Data and Data Science world for everything that has to do with Visualization. I'll admit that sometimes it is Visualize to Impress rather than to Inform, but when it comes to informing clearly, communicating in a simple and understandable way, storytelling, and so on, we market researchers have a head start. 
  • Natural Language Processing. One of the 4 V's of Big Data stands for Variety. Very often this refers to unstructured data, which sometimes refers to free text. Big Data and Data Science folks, for instance, start to analyze text that is entered in the free fields of production systems. This problem is not disimilar to what we do when we analyse open questions. Again market research has an opportunity to play a role here. By the way, it goes beyond sentiment analysis. Techniques that I've seen successfully used in the Big Data / Data Science world are topic generation and document classification. Think about analysing customer complaints, for instance.
  • Deep Learning. Deep learning risks to become the next fad, largely because of the name Deep. But deep here does not refer to profound, but rather to the fact that you have multiple hidden layers in a neural network. And a neural network is basically a logistic regression (OK, I simplify a bit here). So absolutely no magic here, but absolutely great results. Deep learning is a machine learning technique that tries to model high-level abstractions by using so called learning representations of data where data is transformed to a representation of that data that is easier to use with other Machine Learning techniques. A typical example is a picture that constitutes of pixels. These pixels can be represented by more abstract elements such as edges, shapes, and so on. These edges and shapes  can on their turn be furthere represented by simple objects, and so on. In the end, this example, leads to systems that are able to reasonably describe pictures in broad terms, but nonetheless useful for practical purposes, especially, when processing by humans is not an option.  How can this be applied in Market Research? Already today (shallow) Neural networks are used in Market Research. One research company I know uses neural networks to classify products sold in stores in broad buckets such as petfood, clothing, and so on, based on the free field descriptions that come with the barcode data that the stores deliver. 

Conclusion

My advice to the market research world is to stop conceptualizing so much when it comes to Big Data and Data Science and simply apply the new techniques there were appropriate.


Sunday, June 29, 2014

Wat een Leuvense rector nog kan leren van een Engelse Presbyteriaanse predikant

Vorige week kwam de Leuvense rector, @RikTorfs, met het voorstel om een bindend toelatingsexamen in te richten voor leerlingen uit het beroepsonderwijs of een andere niet-aansluitende richting komen die toch aan de universiteit willen studeren.  De krant Het Laatste Nieuws vat het als volgt samen:
Met een toelatingsproef wil de KU Leuven iets veranderen aan het grote aantal mislukkingen bij eerstejaars. "We willen niemand uitsluiten om universitaire studies te volgen en schakelprogramma's blijven bestaan, maar wie beroepsonderwijs volgde heeft in de praktijk weinig kans op slagen aan de universiteit", zei Torfs daarover.
Zoals te verwachten was de reactie op dit voorstel massaal en zelden instemmend. Volgens directeur-generaal van het Vlaams Secretariaat van het Katholiek Onderwijs, Mieke Van Hecke,  wordt de indruk gewekt dat de beroeps studierichtingen minderwaardig zijn.  In het Standpunt van De Morgen hekelt @barteeckhout de exclusieve en elitaire visie van de Leuvense Rektor:
Uitsluitend scholieren met een specifieke onderwijsachtergrond de weg belemmeren met een toegangsproef, is enkel een onrechtvaardige manier om de kloof tussen kansarm en kansrijk in het onderwijs vast te betonneren. 
De Gentse Professor psychologie @wduyck breekt in een opiniestuk in De Standaard een lans voor verplichte oriënteringsproeven, maar heeft bedenkingen bij het bindend karakter ervan:
Zelfs een kleine foutenmarge is op groepsniveau verwaarloosbaar, maar op individueel niveau fundamenteel onrechtvaardig.
Torfs kon ook op steun rekenen, o.a. van zijn voorganger André Oosterlinck. Al waren sommige andere steunbetuigingen, allicht onbedoeld,  iets minder diplomatisch. @IvanVandeCloot, bijvoorbeeld, tweette:
Betekent democratisering onderwijs dat iedereen zonder bewijs v talent de middelen vandie gemeenschap mag verspillen? 
Hoe dan ook, het is interessant om vast te stellen dat zowel pro als contra het eens zijn dat er iets schort aan de slaagpercentages aan de universiteit. Er wordt dan met name verwezen naar de de hoge kost waarmee die lage slaagpercentages gepaard gaan.

Laat ons eens kijken naar de slaagpercentages. Ik steun hiervoor op een studie "Determinanten van de differentiële slaagkansen in het hoger onderwijs" van Kristel Rombaut  o.l.v. Bea Cantillon en Gerlinde Verbist uit 2006 met cijfers uit het academiejaar 2003-2004. Deze cijfers zijn relatief oud, maar ik kon geen recentere cijfers vinden die de invalshoek bieden die ik wou volgen. Ik meen ook dat er sindsdien geen grote wijzigingen hebben voorgedaan in het patroon van slaagcijfers (Noot: Als iemand recentere cijfers heeft die tot andere besluiten zouden leiden, dan verbeter ik met veel plezier deze blogpost).

De meest gebruikte cijfers in deze discussie zijn de slaagpercentages per richting die de student volgde in zijn/haar vooropleiding:
waarin:

  • ASO1: Grieks-Latijn, Grieks-wetenschappen, Grieks-wiskunde en
  • Latijn-wiskunde
  • ASO2: Wetenschappen-wiskunde en Latijn-wetenschappen
  • ASO3: Latijn-moderne talen, Moderne talen-wiskunde en Economiewiskunde
  • ASO4: Economie-moderne talen, Menswetenschappen, Moderne talenwetenschappen, Rudolf Steinerpedagogie, Sport-wetenschappen, Wetenschappen-topsport en Yeshiva
  • BSO: Beroepssecundair onderwijs
  • KSO: Kunstsecundair onderwijs
  • TSO: Technisch Secundair onderwijs

Je ziet inderdaad dat alle Algemeen Secundair Onderwijs (ASO) richtingen een hogere slaagkans hebben dan  BSO, KSO en TSO. De voor de hand liggende conclusie is dat we voornamelijk aan die laatste groep moeten kijken om de slaagkansen op te krikken. 

Als je hoofdbekommernis de schaarse overheidsmiddelen zijn die verloren worden aan de niet-geslaagden, dan moet je natuurlijk eerder naar de samenstelling van de groep van de niet-geslaagde universitairen kijken. We kunnen dit verduidelijken door de zaak uit te drukken in termen van conditionele kansen. Je kan, mits wat goede wil, de proporties uit de grafiek hierboven zien als de kans dat men slaagt ($S$) gegeven een bepaalde richting ($R_i$) in de vooropleiding. Formeel kan je dat noteren als:
$$ P(S|R_i).$$
Vanuit budgetair standpunt is het logischer om te kijken naar de kans dat met van een bepaalde richting komt gegeven dat men  geslaagd  is:
$$ P(R_i|S)$$
of eigenlijk, dat men niet geslaagd is  ($\overline{S}$) is:
$$ P(R_i|\overline{S})$$
Deze gegevens hebben we niet, maar gelukkig kunnen we gebruik maken van de regel van Bayes, die ook de omkeerformule wordt genoemd, omdat het de "omgekeerde" voorwaardelijke kans berekent.

Uit het onderzoek van Kristel Rombaut weten we dat over alle richtingen uit de vooropleiding heen de proportie niet geslaagden $P(\overline{S})=0.492$ bedroeg. Het onderzoek geeft ook de samenstelling van de eerstejaars studenten naar de richting uit hun vooropleiding. De grafiek hieronder geeft de kansen $P(R_i)$ voor de 8 beschouwde groepen:
  
Verder is $P(\overline{S}|R_i)=1-P(S|R_i)$. We passen Bayes toe en krijgen:
$$ P(R_i|\overline{S})= {P(\overline{S}| R_i) \times P(R_i)\over P(\overline{S})}.$$
De grafiek hieronder geeft de resulterende kansen weer:

We zien nu duidelijker dat de meeste niet geslaagde eerstejaars studenten uit de ASO richtingen komen (77%). Daar is niets wereldschokkend aan, dat weten we al lang, maar het is misschien wel nodig om dit in deze discussie in herinnering te brengen.
Als ik even abstractie maak van de groep Onbekend, dan komt slechts een goede 11% van de niet-geslaagde eerstejaars uit de doelgroep van de voorgestelde toelatingsproef. Zo'n toelatingsproef lijkt dus geen goede methode te zijn om de algemene slaagkansen te verhogen en de kosten die gepaard gaan met het niet slagen te verlagen.

Ik weet niet of het voorstel van Rik Torfs stigmatiserend of elitair is, maar ik denk alvast wel dat het voorstel weinig zal veranderen aan de lage slaagkansen en de hoge kosten. Als men de weg van toelatingsproeven wil bewandelen moet men minstens de moed hebben omdat ook voor de ASO richtingen te doen.


Sunday, June 22, 2014

So what's the deal with the Birthday Paradox and the Word Cup Football?

As a data scientist I'm always happy when a newspaper spends time in explaining something from the field of Statistics. The Guardian is one of those newspapers that does a very good job at that. @alexbellos often contributes to the Guardian and I must say I often like the stuff he writes. Just recently he wrote a piece entitled "World Cup birthday paradox: footballers born on the same day", which was taken over by the Belgian quality newspaper De Standaard. The headline there was "Verbazend veel WK-voetballers zijn samen jarig", which roughly translates to "Surprisingly many Word Cup players share birthdays". Notice already that the headline in De Standaard is less subtle than the one in The Guardian.

Alex Bellos starts with explaning what the birthday paradox is:
The birthday paradox is the surprising mathematical result that you only need 23 people in order for it to be more likely than not that two of them share the same birthday.
He then refers to the internet for explanations of why this is in fact the case (see, for instance, here). He then, rightfully, remarks that the world cup football offers an interesting dataset to verify the birthday paradox. Indeed, the 32 nations that participate have 23 players each. We would therefore expect to see about half of the teams to have shared birthdays. It turns out that 19 of the teams have shared birthdays. So far so good. 

The problem I have with the article is in the subsequent part. But before we come to that, let's have a look at the summary in the begining of the article:
An analysis of the birth dates of all 736 footballers at the World Cup reveals that a surprisingly large number of teammates share the same birthday, and that seven were born on Valentines' Day
The observation about Valentine's day is an interesting one because it plays on the same distinction between the "a same day" and "the same birthday" that makes the birthday paradox surprising for some. From that perspective it would have been interesting to mention what the probability is that in a group of 736 we would see 7 or more people that share the same birthday. In defence of the author, I must admit that it is surprisingly hard to find references to this extension of the birthday problem (but see here, here and here).   I understand a closed solution for triplets was published by Anirban DasGupta in Journal of Statistical Planning and Inference in 2005. On the web I only found one solution for the general problem, but I could only get it to work for the trivial case of 2 and the more complicated case of 3. But for 7 it gave very strange results. So either the formula was wrong, or, more likely, my implementation of the formula was wrong. I then used the poor man's mathematics, i.e. the simulation.

In a first simulation I randomly selected 736 birthdays from a uniform distribution. I then counted how many players I found that didn't share a birthday with any of the other players, and how many pairs of players shared a birthday, how many triplets, and so on. This is a barplot of the results I got:

As you can see, 7 was present as well. Granted, it was not Valentine's day, but nonetheless it is a birthday shared by 7 players. Notice, by the way, that there are far more players that share a birthday with one other player than those that don't share a birthday (2 times about 110 versus about 100).

I then repeated that process 10,000 times and each time verified whether there were birthdays that were present 7 or more times. This allowed me to estimate the probability that in a selection of 736 players one (or more) birthdays is shared by 7 or more players to around 83%. It is therefore not remarkable at all that in the Worldcup in Brazil we've found such a birthday as well.


The second issue I have with this article is the part where the question was asked why we observed 59.4% (19 out of 32) instead of the expected 50.7% (the theoretical probability for a group of 23). Although the author suggests the possibility that this is because of chance, he doubts it and instead offers an alternative based on the observation that footballplayers are more likely to have their birthdays in the beginning of the year than at the end of the year. The reason for this skewed distribution has to do with the school cut-off date (very often the first of January), height of the children in school and dominance in sports.

I don't question this theory, it's not my area of expertise. Furthermore, I believe that the skewed distribution amongst sportsmen has been observed before. What suprises me, though, is that an article in which the birthday paradox plays an important role, does not use probability theory and statistics more to put these observations in perspective. In this case the natural question to ask is: if, in a team of 23 players, the probability of having a shared birthday is 0.507 and we have 32 teams what is the probability to find 19 or more teams with a shared birthday.   This can easily be calculated with the binomial distriubution and results in 0.21, again not unlikely at all. That said Alex Bellos does not exclude that it's all by chance, he simply doubts it, which is fair.

As said earlier, I don't question the theory of the skewed distribution for sportsmen, so I will not calculate what the probability is to observe the worldcup specific distribution under the hypothesis of a uniform distribution. But I do think that the author should also have looked at what the probabality is of having players with shared birthdays under a "footballer"-specific distribution rather than the uniform distribution. I don't have such a distribution or a more general "sportsman"-specific distribution available (although I'm sure it must exist, because the skewed distribution of birthdays of sportsmen is well documented), so here I will simply use those that Alex mentioned in his artcicle, i.e.January 72, February 79, March 64, April 63, May 73, June 61, July 54, August 57, September 65, October 52, November 46, and December 47. I simply transformed those to daily probabilities and then assumed they are generaly valid for the population of "Worldcup attending football players". The plot below shows the two distributions considered.  
Furthermore, if we can't rely on the uniform distribution, the calculations for the birthday paradox become complex (at least to me), so I again resort to simulations. 

After 10,000 replications, the result of the simulation is 0.518, which means that under the skewed footballer distribution we would expect to see shared birthdays in 51.8% of the teams of 23 players. This is only 1.1 percentage points higher than in the uniform distribution case. If you don't accept 19 out of 36 (i.e. 59.4%) because that's too far from 50.7%, it's hard to see why you would find 51.8% so much more convincing. In other words, the birthday paradox is not such a good measure for indicating whether football players really have a different (skewed) birthday pattern compared to the rest of the population. It would have been clearer if the two topics were separated:

  • Do football players, like other sportsmen, have a different birthday pattern than the rest of the population?
  • The worldcup is an excellent opportunity to illustrate the Birthday paradox.

As an interesting side note, in the mean time it turns out that the data Alex used was not completely correct and with the new data the number of teams with shared birthdays has become 16. This is exactly the number we would expect under the uniform distribution. Notice though that under the skewed distribution and using the usual conventions of rounding, we would expect to see 17 teams teams with shared birthdays instead of 16. So, using their own reasoning, the headline in the De Standaard Newspaper now should change to: "Suprisingly few Wordcup players share a birthday". Unless, of course, you follow the reasoning using the binomial distribution mentioned above and conclude that with 32 replications this is likely to be coincidental. 

Monday, May 12, 2014

Hebben 'verkiezingspolls' geen enkele wetenschappelijke waarde?

In Campuskrant (p. 17) van de K.U.Leuven hekelt mijn (vroegere) vakgroepgenoot, de socioloog Bart Meuleman, 'verkiezingspolls'. Dit werd gedeeltelijk ook overgenomen door De Redactie.

(Voor een goed begrip en bij wijze van full disclosure: ik heb op het einde van de vorige eeuw een jaar of acht (met veel plezier) gewerkt in de vakgroep methoden van de K.U.Leuven, toen onder leiding van Prof Dr. G. Loosveldt en Prof. Dr. J. Billiet. Ik ken de heer Meuleman dus persoonlijk niet. Verder heb ik daarna 10 jaar gewerkt voor Nielsen, 's werelds grootste marktonderzoeker en een jaar bij iVox een marktonderzoeksbureau gespecialiseerd in online methoden.  Op dit ogenblik adviseer ik bedrijven en organisaties in verband met methodologie, statistiek en Data Science. Noch TNS, noch IPSOS zijn op dit ogenblik klanten van mij en ik ben geen lid van Febelmar). 

Laat ons beginnen met de (forse) openingsquote van het artikel:
Ik heb een groot probleem met verkiezingspolls. Als wetenschapper kan ik moeilijk anders: ze hebben geen enkele wetenschappelijke waarde.
Het klopt dat niet alle opiniepeilingen rond de verkiezingen methodologisch even grondig te werk gaan. Er zijn er goede bij en er zijn er slechte bij. Overigens is dat ook zo bij academisch onderzoek. Om meteen alle peilingen af te doen als onwetenschappelijk is vreemd. Immers, voor veel academisch onderzoek wordt beroep gedaan op dezelfde instrumenten, vaak zelfs bij dezelfde bureaus. Heel wat academici zijn een stuk genuanceerder dan de heer Meuleman als het over dit onderwerp gaat. Armen Hakhverdian, Tom Louwerse en Tom van der Meer, bijvoorbeeld, drukken het op Stuk Rood Vlees als volgt uit:
Mits correct uitgevoerd en geïnterpreteerd – twee grote ‘mitsen’ – vormen opiniepeilingen een fantastisch instrument met onschatbare waarde voor ons begrip van electorale processen. 

Wat ook waar is, maar niet vermeld wordt door de heer Meuleman, is dat de verslaggeving over de opiniepeilingen ook van gemengde kwaliteit is. In sommige gevallen worden, bijvoorbeeld, betrouwbaarheidsintervallen vermeld, in andere gevallen dan weer niet. Ergerlijk zijn de artikels waarbij  in een kaderstuk de methodologische beperkingen worden aangeduid terwijl in het stuk zelf vrij ongenuanceerd wordt ingegaan op het minste en geringste verschil.
In de schoot van Febelmar, de Belgische associatie van marktonderzoekers wordt voor elke (politieke-) opiniepeiling een technische fiche opgegeven waarin de foutenmarges worden opgegeven. Als dit niet vermeld wordt in het artikel of de reportage is dat de verantwoordelijkheid van de journalist en niet van het marktonderzoeksbureau. Het lijkt me fair te zijn om een onderscheid tussen deze twee elementen. Helaas doet de heer Meuleman dat niet.

Verder stelt de heer Meuleman:
Wat dat eerste betreft (verkiezingspolls hebben geen enkele wetenschappelijk waarde, IH): vaak is het aantal deelnemers te beperkt, en zijn de foutenmarges te groot om kleine verschuivingen te meten.

Het is niet correct om de wetenschappelijkheid van een methode te koppelen aan de grootte van de foutenmarges. Het spreekt voor zich dat, als de foutenmarges het niet toelaten, je kleine, vaak politiek relevante, veranderingen niet kunt aantonen. Als dat wel gebeurt is dat vaak de verantwoordelijkheid van de journalist en/of van het peilingsbureau maar dat heeft weinig te maken met de wetenschappelijkheid van het instrument als dusdanig, hoogstens kan je je vragen stellen rond het nut van de methode gegeven de vraagstelling.

Een beetje verder stelt de heer Meuleman:
De peilers geven het in hun technische fiches met zoveel woorden toe: ‘Deze peiling is zonder voorspellende waarde’. Waar ben je dan nog mee bezig Waarom wacht je dan niet gewoon de verkiezing af?
Eén van de redenen waarom er expliciet gezegd wordt dat het onderzoek niet voorspellend is heeft te maken met het soms grote aantal onbeslisten en het aantal mensen dat alsnog van mening veranderd is. Het instrument is niet geschikt om daarover uitspraken te doen. Dat expliciet maken vind ik juist eerlijk. Is het instrument dan irrelevant? Ik denk het niet. Volgens mij is het waardevol om in de maanden en weken voor de verkiezingen een beeld (hoe rudimentair ook) te hebben van het electoraat op dat moment.

Over Online panels wordt het volgende gezegd:
De peiling van De Morgen en VTM werkt met online panels. Dan kom je niet bij de gemiddelde kiezer terecht, maar bij mensen die vaak online zitten en veel tijd hebben.
Over telefonische bevragingen wordt het volgende gesteld:
De Standaard en de VRT werken dan weer met telefonische bevragingen. Dan cover je de ganse bevolking al beter, maar bij dat soort peilingen is de respons dan weer héél laag.
De opmerking over online panels versus telefonische bevraging is anno 2014 stilaan voorbijgestreefd. De grootte van de populatie van (vaste) telefoonbezitters en internet gebruikers groeit steeds dichter bij elkaar. Zo ook het opstellen van een correct steekproefkader, dat vaak voor beide methoden problematisch is. Verder is de opmerking dat je bij online panels bij mensen terecht komt die 'veel tijd' hebben bij de haren getrokken en selectief.  Veel bureaus doen juist heel veel moeite om hun panels evenwichtig samen te stellen en controleren de mate van respons van de panelleden. Bovendien is het merkwaardig dat de heer Meuleman dit argument achterwege laat bij telefonische bevragingen. Bij online-bevraging kies je immers vaak zelf wanneer je de vragenlijst invult, en zou dus meer moeten appelleren aan mensen met weinig tijd.  Je kan trouwens een gelijkaardig argument gebruiken in verband met postale en face-to-face bevragingen.
Overigens is het juist sinds de opkomst van online methodologie dat er nog meer belang wordt gehecht aan korte bevragingen.
Tenslotte, als online methoden per definitie onwetenschappelijk zijn, dan begin ik me wel zorgen te maken over de faculteit van de heer Meuleman, want daar worden maar al te vaak online methoden gebruikt in onderzoek.


Een tweede element waar de heer Meuleman het moeilijk mee heeft is het effect dat deze peilingen hebben .

Inderdaad, uit heel wat onderzoek blijkt dat er wel degelijk een effect is van dit soort van peilingen. Je kan je inderdaad de vraag stellen of het, gegeven het feit dat je met verkiezingspolls slechts de grove trends kan bepalen, niet beter is om de peilingen volledig achterwege te laten. Persoonlijk denk ik dat dat geen goede zaak zou zijn. Immers, als je niet geregeld een peiling houdt dan zet je de deur wagenwijd open voor (nog meer) speculatie, gespin en  de mening van 'experten'. 
Hoe dan ook, zelfs in dat geval blijft de vraag of deze experten het beter doen dan de peilers. Ik ben me niet bewust van dergelijk onderzoek in Vlaanderen, maar één van de lessen die te leren zijn uit het boekje "The signal and the noise" van Nate Silver is juist dat experten het vaak (nog) slechter doen dan het werk van de peilers. Nate Silver heeft bekendheid verworden omdat hij, in tegenstelling tot heel wat journalisten, politieke wetenschappers en andere experten, wel de uitslag voor alle Staten van de VS juist heeft voorspeld. Eén van de bronnen die hij daarvoor gebruikte waren ... verkiezingspolls, waaronder een heel aantal online polls, en polls met een kleine steekproef. Het gaat er dus niet om om radicaal tegen verkiezingspolls te zijn zoals de heer Meuleman, of kritiekloos de resultaten van die verkiezingspolls over te nemen. Neen, het gaat er juist om de gegevens naar waarde te schatten en dat is heus niet zo binair als de heer Meuleman wil doen uit schijnen.


Ik vind het spijtig dat sommige academische methodologen met hun starre houding (verkiezingspolls zijn onwetenschappelijk en dus waardeloos) zichzelf irrelevant hebben gemaakt in de nochtans boeiende en bloeiende discussie rond methodologie in de praktijk (kijk maar naar de interesse voor Data Science, Big Data, data journalistiek, enzovoort). In plaats van aan de zijlijn te roepen dat alle verkiezingspolls onwetenschappelijk zijn, zouden ze beter (mee) de strijd aangaan tegen lakse berichtgeving en tegen het amalgaam dat gemaakt worden tussen op zelf-selectie gebaseerde methoden en deze die daar niet (of toch minder) op gebaseerd zijn.

Nederland bewijst dat het ook anders kan. Op het reeds vernoemde Stuk Rood Vlees  bijvoorbeeld, zijn politieke wetenschappers en methodologen (terecht) bijzonder kritisch op opiniepeilingen in verband met verkiezingen, maar zij doen dat op een meer genuanceerde en sterker onderbouwde manier dan zomaar alle verkiezingspolls als onwetenschappelijk af te doen.

Ik eindig met een tweede citaat van  Armen Hakhverdian, Tom Louwerse en Tom van der Meer:
We moeten af van het zwart-wit denken over peilingen. Het alternatief voor de belachelijke overinterpretatie van peilingen is niet om ze te negeren of zelfs te verbieden, maar om ze correct in te zetten. Met oog voor de inherente onzekerheid en mogelijke vertekeningen bieden peilingen waardevolle inzichten in de publieke opinie. Helaas vereist dat een terughoudendheid van peilers, media en persbureaus waar velen al jarenlang geen blijk van geven.

Saturday, April 19, 2014

Hoe moorddadig zijn Luxemburgers eigenlijk?

Op 11 April verscheen in de krant "De Morgen" een artikel met als kop: "Meer moorden in Brussel dan in Londen en Parijs". Het artikel behandelt het 'Global Study on Homicide 2013'-rapport, gepubliceerd door de Verenigde Naties. De journalist geeft de top 5 weer van de Europese hoofdsteden waarin het meeste aantal moorden gebeuren en zoomt dan in op de plaats van België:
Helemaal bovenaan prijkt Tirana (Albanië) met 6,7 moorden per 100.000 inwoners in 2012. Tallinn (Estland), Chisinau (Moldavië), Riga (Letland) en Moskou vervolledigen de top vijf. Brussel staat op de twaalfde plaats Brussel met 2,6 moorden. In West-Europa heeft alleen Luxemburg meer moordgevallen met 3,2 per 100.000 inwoners. 
Vooral de laatste zin, waarin een vergelijking wordt gemaakt met Luxemburg, is nogal ongelukkig gekozen. Dries Benoit verwees op Twitter naar een blog post van hem waarin hij, naar aanleiding van "Het Gemeente-Rapport" van Het Nieuwsblad, uitlegt waarom het misleidend kan zijn om, zonder verdere informatie, te kijken naar de rangschikking van eenheden. Een gelijkaardig verhaal deed ik zelf ook al in deze blogpost (De Moivre's equation and the solar panels of Lo-Reninge), naar aanleiding van een artikel in De Standaard met als kop: "Niemand maakt meer zonne-energie dan inwoners Lo-Reninge".

Laat ons eens in detail bekijken wat er mis kan lopen wanneer we zonder meer het aantal moorden per 100000 inwoners met elkaar vergelijken. Ten eerste, kost het maar enkele minuten om op de website van de website van de United Nations Office On Drugs and Crime (UNODC) de data terug te vinden die aan de basis liggen van het artikel. Laat ons dan meteen kijken naar de verdeling het aantal moorden per jaar per 100000 inwoners in de Europese hoofdsteden. De cijfers hebben betrekking op de jaren van 2005 tot 2012. Voor sommige steden zijn alle jaren beschikbaar, voor anderen zijn er slechts enkele jaren beschikbaar.
Hierboven zie je dat de meeste observaties tussen de 0 en de 5 moorden per 100000 inwoners zitten. Het gemiddelde is aangegeven met de verticale rode stippellijn, en bedraagt 2.54. Er zijn een klein aantal observaties die boven de 10 uitkomen. De hoogste waarde, 15.9, werd opgetekend in 2010 in Valletta, de hoofdstad van het lieftallig eiland Malta. De laagste waarde, 0.0, komt verschillende malen voor, o.a. in hetzelfde Valletta in 2009 en in 2011. Zijn de Maltezen in 2010 collectief aan het moorden geslagen om het jaar daarna terug in peis en vree verder te leven? Neen, in 2010 gebeurde er welgeteld 1 moord. De jaren ervoor en erna was dat telkens 0 per jaar. Maar met een goede 6000 inwoners vertaalt zich dit in een relatief cijfer van 15.9 per 100000 inwoners. Andere steden die soms of zelfs vaak 0.0 scoren zijn Vaduz, de hoofdstad van Liechtenstein, Reykjavik (Ijsland),  Ljubljana (Slovenië), en ..., Luxemburg (Luxemburg). Hetzelfde Luxemburg dat in het artikel in De Morgen werd  omschreven als het enige West-Europees land met een nog hoger moordcijfer dan België.
Hoe dan ook, de steden die hierboven werden vermeld zijn niet onmiddellijk bekend als grote wereldsteden. Kortom, het is  duidelijk dat we ook rekening moeten houden met het aantal inwoners per stad. In de grafiek hieronder staat het aantal moorden per 100000 deze keer op de Y-as, en het aantal inwoners op de X-as. (Voor de eenvoud heb ik de meeste recente bevolkingsaantallen opgezocht. Hierdoor zullen de cijfers voor snelgroeiende of snel krimpende steden niet helemaal correct zijn, maar daar staat tegenover dat werken met één cijfer een aantal zaken wel iets gemakkelijker maakt). Elk blauw punt op de grafiek stelt een observatie (i.e. een stad, jaartal combinatie) voor. Aangezien ik per stad voor elk jaar dezelfde bevolkingsaantallen heb genomen staan de cijfers voor eenzelfde stad steeds op eenzelfde verticale lijn.
De horizontale stippellijn stelt opnieuw het gemiddelde voor. We zien heel duidelijk dat de hele grote en de hele lage waarden van het aantal moorden per 100000 inwoners geconcentreerd zijn bij de steden met een klein inwonersaantal. Naarmate we naar rechts opschuiven, i.e. naar de grotere steden gaan, dan zien we dat de geobserveerde waarden dichter rond de rode lijn van het gemiddelde geconcentreerd zijn. Een uitzondering hierop is Moskou, de grootste stad uit de analyse, helemaal rechts op de grafiek. Als we Moskou even buiten beschouwing laten, zien we dat de spreiding van de relatieve moordcijfers groter wordt naarmate de steden kleiner worden. Bij kleine steden kan die spreiding zodanig groot worden dat ze snel de hoogste en de laagste plaatsen kunnen innemen. Bovendien kan een stad het ene jaar bovenaan eindigen en het andere jaar onderaan en omgekeerd.
Om uitdrukking te geven aan de mate van variatie die je kan verwachten bij verschillende bevolkingsaantallen heb ik twee groene stippellijnen aan de grafiek toegevoegd. Wanneer de onderliggende waarde van het aantal moorden per 100000 inwoners gelijk zou zijn aan het gemiddelde (in dit geval 2.54)  dan zouden we in 99.9% van de gevallen alleen al omwille van de te verwachten variatie waarden kunnen tegenkomen tussen de twee groene lijnen. Bij zeer kleine bevolkingsaantallen zie je dat er zeer veel variatie mogelijk is, terwijl dit bij hogere bevolkingsaantallen kleiner wordt. Omwille van die typische trechter-vorm van de groene lijnen wordt deze grafiek ook wel eens een funnel-grafiek genoemd.
In het algemeen is de Funnel-grafiek is gebaseerd op de vergelijking van de Moivre:

$\sigma_{\overline x}= {\sigma \over\sqrt{n} },$

waarin $\sigma_{\overline x}$ de standaardfout van het gemiddelde is, $\sigma$ is de standaarddeviatie in de steekproef en $n$ is de steekproefgrootte. Voor meer uitleg hierover verwijs ik naar "The most dangerous equation", een artikel van Howard Wainer. 
Er moet wel bij gezegd worden dat er heel wat vooronderstellingen zijn, zoals onafhankelijkheid en homogeniteit, waar in dit geval manifest niet aan voldaan wordt. Het hoeft dan ook niet te verbazen dat er heel wat punten zijn die boven of onder de groene lijnen liggen. Dat wil helemaal niet zeggen dat er iets abnormaal is aan deze observaties, maar het geeft wel een ruw idee van welke observaties te verwachten zijn, en welke daar wel erg van afwijken.
Voor dit voorbeeld zien we alvast dat de waarde voor Valletta in 2010, toen het een score van 15.9 haalde, helemaal niet zo abnormaal is. Verder zien we een hele cluster van observaties tussen de 500000 en 1000000 die een hogere score halen dan we in het algemeen zouden verwachten. Tenslotte valt ook op, dat helemaal rechts, bij de grootste stad, zowel de waarden als de variatie van die waarden aan de hoge kant zijn.

Aangezien de studie van  het UNODC zelf het onderscheid maakt tussen vier sub-regio's gaan we deze één na één bespreken. We beginnen met West-Europa. Omdat we minder observaties hebben kunnen we beter aangeven over welke stad het gaat. Bovendien kunnen we nu ook gemakkelijker aangeven wat de waarden waren voor de verschillende jaren.

In deze Funnel plot zien we meteen dat de meeste observaties netjes tussen de twee groene stippellijnen liggen. Enkel Amsterdam in 2007 en Brussel in 2006 en 2008 komen er bovenuit. Het meest recente cijfer voor Brussel (2012) - dat is ook het cijfer dat werd gebruikt in het artikel in De Morgen - bedraagt 2.6 en valt dus netjes binnen de trechter. Het cijfer voor Luxemburg uit het artikel komt uit het jaar 2011 en bedraagt 3.2. Het jaar ervoor was dat  0.0 en twee jaar ervoor was het aantal moorden per 100000 inwoners nog 5.3.  Alle cijfers voor Luxemburg vallen binnen de trechter. Dit illustreert heel mooi dat de vergelijking Brussel/Luxemburg niet op z'n plaats was. Dit gezegd zijnde, als je de cijfers van de afgelopen jaren bekijkt dan zie je wel dat Brussel  hoger scoort dan Wenen, Parijs en Berlijn. Vooruitlopend op de cijfers voor Noord en Zuid Europa kun je ook stellen dat over de laatste jaren Brussel ook hoger scoort dan Rome en Londen. Vanuit die optiek is de titel van het artikel in De Morgen niet eens zo slecht gekozen.
In het algemeen kan je de verticale lijnen uit deze grafiek ook zien als een voorstelling van de spreidingsbreedte (ook wel variatiebreedte of range genoemd) zien. Je ziet heel goed dat de kleine steden (links) door de band een grote spreidingsbreedte hebben, terwijl de grote steden (rechts) een relatief kleine spreidingsbreedte hebben.

Voor Zuid-Europa zien we dat door de band de meeste observaties netjes binnen de trechter vallen. Let er ook op dat de schaal van de Y-as hier anders is. Voor het kleine Valletta zie je heel goed dat die ene moord die gebeurde in 2010, de score die alle andere jaren op 0.0 zit, in 2010 opstuwt naar bijna 16.

Voor Noord-Europa is het verhaal minder duidelijk. Dit heeft te maken met het feit dat ex-Sovjet republieken, Scandinavië, Ierland en het Verenigd Koninkrijk wel een heel heterogene groep is. Het feit dat Londen opvallend laag scoort ten opzichte van wat je zou verwachten op basis van het algemene gemiddelde van deze groep van hoofdsteden en het hoge aantal inwoners in die stad, heeft allicht ook te maken met de manier waarop ik het gemiddelde heb berekend op basis van de beschikbare gegevens.  Een gewogen benadering was hier allicht beter op z'n plaats geweest.

Al valt Reykjavik, de hoofdstad van Ijsland binnen de trechter zou ik daar meer variatie verwachten. Met ongeveer 115000 inwoners tekende de stad jaarlijks 0,1, 2 tot maximum 3 moorden per jaar op, wat bijzonder weinig is in vergelijking met andere steden uit deze groep. Kortom, de heterogeniteit van de steden uit Noord-Europa maken deze Funnel-plot minder bruikbaar.

In de Funnel-plot voor Oost-Europa, tenslotte, valt Moskou op. Deze stad toont veel meer variatie dan je zou verwachten op basis van het heel groot aantal inwoners. Het feit dat Moskou zo veel hoger scoort dan het gemiddelde zou je nog kunnen verklaren door de (relatieve) heterogeniteit van de groep gekoppeld aan het ongewogen karakter van het algemene gemiddelde, maar de gigantische variatiebreedte die we hier zien kunnen we slechts zeer gedeeltelijk hieraan wijten. Tussen 2006 en 2001 is het aantal moorden in die stad gestaag gedaald van 7.0 tot 3.8 per 100000 inwoners.  In absolute aantallen is dat 767   629   626   481   483   439. Vooral de daling van 626 moorden in 2008 naar 481 moorden in 2009 lijkt sterk. Ik laat het aan politicologen en criminologen over om dit te verklaren!

Ook Boekarest is vreemd. In een stad van bijna 2 Miljoen inwoners zou ik meer moorden, maar vooral een hogere variatie in het relatieve aantal moorden verwachten dan:  1.4   1.3   1.1  0.9   1.0   1.1   0.9   1.1 voor de jaren van 2005 tot 2012. Op het eerste zicht lijken deze cijfers me te goed om waar te zijn.  Allicht is dit geval ook minstens gedeeltelijk te verklaren door de heterogeniteit van de groep "Oost-Europa". Om dit na te gaan heb ik zelf een aantal voormalige Oostblok landen bij elkaar gezet. Ik heb enkel Oostblok landen genomen die niet in de vroegere Sovjet-unie zaten, en van ex-Joegoslavië heb ik enkel Slovenië en Kroatië genomen. Met een beetje goed wil kan je deze landen omschrijven als Oostbloklanden die al enige tijd onder invloed van de Europese Unie leven. Bij gebrek aan een betere naam, noem ik deze groep "Midden-Europa".
In deze context geplaatst lijken de cijfers van Boekarest al iets meer plausibel, maar toch blijf ik vraagtekens hebben bij het relatief lage gemiddelde en de relatief lage variantie. Allicht loont het de moeite om met een meer aangepaste statistische techniek na te gaan of deze reeks cijfers echt "too good to be true" is. Anderzijds , als er een Oost-Europa-deskundige is die me kan vertellen waarom dit wel kan, dan hoor ik dat graag!

Tenslotte, enkele bedenkingen vanuit het standpunt van "Data Journalism":

  • Net zoals een journalist aan "fact-checking" moet doen, moet ook de data-journalist z'n bronnen kritisch bekijken. In dit geval volstaat het om de onderliggende Excel dataset te downloaden om de bredere context te kunnen zien.
  • Je mag er als data-journalist niet zonder meer van uitgaan dat een officiële instantie die statistieken publiceert, ook de juiste interpretatie van die cijfers geeft. Soms is dat wel het geval, maar vaak niet.
  • Een (data-)journalist hoeft geen statisticus of methodoloog te zijn, maar moet vooral een goed journalist zijn. En net zoals een Wetstraat-Journalist niet zonder meer een partijstandpunt zal weergeven, moet de (data-)journalist de gegevens kritisch bekijken en in de juiste context plaatsen. Vaak kom je met enkele elementaire regeltjes uit de statistiek al heel ver.