Sunday, June 29, 2014

Wat een Leuvense rector nog kan leren van een Engelse Presbyteriaanse predikant

Vorige week kwam de Leuvense rector, @RikTorfs, met het voorstel om een bindend toelatingsexamen in te richten voor leerlingen uit het beroepsonderwijs of een andere niet-aansluitende richting komen die toch aan de universiteit willen studeren.  De krant Het Laatste Nieuws vat het als volgt samen:
Met een toelatingsproef wil de KU Leuven iets veranderen aan het grote aantal mislukkingen bij eerstejaars. "We willen niemand uitsluiten om universitaire studies te volgen en schakelprogramma's blijven bestaan, maar wie beroepsonderwijs volgde heeft in de praktijk weinig kans op slagen aan de universiteit", zei Torfs daarover.
Zoals te verwachten was de reactie op dit voorstel massaal en zelden instemmend. Volgens directeur-generaal van het Vlaams Secretariaat van het Katholiek Onderwijs, Mieke Van Hecke,  wordt de indruk gewekt dat de beroeps studierichtingen minderwaardig zijn.  In het Standpunt van De Morgen hekelt @barteeckhout de exclusieve en elitaire visie van de Leuvense Rektor:
Uitsluitend scholieren met een specifieke onderwijsachtergrond de weg belemmeren met een toegangsproef, is enkel een onrechtvaardige manier om de kloof tussen kansarm en kansrijk in het onderwijs vast te betonneren. 
De Gentse Professor psychologie @wduyck breekt in een opiniestuk in De Standaard een lans voor verplichte oriënteringsproeven, maar heeft bedenkingen bij het bindend karakter ervan:
Zelfs een kleine foutenmarge is op groepsniveau verwaarloosbaar, maar op individueel niveau fundamenteel onrechtvaardig.
Torfs kon ook op steun rekenen, o.a. van zijn voorganger André Oosterlinck. Al waren sommige andere steunbetuigingen, allicht onbedoeld,  iets minder diplomatisch. @IvanVandeCloot, bijvoorbeeld, tweette:
Betekent democratisering onderwijs dat iedereen zonder bewijs v talent de middelen vandie gemeenschap mag verspillen? 
Hoe dan ook, het is interessant om vast te stellen dat zowel pro als contra het eens zijn dat er iets schort aan de slaagpercentages aan de universiteit. Er wordt dan met name verwezen naar de de hoge kost waarmee die lage slaagpercentages gepaard gaan.

Laat ons eens kijken naar de slaagpercentages. Ik steun hiervoor op een studie "Determinanten van de differentiële slaagkansen in het hoger onderwijs" van Kristel Rombaut  o.l.v. Bea Cantillon en Gerlinde Verbist uit 2006 met cijfers uit het academiejaar 2003-2004. Deze cijfers zijn relatief oud, maar ik kon geen recentere cijfers vinden die de invalshoek bieden die ik wou volgen. Ik meen ook dat er sindsdien geen grote wijzigingen hebben voorgedaan in het patroon van slaagcijfers (Noot: Als iemand recentere cijfers heeft die tot andere besluiten zouden leiden, dan verbeter ik met veel plezier deze blogpost).

De meest gebruikte cijfers in deze discussie zijn de slaagpercentages per richting die de student volgde in zijn/haar vooropleiding:
waarin:

  • ASO1: Grieks-Latijn, Grieks-wetenschappen, Grieks-wiskunde en
  • Latijn-wiskunde
  • ASO2: Wetenschappen-wiskunde en Latijn-wetenschappen
  • ASO3: Latijn-moderne talen, Moderne talen-wiskunde en Economiewiskunde
  • ASO4: Economie-moderne talen, Menswetenschappen, Moderne talenwetenschappen, Rudolf Steinerpedagogie, Sport-wetenschappen, Wetenschappen-topsport en Yeshiva
  • BSO: Beroepssecundair onderwijs
  • KSO: Kunstsecundair onderwijs
  • TSO: Technisch Secundair onderwijs

Je ziet inderdaad dat alle Algemeen Secundair Onderwijs (ASO) richtingen een hogere slaagkans hebben dan  BSO, KSO en TSO. De voor de hand liggende conclusie is dat we voornamelijk aan die laatste groep moeten kijken om de slaagkansen op te krikken. 

Als je hoofdbekommernis de schaarse overheidsmiddelen zijn die verloren worden aan de niet-geslaagden, dan moet je natuurlijk eerder naar de samenstelling van de groep van de niet-geslaagde universitairen kijken. We kunnen dit verduidelijken door de zaak uit te drukken in termen van conditionele kansen. Je kan, mits wat goede wil, de proporties uit de grafiek hierboven zien als de kans dat men slaagt ($S$) gegeven een bepaalde richting ($R_i$) in de vooropleiding. Formeel kan je dat noteren als:
$$ P(S|R_i).$$
Vanuit budgetair standpunt is het logischer om te kijken naar de kans dat met van een bepaalde richting komt gegeven dat men  geslaagd  is:
$$ P(R_i|S)$$
of eigenlijk, dat men niet geslaagd is  ($\overline{S}$) is:
$$ P(R_i|\overline{S})$$
Deze gegevens hebben we niet, maar gelukkig kunnen we gebruik maken van de regel van Bayes, die ook de omkeerformule wordt genoemd, omdat het de "omgekeerde" voorwaardelijke kans berekent.

Uit het onderzoek van Kristel Rombaut weten we dat over alle richtingen uit de vooropleiding heen de proportie niet geslaagden $P(\overline{S})=0.492$ bedroeg. Het onderzoek geeft ook de samenstelling van de eerstejaars studenten naar de richting uit hun vooropleiding. De grafiek hieronder geeft de kansen $P(R_i)$ voor de 8 beschouwde groepen:
  
Verder is $P(\overline{S}|R_i)=1-P(S|R_i)$. We passen Bayes toe en krijgen:
$$ P(R_i|\overline{S})= {P(\overline{S}| R_i) \times P(R_i)\over P(\overline{S})}.$$
De grafiek hieronder geeft de resulterende kansen weer:

We zien nu duidelijker dat de meeste niet geslaagde eerstejaars studenten uit de ASO richtingen komen (77%). Daar is niets wereldschokkend aan, dat weten we al lang, maar het is misschien wel nodig om dit in deze discussie in herinnering te brengen.
Als ik even abstractie maak van de groep Onbekend, dan komt slechts een goede 11% van de niet-geslaagde eerstejaars uit de doelgroep van de voorgestelde toelatingsproef. Zo'n toelatingsproef lijkt dus geen goede methode te zijn om de algemene slaagkansen te verhogen en de kosten die gepaard gaan met het niet slagen te verlagen.

Ik weet niet of het voorstel van Rik Torfs stigmatiserend of elitair is, maar ik denk alvast wel dat het voorstel weinig zal veranderen aan de lage slaagkansen en de hoge kosten. Als men de weg van toelatingsproeven wil bewandelen moet men minstens de moet hebben omdat ook voor de ASO richtingen te doen.


Sunday, June 22, 2014

So what's the deal with the Birthday Paradox and the Word Cup Football?

As a data scientist I'm always happy when a newspaper spends time in explaining something from the field of Statistics. The Guardian is one of those newspapers that does a very good job at that. @alexbellos often contributes to the Guardian and I must say I often like the stuff he writes. Just recently he wrote a piece entitled "World Cup birthday paradox: footballers born on the same day", which was taken over by the Belgian quality newspaper De Standaard. The headline there was "Verbazend veel WK-voetballers zijn samen jarig", which roughly translates to "Surprisingly many Word Cup players share birthdays". Notice already that the headline in De Standaard is less subtle than the one in The Guardian.

Alex Bellos starts with explaning what the birthday paradox is:
The birthday paradox is the surprising mathematical result that you only need 23 people in order for it to be more likely than not that two of them share the same birthday.
He then refers to the internet for explanations of why this is in fact the case (see, for instance, here). He then, rightfully, remarks that the world cup football offers an interesting dataset to verify the birthday paradox. Indeed, the 32 nations that participate have 23 players each. We would therefore expect to see about half of the teams to have shared birthdays. It turns out that 19 of the teams have shared birthdays. So far so good. 

The problem I have with the article is in the subsequent part. But before we come to that, let's have a look at the summary in the begining of the article:
An analysis of the birth dates of all 736 footballers at the World Cup reveals that a surprisingly large number of teammates share the same birthday, and that seven were born on Valentines' Day
The observation about Valentine's day is an interesting one because it plays on the same distinction between the "a same day" and "the same birthday" that makes the birthday paradox surprising for some. From that perspective it would have been interesting to mention what the probability is that in a group of 736 we would see 7 or more people that share the same birthday. In defence of the author, I must admit that it is surprisingly hard to find references to this extension of the birthday problem (but see here, here and here).   I understand a closed solution for triplets was published by Anirban DasGupta in Journal of Statistical Planning and Inference in 2005. On the web I only found one solution for the general problem, but I could only get it to work for the trivial case of 2 and the more complicated case of 3. But for 7 it gave very strange results. So either the formula was wrong, or, more likely, my implementation of the formula was wrong. I then used the poor man's mathematics, i.e. the simulation.

In a first simulation I randomly selected 736 birthdays from a uniform distribution. I then counted how many players I found that didn't share a birthday with any of the other players, and how many pairs of players shared a birthday, how many triplets, and so on. This is a barplot of the results I got:

As you can see, 7 was present as well. Granted, it was not Valentine's day, but nonetheless it is a birthday shared by 7 players. Notice, by the way, that there are far more players that share a birthday with one other player than those that don't share a birthday (2 times about 110 versus about 100).

I then repeated that process 10,000 times and each time verified whether there were birthdays that were present 7 or more times. This allowed me to estimate the probability that in a selection of 736 players one (or more) birthdays is shared by 7 or more players to around 83%. It is therefore not remarkable at all that in the Worldcup in Brazil we've found such a birthday as well.


The second issue I have with this article is the part where the question was asked why we observed 59.4% (19 out of 32) instead of the expected 50.7% (the theoretical probability for a group of 23). Although the author suggests the possibility that this is because of chance, he doubts it and instead offers an alternative based on the observation that footballplayers are more likely to have their birthdays in the beginning of the year than at the end of the year. The reason for this skewed distribution has to do with the school cut-off date (very often the first of January), height of the children in school and dominance in sports.

I don't question this theory, it's not my area of expertise. Furthermore, I believe that the skewed distribution amongst sportsmen has been observed before. What suprises me, though, is that an article in which the birthday paradox plays an important role, does not use probability theory and statistics more to put these observations in perspective. In this case the natural question to ask is: if, in a team of 23 players, the probability of having a shared birthday is 0.507 and we have 32 teams what is the probability to find 19 or more teams with a shared birthday.   This can easily be calculated with the binomial distriubution and results in 0.21, again not unlikely at all. That said Alex Bellos does not exclude that it's all by chance, he simply doubts it, which is fair.

As said earlier, I don't question the theory of the skewed distribution for sportsmen, so I will not calculate what the probability is to observe the worldcup specific distribution under the hypothesis of a uniform distribution. But I do think that the author should also have looked at what the probabality is of having players with shared birthdays under a "footballer"-specific distribution rather than the uniform distribution. I don't have such a distribution or a more general "sportsman"-specific distribution available (although I'm sure it must exist, because the skewed distribution of birthdays of sportsmen is well documented), so here I will simply use those that Alex mentioned in his artcicle, i.e.January 72, February 79, March 64, April 63, May 73, June 61, July 54, August 57, September 65, October 52, November 46, and December 47. I simply transformed those to daily probabilities and then assumed they are generaly valid for the population of "Worldcup attending football players". The plot below shows the two distributions considered.  
Furthermore, if we can't rely on the uniform distribution, the calculations for the birthday paradox become complex (at least to me), so I again resort to simulations. 

After 10,000 replications, the result of the simulation is 0.518, which means that under the skewed footballer distribution we would expect to see shared birthdays in 51.8% of the teams of 23 players. This is only 1.1 percentage points higher than in the uniform distribution case. If you don't accept 19 out of 36 (i.e. 59.4%) because that's too far from 50.7%, it's hard to see why you would find 51.8% so much more convincing. In other words, the birthday paradox is not such a good measure for indicating whether football players really have a different (skewed) birthday pattern compared to the rest of the population. It would have been clearer if the two topics were separated:

  • Do football players, like other sportsmen, have a different birthday pattern than the rest of the population?
  • The worldcup is an excellent opportunity to illustrate the Birthday paradox.

As an interesting side note, in the mean time it turns out that the data Alex used was not completely correct and with the new data the number of teams with shared birthdays has become 16. This is exactly the number we would expect under the uniform distribution. Notice though that under the skewed distribution and using the usual conventions of rounding, we would expect to see 17 teams teams with shared birthdays instead of 16. So, using their own reasoning, the headline in the De Standaard Newspaper now should change to: "Suprisingly few Wordcup players share a birthday". Unless, of course, you follow the reasoning using the binomial distribution mentioned above and conclude that with 32 replications this is likely to be coincidental. 

Monday, May 12, 2014

Hebben 'verkiezingspolls' geen enkele wetenschappelijke waarde?

In Campuskrant (p. 17) van de K.U.Leuven hekelt mijn (vroegere) vakgroepgenoot, de socioloog Bart Meuleman, 'verkiezingspolls'. Dit werd gedeeltelijk ook overgenomen door De Redactie.

(Voor een goed begrip en bij wijze van full disclosure: ik heb op het einde van de vorige eeuw een jaar of acht (met veel plezier) gewerkt in de vakgroep methoden van de K.U.Leuven, toen onder leiding van Prof Dr. G. Loosveldt en Prof. Dr. J. Billiet. Ik ken de heer Meuleman dus persoonlijk niet. Verder heb ik daarna 10 jaar gewerkt voor Nielsen, 's werelds grootste marktonderzoeker en een jaar bij iVox een marktonderzoeksbureau gespecialiseerd in online methoden.  Op dit ogenblik adviseer ik bedrijven en organisaties in verband met methodologie, statistiek en Data Science. Noch TNS, noch IPSOS zijn op dit ogenblik klanten van mij en ik ben geen lid van Febelmar). 

Laat ons beginnen met de (forse) openingsquote van het artikel:
Ik heb een groot probleem met verkiezingspolls. Als wetenschapper kan ik moeilijk anders: ze hebben geen enkele wetenschappelijke waarde.
Het klopt dat niet alle opiniepeilingen rond de verkiezingen methodologisch even grondig te werk gaan. Er zijn er goede bij en er zijn er slechte bij. Overigens is dat ook zo bij academisch onderzoek. Om meteen alle peilingen af te doen als onwetenschappelijk is vreemd. Immers, voor veel academisch onderzoek wordt beroep gedaan op dezelfde instrumenten, vaak zelfs bij dezelfde bureaus. Heel wat academici zijn een stuk genuanceerder dan de heer Meuleman als het over dit onderwerp gaat. Armen Hakhverdian, Tom Louwerse en Tom van der Meer, bijvoorbeeld, drukken het op Stuk Rood Vlees als volgt uit:
Mits correct uitgevoerd en geïnterpreteerd – twee grote ‘mitsen’ – vormen opiniepeilingen een fantastisch instrument met onschatbare waarde voor ons begrip van electorale processen. 

Wat ook waar is, maar niet vermeld wordt door de heer Meuleman, is dat de verslaggeving over de opiniepeilingen ook van gemengde kwaliteit is. In sommige gevallen worden, bijvoorbeeld, betrouwbaarheidsintervallen vermeld, in andere gevallen dan weer niet. Ergerlijk zijn de artikels waarbij  in een kaderstuk de methodologische beperkingen worden aangeduid terwijl in het stuk zelf vrij ongenuanceerd wordt ingegaan op het minste en geringste verschil.
In de schoot van Febelmar, de Belgische associatie van marktonderzoekers wordt voor elke (politieke-) opiniepeiling een technische fiche opgegeven waarin de foutenmarges worden opgegeven. Als dit niet vermeld wordt in het artikel of de reportage is dat de verantwoordelijkheid van de journalist en niet van het marktonderzoeksbureau. Het lijkt me fair te zijn om een onderscheid tussen deze twee elementen. Helaas doet de heer Meuleman dat niet.

Verder stelt de heer Meuleman:
Wat dat eerste betreft (verkiezingspolls hebben geen enkele wetenschappelijk waarde, IH): vaak is het aantal deelnemers te beperkt, en zijn de foutenmarges te groot om kleine verschuivingen te meten.

Het is niet correct om de wetenschappelijkheid van een methode te koppelen aan de grootte van de foutenmarges. Het spreekt voor zich dat, als de foutenmarges het niet toelaten, je kleine, vaak politiek relevante, veranderingen niet kunt aantonen. Als dat wel gebeurt is dat vaak de verantwoordelijkheid van de journalist en/of van het peilingsbureau maar dat heeft weinig te maken met de wetenschappelijkheid van het instrument als dusdanig, hoogstens kan je je vragen stellen rond het nut van de methode gegeven de vraagstelling.

Een beetje verder stelt de heer Meuleman:
De peilers geven het in hun technische fiches met zoveel woorden toe: ‘Deze peiling is zonder voorspellende waarde’. Waar ben je dan nog mee bezig Waarom wacht je dan niet gewoon de verkiezing af?
Eén van de redenen waarom er expliciet gezegd wordt dat het onderzoek niet voorspellend is heeft te maken met het soms grote aantal onbeslisten en het aantal mensen dat alsnog van mening veranderd is. Het instrument is niet geschikt om daarover uitspraken te doen. Dat expliciet maken vind ik juist eerlijk. Is het instrument dan irrelevant? Ik denk het niet. Volgens mij is het waardevol om in de maanden en weken voor de verkiezingen een beeld (hoe rudimentair ook) te hebben van het electoraat op dat moment.

Over Online panels wordt het volgende gezegd:
De peiling van De Morgen en VTM werkt met online panels. Dan kom je niet bij de gemiddelde kiezer terecht, maar bij mensen die vaak online zitten en veel tijd hebben.
Over telefonische bevragingen wordt het volgende gesteld:
De Standaard en de VRT werken dan weer met telefonische bevragingen. Dan cover je de ganse bevolking al beter, maar bij dat soort peilingen is de respons dan weer héél laag.
De opmerking over online panels versus telefonische bevraging is anno 2014 stilaan voorbijgestreefd. De grootte van de populatie van (vaste) telefoonbezitters en internet gebruikers groeit steeds dichter bij elkaar. Zo ook het opstellen van een correct steekproefkader, dat vaak voor beide methoden problematisch is. Verder is de opmerking dat je bij online panels bij mensen terecht komt die 'veel tijd' hebben bij de haren getrokken en selectief.  Veel bureaus doen juist heel veel moeite om hun panels evenwichtig samen te stellen en controleren de mate van respons van de panelleden. Bovendien is het merkwaardig dat de heer Meuleman dit argument achterwege laat bij telefonische bevragingen. Bij online-bevraging kies je immers vaak zelf wanneer je de vragenlijst invult, en zou dus meer moeten appelleren aan mensen met weinig tijd.  Je kan trouwens een gelijkaardig argument gebruiken in verband met postale en face-to-face bevragingen.
Overigens is het juist sinds de opkomst van online methodologie dat er nog meer belang wordt gehecht aan korte bevragingen.
Tenslotte, als online methoden per definitie onwetenschappelijk zijn, dan begin ik me wel zorgen te maken over de faculteit van de heer Meuleman, want daar worden maar al te vaak online methoden gebruikt in onderzoek.


Een tweede element waar de heer Meuleman het moeilijk mee heeft is het effect dat deze peilingen hebben .

Inderdaad, uit heel wat onderzoek blijkt dat er wel degelijk een effect is van dit soort van peilingen. Je kan je inderdaad de vraag stellen of het, gegeven het feit dat je met verkiezingspolls slechts de grove trends kan bepalen, niet beter is om de peilingen volledig achterwege te laten. Persoonlijk denk ik dat dat geen goede zaak zou zijn. Immers, als je niet geregeld een peiling houdt dan zet je de deur wagenwijd open voor (nog meer) speculatie, gespin en  de mening van 'experten'. 
Hoe dan ook, zelfs in dat geval blijft de vraag of deze experten het beter doen dan de peilers. Ik ben me niet bewust van dergelijk onderzoek in Vlaanderen, maar één van de lessen die te leren zijn uit het boekje "The signal and the noise" van Nate Silver is juist dat experten het vaak (nog) slechter doen dan het werk van de peilers. Nate Silver heeft bekendheid verworden omdat hij, in tegenstelling tot heel wat journalisten, politieke wetenschappers en andere experten, wel de uitslag voor alle Staten van de VS juist heeft voorspeld. Eén van de bronnen die hij daarvoor gebruikte waren ... verkiezingspolls, waaronder een heel aantal online polls, en polls met een kleine steekproef. Het gaat er dus niet om om radicaal tegen verkiezingspolls te zijn zoals de heer Meuleman, of kritiekloos de resultaten van die verkiezingspolls over te nemen. Neen, het gaat er juist om de gegevens naar waarde te schatten en dat is heus niet zo binair als de heer Meuleman wil doen uit schijnen.


Ik vind het spijtig dat sommige academische methodologen met hun starre houding (verkiezingspolls zijn onwetenschappelijk en dus waardeloos) zichzelf irrelevant hebben gemaakt in de nochtans boeiende en bloeiende discussie rond methodologie in de praktijk (kijk maar naar de interesse voor Data Science, Big Data, data journalistiek, enzovoort). In plaats van aan de zijlijn te roepen dat alle verkiezingspolls onwetenschappelijk zijn, zouden ze beter (mee) de strijd aangaan tegen lakse berichtgeving en tegen het amalgaam dat gemaakt worden tussen op zelf-selectie gebaseerde methoden en deze die daar niet (of toch minder) op gebaseerd zijn.

Nederland bewijst dat het ook anders kan. Op het reeds vernoemde Stuk Rood Vlees  bijvoorbeeld, zijn politieke wetenschappers en methodologen (terecht) bijzonder kritisch op opiniepeilingen in verband met verkiezingen, maar zij doen dat op een meer genuanceerde en sterker onderbouwde manier dan zomaar alle verkiezingspolls als onwetenschappelijk af te doen.

Ik eindig met een tweede citaat van  Armen Hakhverdian, Tom Louwerse en Tom van der Meer:
We moeten af van het zwart-wit denken over peilingen. Het alternatief voor de belachelijke overinterpretatie van peilingen is niet om ze te negeren of zelfs te verbieden, maar om ze correct in te zetten. Met oog voor de inherente onzekerheid en mogelijke vertekeningen bieden peilingen waardevolle inzichten in de publieke opinie. Helaas vereist dat een terughoudendheid van peilers, media en persbureaus waar velen al jarenlang geen blijk van geven.

Saturday, April 19, 2014

Hoe moorddadig zijn Luxemburgers eigenlijk?

Op 11 April verscheen in de krant "De Morgen" een artikel met als kop: "Meer moorden in Brussel dan in Londen en Parijs". Het artikel behandelt het 'Global Study on Homicide 2013'-rapport, gepubliceerd door de Verenigde Naties. De journalist geeft de top 5 weer van de Europese hoofdsteden waarin het meeste aantal moorden gebeuren en zoomt dan in op de plaats van België:
Helemaal bovenaan prijkt Tirana (Albanië) met 6,7 moorden per 100.000 inwoners in 2012. Tallinn (Estland), Chisinau (Moldavië), Riga (Letland) en Moskou vervolledigen de top vijf. Brussel staat op de twaalfde plaats Brussel met 2,6 moorden. In West-Europa heeft alleen Luxemburg meer moordgevallen met 3,2 per 100.000 inwoners. 
Vooral de laatste zin, waarin een vergelijking wordt gemaakt met Luxemburg, is nogal ongelukkig gekozen. Dries Benoit verwees op Twitter naar een blog post van hem waarin hij, naar aanleiding van "Het Gemeente-Rapport" van Het Nieuwsblad, uitlegt waarom het misleidend kan zijn om, zonder verdere informatie, te kijken naar de rangschikking van eenheden. Een gelijkaardig verhaal deed ik zelf ook al in deze blogpost (De Moivre's equation and the solar panels of Lo-Reninge), naar aanleiding van een artikel in De Standaard met als kop: "Niemand maakt meer zonne-energie dan inwoners Lo-Reninge".

Laat ons eens in detail bekijken wat er mis kan lopen wanneer we zonder meer het aantal moorden per 100000 inwoners met elkaar vergelijken. Ten eerste, kost het maar enkele minuten om op de website van de website van de United Nations Office On Drugs and Crime (UNODC) de data terug te vinden die aan de basis liggen van het artikel. Laat ons dan meteen kijken naar de verdeling het aantal moorden per jaar per 100000 inwoners in de Europese hoofdsteden. De cijfers hebben betrekking op de jaren van 2005 tot 2012. Voor sommige steden zijn alle jaren beschikbaar, voor anderen zijn er slechts enkele jaren beschikbaar.
Hierboven zie je dat de meeste observaties tussen de 0 en de 5 moorden per 100000 inwoners zitten. Het gemiddelde is aangegeven met de verticale rode stippellijn, en bedraagt 2.54. Er zijn een klein aantal observaties die boven de 10 uitkomen. De hoogste waarde, 15.9, werd opgetekend in 2010 in Valletta, de hoofdstad van het lieftallig eiland Malta. De laagste waarde, 0.0, komt verschillende malen voor, o.a. in hetzelfde Valletta in 2009 en in 2011. Zijn de Maltezen in 2010 collectief aan het moorden geslagen om het jaar daarna terug in peis en vree verder te leven? Neen, in 2010 gebeurde er welgeteld 1 moord. De jaren ervoor en erna was dat telkens 0 per jaar. Maar met een goede 6000 inwoners vertaalt zich dit in een relatief cijfer van 15.9 per 100000 inwoners. Andere steden die soms of zelfs vaak 0.0 scoren zijn Vaduz, de hoofdstad van Liechtenstein, Reykjavik (Ijsland),  Ljubljana (Slovenië), en ..., Luxemburg (Luxemburg). Hetzelfde Luxemburg dat in het artikel in De Morgen werd  omschreven als het enige West-Europees land met een nog hoger moordcijfer dan België.
Hoe dan ook, de steden die hierboven werden vermeld zijn niet onmiddellijk bekend als grote wereldsteden. Kortom, het is  duidelijk dat we ook rekening moeten houden met het aantal inwoners per stad. In de grafiek hieronder staat het aantal moorden per 100000 deze keer op de Y-as, en het aantal inwoners op de X-as. (Voor de eenvoud heb ik de meeste recente bevolkingsaantallen opgezocht. Hierdoor zullen de cijfers voor snelgroeiende of snel krimpende steden niet helemaal correct zijn, maar daar staat tegenover dat werken met één cijfer een aantal zaken wel iets gemakkelijker maakt). Elk blauw punt op de grafiek stelt een observatie (i.e. een stad, jaartal combinatie) voor. Aangezien ik per stad voor elk jaar dezelfde bevolkingsaantallen heb genomen staan de cijfers voor eenzelfde stad steeds op eenzelfde verticale lijn.
De horizontale stippellijn stelt opnieuw het gemiddelde voor. We zien heel duidelijk dat de hele grote en de hele lage waarden van het aantal moorden per 100000 inwoners geconcentreerd zijn bij de steden met een klein inwonersaantal. Naarmate we naar rechts opschuiven, i.e. naar de grotere steden gaan, dan zien we dat de geobserveerde waarden dichter rond de rode lijn van het gemiddelde geconcentreerd zijn. Een uitzondering hierop is Moskou, de grootste stad uit de analyse, helemaal rechts op de grafiek. Als we Moskou even buiten beschouwing laten, zien we dat de spreiding van de relatieve moordcijfers groter wordt naarmate de steden kleiner worden. Bij kleine steden kan die spreiding zodanig groot worden dat ze snel de hoogste en de laagste plaatsen kunnen innemen. Bovendien kan een stad het ene jaar bovenaan eindigen en het andere jaar onderaan en omgekeerd.
Om uitdrukking te geven aan de mate van variatie die je kan verwachten bij verschillende bevolkingsaantallen heb ik twee groene stippellijnen aan de grafiek toegevoegd. Wanneer de onderliggende waarde van het aantal moorden per 100000 inwoners gelijk zou zijn aan het gemiddelde (in dit geval 2.54)  dan zouden we in 99.9% van de gevallen alleen al omwille van de te verwachten variatie waarden kunnen tegenkomen tussen de twee groene lijnen. Bij zeer kleine bevolkingsaantallen zie je dat er zeer veel variatie mogelijk is, terwijl dit bij hogere bevolkingsaantallen kleiner wordt. Omwille van die typische trechter-vorm van de groene lijnen wordt deze grafiek ook wel eens een funnel-grafiek genoemd.
In het algemeen is de Funnel-grafiek is gebaseerd op de vergelijking van de Moivre:

$\sigma_{\overline x}= {\sigma \over\sqrt{n} },$

waarin $\sigma_{\overline x}$ de standaardfout van het gemiddelde is, $\sigma$ is de standaarddeviatie in de steekproef en $n$ is de steekproefgrootte. Voor meer uitleg hierover verwijs ik naar "The most dangerous equation", een artikel van Howard Wainer. 
Er moet wel bij gezegd worden dat er heel wat vooronderstellingen zijn, zoals onafhankelijkheid en homogeniteit, waar in dit geval manifest niet aan voldaan wordt. Het hoeft dan ook niet te verbazen dat er heel wat punten zijn die boven of onder de groene lijnen liggen. Dat wil helemaal niet zeggen dat er iets abnormaal is aan deze observaties, maar het geeft wel een ruw idee van welke observaties te verwachten zijn, en welke daar wel erg van afwijken.
Voor dit voorbeeld zien we alvast dat de waarde voor Valletta in 2010, toen het een score van 15.9 haalde, helemaal niet zo abnormaal is. Verder zien we een hele cluster van observaties tussen de 500000 en 1000000 die een hogere score halen dan we in het algemeen zouden verwachten. Tenslotte valt ook op, dat helemaal rechts, bij de grootste stad, zowel de waarden als de variatie van die waarden aan de hoge kant zijn.

Aangezien de studie van  het UNODC zelf het onderscheid maakt tussen vier sub-regio's gaan we deze één na één bespreken. We beginnen met West-Europa. Omdat we minder observaties hebben kunnen we beter aangeven over welke stad het gaat. Bovendien kunnen we nu ook gemakkelijker aangeven wat de waarden waren voor de verschillende jaren.

In deze Funnel plot zien we meteen dat de meeste observaties netjes tussen de twee groene stippellijnen liggen. Enkel Amsterdam in 2007 en Brussel in 2006 en 2008 komen er bovenuit. Het meest recente cijfer voor Brussel (2012) - dat is ook het cijfer dat werd gebruikt in het artikel in De Morgen - bedraagt 2.6 en valt dus netjes binnen de trechter. Het cijfer voor Luxemburg uit het artikel komt uit het jaar 2011 en bedraagt 3.2. Het jaar ervoor was dat  0.0 en twee jaar ervoor was het aantal moorden per 100000 inwoners nog 5.3.  Alle cijfers voor Luxemburg vallen binnen de trechter. Dit illustreert heel mooi dat de vergelijking Brussel/Luxemburg niet op z'n plaats was. Dit gezegd zijnde, als je de cijfers van de afgelopen jaren bekijkt dan zie je wel dat Brussel  hoger scoort dan Wenen, Parijs en Berlijn. Vooruitlopend op de cijfers voor Noord en Zuid Europa kun je ook stellen dat over de laatste jaren Brussel ook hoger scoort dan Rome en Londen. Vanuit die optiek is de titel van het artikel in De Morgen niet eens zo slecht gekozen.
In het algemeen kan je de verticale lijnen uit deze grafiek ook zien als een voorstelling van de spreidingsbreedte (ook wel variatiebreedte of range genoemd) zien. Je ziet heel goed dat de kleine steden (links) door de band een grote spreidingsbreedte hebben, terwijl de grote steden (rechts) een relatief kleine spreidingsbreedte hebben.

Voor Zuid-Europa zien we dat door de band de meeste observaties netjes binnen de trechter vallen. Let er ook op dat de schaal van de Y-as hier anders is. Voor het kleine Valletta zie je heel goed dat die ene moord die gebeurde in 2010, de score die alle andere jaren op 0.0 zit, in 2010 opstuwt naar bijna 16.

Voor Noord-Europa is het verhaal minder duidelijk. Dit heeft te maken met het feit dat ex-Sovjet republieken, Scandinavië, Ierland en het Verenigd Koninkrijk wel een heel heterogene groep is. Het feit dat Londen opvallend laag scoort ten opzichte van wat je zou verwachten op basis van het algemene gemiddelde van deze groep van hoofdsteden en het hoge aantal inwoners in die stad, heeft allicht ook te maken met de manier waarop ik het gemiddelde heb berekend op basis van de beschikbare gegevens.  Een gewogen benadering was hier allicht beter op z'n plaats geweest.

Al valt Reykjavik, de hoofdstad van Ijsland binnen de trechter zou ik daar meer variatie verwachten. Met ongeveer 115000 inwoners tekende de stad jaarlijks 0,1, 2 tot maximum 3 moorden per jaar op, wat bijzonder weinig is in vergelijking met andere steden uit deze groep. Kortom, de heterogeniteit van de steden uit Noord-Europa maken deze Funnel-plot minder bruikbaar.

In de Funnel-plot voor Oost-Europa, tenslotte, valt Moskou op. Deze stad toont veel meer variatie dan je zou verwachten op basis van het heel groot aantal inwoners. Het feit dat Moskou zo veel hoger scoort dan het gemiddelde zou je nog kunnen verklaren door de (relatieve) heterogeniteit van de groep gekoppeld aan het ongewogen karakter van het algemene gemiddelde, maar de gigantische variatiebreedte die we hier zien kunnen we slechts zeer gedeeltelijk hieraan wijten. Tussen 2006 en 2001 is het aantal moorden in die stad gestaag gedaald van 7.0 tot 3.8 per 100000 inwoners.  In absolute aantallen is dat 767   629   626   481   483   439. Vooral de daling van 626 moorden in 2008 naar 481 moorden in 2009 lijkt sterk. Ik laat het aan politicologen en criminologen over om dit te verklaren!

Ook Boekarest is vreemd. In een stad van bijna 2 Miljoen inwoners zou ik meer moorden, maar vooral een hogere variatie in het relatieve aantal moorden verwachten dan:  1.4   1.3   1.1  0.9   1.0   1.1   0.9   1.1 voor de jaren van 2005 tot 2012. Op het eerste zicht lijken deze cijfers me te goed om waar te zijn.  Allicht is dit geval ook minstens gedeeltelijk te verklaren door de heterogeniteit van de groep "Oost-Europa". Om dit na te gaan heb ik zelf een aantal voormalige Oostblok landen bij elkaar gezet. Ik heb enkel Oostblok landen genomen die niet in de vroegere Sovjet-unie zaten, en van ex-Joegoslavië heb ik enkel Slovenië en Kroatië genomen. Met een beetje goed wil kan je deze landen omschrijven als Oostbloklanden die al enige tijd onder invloed van de Europese Unie leven. Bij gebrek aan een betere naam, noem ik deze groep "Midden-Europa".
In deze context geplaatst lijken de cijfers van Boekarest al iets meer plausibel, maar toch blijf ik vraagtekens hebben bij het relatief lage gemiddelde en de relatief lage variantie. Allicht loont het de moeite om met een meer aangepaste statistische techniek na te gaan of deze reeks cijfers echt "too good to be true" is. Anderzijds , als er een Oost-Europa-deskundige is die me kan vertellen waarom dit wel kan, dan hoor ik dat graag!

Tenslotte, enkele bedenkingen vanuit het standpunt van "Data Journalism":

  • Net zoals een journalist aan "fact-checking" moet doen, moet ook de data-journalist z'n bronnen kritisch bekijken. In dit geval volstaat het om de onderliggende Excel dataset te downloaden om de bredere context te kunnen zien.
  • Je mag er als data-journalist niet zonder meer van uitgaan dat een officiële instantie die statistieken publiceert, ook de juiste interpretatie van die cijfers geeft. Soms is dat wel het geval, maar vaak niet.
  • Een (data-)journalist hoeft geen statisticus of methodoloog te zijn, maar moet vooral een goed journalist zijn. En net zoals een Wetstraat-Journalist niet zonder meer een partijstandpunt zal weergeven, moet de (data-)journalist de gegevens kritisch bekijken en in de juiste context plaatsen. Vaak kom je met enkele elementaire regeltjes uit de statistiek al heel ver.   


Saturday, October 26, 2013

Over Lampedusa, asielaanvragen, Europa en een grafiek in De Standaard

Op vrijdag 25 Oktober 2013 verscheen er in "De Standaard" een artikel onder de kop "Vluchtelingen moeten het doen met beloftes". Het artikel zelf is prima, het handelt over het probleem van de vluchtelingen in Europa, dat omwille van de ramp voor Lampedusa, hoog op de Europse agenda is geraakt. De grafiek bij het artikel, echter, is niet onmiddellijk een schot in de roos te noemen.
Het probleem bij deze grafiek is dat men de oppervlakte van cirkels gebruikt om verhoudingen te vergelijken, en dat is bijzonder moeilijk. Neem bijvoorbeeld het Verenigd Koninkrijk. Ongeveer de helft (14600) van de 28200 asielaanvragen wordt goedgekeurd. De oppervlakte van de rode cirkel is dan ook ongeveer de helft van de blauwe cirkel. Ik heb het eens nagerekend, en het klopt vrij aardig, maar de modale lezer zal allicht niet onmiddellijk aan die verhouding denken. Maar bon, de getallen zelf staan er netjes bij, dus ook al werkt het visueel niet goed, dan heb je toch nog de getallen

Erger is dat deze grafiek het bijhorende verhaal niet echt ondersteunt. Het gaat erom dat de zuiderse landen vinden dat ze het grootste gedeelte van de lasten van de vluchtelingen moeten opnemen, maar dat de cijfers dit beeld nuanceren. En inderdaad, achteraan in lijstje vinden we Malta, Griekenland en Spanje terug. In het artikel wordt er, terecht, op gewezen dat men de cijfers moet bekijken in het licht van het aantal inwoners per land, maar de cijfers van de grafiek worden wel niet relatief gegeven. Als voorbeeld wordt Italië genomen, maar helaas zit die in de grafiek in de bovenste, betere, helft. Verder meldt het artikel dat ook Frankrijk tot de gelegenheidscoalitie hoort. Maar ook dat land zit in de bovenste helft van de grafiek.
Overigens vind ik dat de journalist best had aangegeven waarom sommige landen wel en andere landen niet zijn opgenomen in de grafiek.

Deze grafiek moet beter kunnen. Ik heb de cijfers overgenomen en de bevolkingscijfers voor 2012 van Eurostat er aan toegevoegd. Vervolgens heb ik het aantal asielaanvragen per miljoen inwoners uitgedrukt. Omwille van de moeilijke interpretatie van oppervlakten van cirkels kies ik hier voor een eenvoudige staafdiagram.

De grafiek is geordend  van het hoogste relatieve aantal verleende asielaanvragen naar het laagste (i.e. het groene gedeelte van de staaf). De afgekeurde asielaanvragen staan in het rood. Op deze wijze valt zowel de verhouding goedgekeurde en afgekeurde aanvragen per land op, en is het meteen ook duidelijk welke landen relatief veel asielaanvragen goedkeuren (t.o.v. hun bevolkingsaantal) en welke niet. De informatie die je hier niet ziet, en die wel aanwezig was in de grafiek van De Standaard, zijn de absolute aantallen. Dat is een nadeel, maat anderzijds is het zo dat dit niet onmiddellijk onderwerp uitmaakte van het artikel.

Op de herwerkte grafiek zie je dat de gelegenheidscoalitie helemaal onderaan de grafiek bungelt, enkel Malta heeft allicht een punt, en staat in deze grafiek helemaal bovenaan. Ik denk dat de journalist een sterker verhaal had kunnen maken als hij/zij een betere grafische voorstelling had gekozen.

Los daarvan zie je ook dat, als je Malta buiten beschouwing laat, de noordelijke landen relatief meer asiel verlenen dan de zuidelijke landen. Bemerk ook dat België eerder bij de Scandinavische landen aansluit dan bij de Zuiderse landen. Je ziet ook goed dat bij de vier landen in de staart, Frankrijk en Griekenland veel meer aanvragen krijgen dan Spanje en Italië.

In het licht van dat laatste zou ik er toch op willen wijzen dan de cijfers bij het artikel betekenen dat Spanje, bijvoorbeeld, in 2012 slechts 600 asielaanvragen zou hebben goedgekeurd. In principe zou dat kunnen, bvb. mocht er een asielstop zijn in dat land, maar dat er slechts 2600 aanvragen zouden zijn geweest in dat jaar lijkt me heel sterk, zeker als je weet dat elders in de krant van dezelfde dag er gewag wordt gemaakt van  honderden bootvluchtelingen voor die dag alleen al. Toegegeven, het gaat hier om zevenhonderd vluchtelingen opgepikt bij vijf verschillende reddingsoperaties in Italië en niet in Spanje, maar mij lijkt het waarschijnlijker dat het werkelijke aantal asielzoekers in Spanje, en allicht ook Italië, veel hoger is dan wat je op basis van deze administratieve gegevens zou kunnen denken. Allicht zijn er andere kanalen dan deze vorm van naturalisatieaanvragen om in Spanje en Italië te verblijven, maar dat laat ik aan de migratie specialisten over.

Wednesday, October 23, 2013

Managing Data Scientists

With the rise of the 'Data Scientist', a lot has been said about the definition, role, qualifications and skills of the Data Scientist, and how to hire them. A somewhat neglected topic is how to manage data scientists. Indeed, data scientists, by their very nature, are hard to manage.

They love to resolve problems, but those problems are not always the business problems you want them to tackle. They are ace players, but they're not always the best team players and some of them can sometimes have difficulty in dealing with (higher) management. They can have bright ideas, but they often lose interest when it comes to implementing those ideas in a profit making activity. They will find clever solutions for you, but they don't always excel in making sure that a structured process is place, let alone the administrative follow up that comes with it. Some of them were hired as 'rock-stars' and have developed an ego that goes with that...

On the other hand, they are (sometimes) the 'heroes' of the company so you need to deal with it, it comes with the territory, as they say. Also, very often you can't apply the usual bag of tricks that 'ordinary managers' can use, simply because these tricks don't always work with them.

If your data scientists are all well behaved in this respect, this blog post is not for you. If you have experienced the issues I described above, read on!

One of the things I picked up early on as a manager was that a good manager should help his people rather than command them. Often I found myself doing things that my reports were asking me to do rather than doing what my manager was asking me to do. Mind you that I would take the general strategy and direction from my manager or people above her/him, but to make it happen I found it often more useful to listen what people who were closer to reality were saying. I would help them to make them more efficient in achieving my goals. And my goals were generally the goals of my boss. I've always tried to avoid micro-management and over reliance on procedures. But I will admit that in some cases I did micromanage and I did emphasize procedures. The thing is that I only did that when a certain unit was in problems, not when it was successfully achieving its goals.

Another thing I noticed is that data scientists, but also statisticians and  some top coders, often have difficulties in accepting orders from managers who don't have technical skills themselves. This does not mean that they would publicly disobey, but rather they would use some technical excuse to do whatever they wanted to do, knowing very well that the manager didn't have the technical knowledge to challenge them. Coming from an IT and statistics background gave me (just enough) credibility to be taken seriously, and that gave me a head start compared to other managers.

But nonetheless, I had my share of problems managing data scientists.  
When I was working for a large market research company a few years ago, I had to work with a lot of statisticians and the like. Some of them were direct reports, some of them indirect and sometimes, horror oh horror, we were acting in a matrix organization. I believe I had some credit with them because I was able to speak the same (technical) language as they did. But still I had difficulties in making sure standard procedures and administrative follow up was done correctly. Now there are two opposite ways to react in such a situation. On the one hand, you can put all your energy in making sure the administrative procedures are followed, or, you can let go of any administrative follow up completely. The former will make it very hard for you to get your ace players on board, because they generally hate this stuff, and the latter might cause problems with higher management, might create chaos and is seldom sustainable. So, as most things in live, the truth is somewhere in the middle. But how do you prioritize?
 
When I tried to explain my vision on these things I found it useful to use the following schema:


This rule has helped me in focusing on the priorities by not trying to force successful people and groups in a very rigid process driven structure, but on the other hand it was also a warning for those people and groups that they could only get away with it as long as they were successful. This rule also took some of the fear out my teams that were in trouble. If they were in trouble but they followed the normal procedures, there was no reason for fear. On the contrary, I would help them in resolving the problem. I'm sure this might have led to some situations that you might call micro management, but at least it was micro management applied on disfunctional groups and it would leave the successful ones doing whatever they were doing. Essentially there's nothing new with this rule and I guess you can't apply it to all situation or in all industries. 
But for me, it worked. 



Thursday, October 17, 2013

A small experiment with Twitter's language detection algorithm

Some time a go I captured quite a lot of geo-located tweets for a spatial statistics project I'm doing. The tweets I collected were all confined to be in Belgium. One of the things I looked at was the language of tweets. As you might know, Belgium officially has three languages, Dutch, French and German. Of course, when you analyze a large set of tweets, you can't manually determine the language, on the other hand blindly relying on Twitter's language detection algorithm doesn't feel good either.

That's why I set up a little experiment to assess to what extent Twitter's language detection algorithm can be trusted, in the context of  my geo-location project. I stress this because I don't have the ambition to make overall judgments on how Twitter takes care of language detection.

First, let's look at the languages as determined by the Twitter language detection algorithm of the 150,000 or so tweets I collected. The barchart below shows the frequency of each of the languages.




I'm not sure if this chart is readable enough, so let me guide you through it. The green bars are the 3 official languages of Belgium, Dutch, French and German. French and Dutch take the top positions, German is on the seventh position. Based on population figures you would expect more Dutch posts than French posts, while this data shows the opposite. There can be many good reasons why this happens. To start with the obvious, the twitter population is not the general population, and hence the distribution of languages can be different as well. Another obvious reason is that tweets can also come from foreigners, tourists for instance. While the sample is large (about 150,000 tweets), I need to rely on Twitter on providing a good sample of all tweets, and I'm not too sure about that. Also, it might be possible that Dutch speaking Belgians tweet more in English than their French speaking counterparts. And finally, it is possible that the Twitter detection algorithm is more successful in detecting some languages than others.

The fact that English (the blue bar) comes in third will not come as a surprise. Turkish is fourth (the top red bar), which can be explained by the relative large immigrant population coming from Turkey. The other languages, such as Spanish and portuguese (the remaining red bars) decrease quite rapidly in terms of frequency. But notice that the scale of the chart is somewhat deceiving in that the lower ranked languages such as Thai and Chinese, that are barely visible in the chart still are representing 40 and 20 tweets respectively. Overall this looks like another example of a power law, where we see that a few languages are responsible for the vast majority of tweets, while a large number of languages are used in the remaining tweets

You will have noticed that the fifth most important language, the orange bar is "Undecided", these are the tweets where the Twitter detection algorithm was not able to detect which language was used. Two other cases stand out (purple bars) on positions 9 and 10 are Indonesian and Tagalog. Tagalog is an Austronesian language spoken in The Philippines.   In a blog post on the Twitter languages of London by  Ed Manley (@EdThink) had noticed that Tagalog came on the seventh place in London. He writes:
One issue with this approach that I did note was the surprising popularity of Tagalog, a language of the Philippines, which initially was identified as the 7th most tweeted language. On further investigation, I found that many of these classifications included just uses of English terms such as ‘hahahahaha’, ‘ahhhhhhh’ and ‘lololololol’.  I don’t know much about Tagalog but it sounds like a fun language.
Here are the eight first Tagalog tagged tweets in my dataset:
  • @xxx hahaha!!! 
  • @xxx hahaha 
  • @xxx das ni goe eh? 
  • @xxx hahaha 
  • SUMBARIE ! 
  • Swedish couple named their kid "Brfxxccxxmnpcccclllmmnprxvclmnckssqlbb11116." The name is pronounced "Albin. 
  • #LRT hahahahahaha le salaud 
  • hahah
Basically what we see in Belgium is very similar as what was observed in London. Tweets containing expression such as 'hahaha' are catalogued as Tagalog. So for my spatial statistics exercise (and for this experiment) I think it is safe to consider both Tagalog and Indonesian as Undecided.
(My thoughts go to the poor researchers in The Philippines who must face quite a challenge when they analyze Twitter data. On the other hand, they now have, yet another, good reason not to touch Twitter data ;-)

Back to the experiment. I took a simple random sample of 100 tweets and asked 4 coders (including myself) to determine in what language a tweet was expressed. I gave the coders only minimal instructions in an attempt not to influence them too much. I did provide them with a very simple 'coding scheme', based on the most common languages (Dutch, French, or English, and a category for both the cases where the coder was not able to determine the language used and all other languages). Now, this might sound like a trivial exercise, but a tweet like "I'm at Comme Chez Soi in Brussel", can be seen as English, French or Dutch, depending on how you interpret the instructions.

This results in datamatrix consisting of 100 rows and 5 columns (i.e. the language assessments of Twitter and the 4 coders). A data scientist will immediately start to think how to analyze this (small) dataset. There are many ways of doing that. Let's first start with the obvious, i.e. comparing the Twitter outcome with one of the coders. You can easily represent that in a frequency table:

     EN FR NL WN
  EN 14  2  1  2
  FR  3 34  0  3
  NL  1  0 24  0
  WN  5  5  1  5

The rows represent the language of a tweet according to Twitter (EN=English, FR=French, NL=Dutch and WN=Don't know or another language). The columns represent the language according to the first coder. We now have different options. Some folks do a Chi-Square-test on this table, but this is not without problems. To start with, testing the hypothesis of independence is not necessarily relevant for assessing the agreement between two coders and we can get into troubles with zero or near zero cells and marginals. Either way, here are the results for such a test:

X-squared = 136.6476, df = 9, p-value < 2.2e-16

As the $p$-value is smaller than the usual 0.05, we would reject the null hypothesis and thus accept that the two coders are not independent and hence somehow 'related'. Again, this seems to be a rather weak requirement given the coding task at hand. Also, $\chi^2$ is sensitive to sample size, so just simply increasing the number of tweets would eventually lead to significance in case we wouldn't have reached it at $n=100$.

One of the alternatives for that is to normalize the $\chi^2$-statistic somehow.   There are many ways to do that, one approach is to divide by the sample size $n$ and the number of categories (minus 1). This is called Cramer's v:
$$r_V=\sqrt{{\chi^2 \over n \times \min[R-1, C-1]}}$$,
where $C$ is the number of columns and $R$ is the number of rows. Cramer's v is often used in statistics to measure the association between two categorical variables. If there is no association at all it becomes 0 and perfect association leads to 1. In this example $R=C=4$ because we consider 4 language categories which then results in $r_V=0.6749016$.

Sometimes simpler or at least more obvious approaches are used, such as taking the proportion of the items for which the two coders agreed. If we assume that both coders have used the same number of categories $G=R=C$, we can formalize this with:
$$r_{pca}= {\sum_{i=1}^G f_{ii}\over n}$$.
In the example this results in $r_{pca}=0.77$. So in more than three quarters of tweets, Twitter and the first coder agree on the language.
The drawback here is that we don't account for chance agreement. Cohen's $\kappa$ is alternative for that. This is generally done by subtracting the original statistic by its expected value and by dividing by the maximum value of that statistic minus the expected value. In the case of   Cohen's $\kappa$ this results in:
$$r_\kappa={r_{pca} - E(r_{pca})\over 1-E(r_{pca})}$$,
with
$$E(r_{pca})={\sum_{i=1}^G{f_{i.}\times f_{.j}\over n}\over n}$$,
in which $f_{i.}$ and $f_{.j}$ are the marginal frequencies. Calculating this for our example yields $r_\kappa=0.6766484$

Yet another interesting alternative are approaches which consider the ${n \choose 2}$ pairs of judgments rather the $n$ judgments directly. This approach is popular in the cluster analysis and psychometrics literature, with indexes such as the Rand Index and all sorts of variations on the that index, such as the Hubert and Arabie Adjusted Rand Index. Recently I stumbled on a very interesting article  "On the Equivalence of Cohen’s Kappa and the Hubert-Arabie Adjusted Rand Index" in Journal of Classification by Matthijs J. Warrens, that I recommend very strongly.

But one of the issues that is tackled less often in the literature is the fact that in this type of situations we have often more than one coder or judge. The classical approach is then to calculate all pairwise combinations and take a decision from there.

Incidentally, there are a few areas in research where multiple coders are often used, i.e. in qualitative research. Indeed, qualitative research, has a long tradition to handle situations where 'subjectivity' can play an important role. Very often this is done, amongst others, by using multiple coders.  The literature on the methodology is quite separate from the mainstream statistical literature, but nonetheless there are some interesting things to learn from that field. One of the popular indices in qualitative research is Krippendorff's $\alpha$.

In Content Analysis reliability data refers to a situation in which independent coders assign a value from a set of instructed values to a common set of units of analysis. This overall reliability or agreement is expressed as:
$$ \alpha=1-{D\over E(D)}$$,
in which $D$ is a disagreement measure and $E(D)$ its expectation, and the details of the calculation would lead us too far. A simple example is available on the wikipedia page.

The index can be used for any number of coders, it deals with missing data, and can handle different levels of measurement such as binary, nominal, ordinal, interval, and so on. It claims to  'adjusts itself to small sample sizes of the reliability data'. It is not clear to me where and to what extent these claims are proven. Nonetheless in practice this index is used to have one single coefficient that allows to compare reliabilities 'across any numbers of coders and values, different metrics, and unequal sample sizes'.

I used the irr library in the R-language to calculate  Krippendorff's $\alpha$ for all 5 coders, which resulted in $0.796$, which is just below the commonly used threshold in the social sciences. So we can't claim that all coders, including Twitter, agreed completely on the language detection task, on the other hand we are not too far of what would be considered good.

There were 84 tweets where all 4 human coders agreed on. In 71 of those 83, Twitter came up with the same language as the human coders. That's about 85%. That's not excellent, but it's not bad either.

Let's take a look at a few examples where all 4 human coders agreed, but Twitter didn't:

  1. Deze shit is hard
  2. @xxxx Merci belle sœur
  3. @xxxx de domste is soms ook de snelste
  4. Just posted a photo @ Fontein Jubelpark / Fontaine Parc du Cinquantenaire
  5. Mddrrr j'ziar ..!!
  6. @xxxx ADORABLE!
  7. OGBU EH! Samba don wound Tiki Taka. The Champs are back!
  8. I'm at Proxy Delhaize (Sint-Gillis / Saint-Gilles, Brussels)
The examples 1,4 and 8, seem intrinsically hard because there is no correct answer, so we can't hold that against Twitter. The examples 2,3 and 6 seem to be very straightforward cases that Twitter didn't capture. Example 5 was catalogued as French by Twitter, while the human coders put it in the rest/Don't know category. 
All in all I believe that the number of obvious mistakes is not too high, although that assessment, of course, depends on the type of application. I can very well imagine that for some applications this is not good enough. 

Based on all the different indices, interpretations and examples, my conclusion is that for my spatial statistics project, the Twitter language detection algorithm is not perfect, but good enough. I will use the language suggestion, but only after regrouping and after making sure that Tagalog and the like are recoded towards 'undecided'.