Saturday, April 19, 2014

Hoe moorddadig zijn Luxemburgers eigenlijk?

Op 11 April verscheen in de krant "De Morgen" een artikel met als kop: "Meer moorden in Brussel dan in Londen en Parijs". Het artikel behandelt het 'Global Study on Homicide 2013'-rapport, gepubliceerd door de Verenigde Naties. De journalist geeft de top 5 weer van de Europese hoofdsteden waarin het meeste aantal moorden gebeuren en zoomt dan in op de plaats van België:
Helemaal bovenaan prijkt Tirana (Albanië) met 6,7 moorden per 100.000 inwoners in 2012. Tallinn (Estland), Chisinau (Moldavië), Riga (Letland) en Moskou vervolledigen de top vijf. Brussel staat op de twaalfde plaats Brussel met 2,6 moorden. In West-Europa heeft alleen Luxemburg meer moordgevallen met 3,2 per 100.000 inwoners. 
Vooral de laatste zin, waarin een vergelijking wordt gemaakt met Luxemburg, is nogal ongelukkig gekozen. Dries Benoit verwees op Twitter naar een blog post van hem waarin hij, naar aanleiding van "Het Gemeente-Rapport" van Het Nieuwsblad, uitlegt waarom het misleidend kan zijn om, zonder verdere informatie, te kijken naar de rangschikking van eenheden. Een gelijkaardig verhaal deed ik zelf ook al in deze blogpost (De Moivre's equation and the solar panels of Lo-Reninge), naar aanleiding van een artikel in De Standaard met als kop: "Niemand maakt meer zonne-energie dan inwoners Lo-Reninge".

Laat ons eens in detail bekijken wat er mis kan lopen wanneer we zonder meer het aantal moorden per 100000 inwoners met elkaar vergelijken. Ten eerste, kost het maar enkele minuten om op de website van de website van de United Nations Office On Drugs and Crime (UNODC) de data terug te vinden die aan de basis liggen van het artikel. Laat ons dan meteen kijken naar de verdeling het aantal moorden per jaar per 100000 inwoners in de Europese hoofdsteden. De cijfers hebben betrekking op de jaren van 2005 tot 2012. Voor sommige steden zijn alle jaren beschikbaar, voor anderen zijn er slechts enkele jaren beschikbaar.
Hierboven zie je dat de meeste observaties tussen de 0 en de 5 moorden per 100000 inwoners zitten. Het gemiddelde is aangegeven met de verticale rode stippellijn, en bedraagt 2.54. Er zijn een klein aantal observaties die boven de 10 uitkomen. De hoogste waarde, 15.9, werd opgetekend in 2010 in Valletta, de hoofdstad van het lieftallig eiland Malta. De laagste waarde, 0.0, komt verschillende malen voor, o.a. in hetzelfde Valletta in 2009 en in 2011. Zijn de Maltezen in 2010 collectief aan het moorden geslagen om het jaar daarna terug in peis en vree verder te leven? Neen, in 2010 gebeurde er welgeteld 1 moord. De jaren ervoor en erna was dat telkens 0 per jaar. Maar met een goede 6000 inwoners vertaalt zich dit in een relatief cijfer van 15.9 per 100000 inwoners. Andere steden die soms of zelfs vaak 0.0 scoren zijn Vaduz, de hoofdstad van Liechtenstein, Reykjavik (Ijsland),  Ljubljana (Slovenië), en ..., Luxemburg (Luxemburg). Hetzelfde Luxemburg dat in het artikel in De Morgen werd  omschreven als het enige West-Europees land met een nog hoger moordcijfer dan België.
Hoe dan ook, de steden die hierboven werden vermeld zijn niet onmiddellijk bekend als grote wereldsteden. Kortom, het is  duidelijk dat we ook rekening moeten houden met het aantal inwoners per stad. In de grafiek hieronder staat het aantal moorden per 100000 deze keer op de Y-as, en het aantal inwoners op de X-as. (Voor de eenvoud heb ik de meeste recente bevolkingsaantallen opgezocht. Hierdoor zullen de cijfers voor snelgroeiende of snel krimpende steden niet helemaal correct zijn, maar daar staat tegenover dat werken met één cijfer een aantal zaken wel iets gemakkelijker maakt). Elk blauw punt op de grafiek stelt een observatie (i.e. een stad, jaartal combinatie) voor. Aangezien ik per stad voor elk jaar dezelfde bevolkingsaantallen heb genomen staan de cijfers voor eenzelfde stad steeds op eenzelfde verticale lijn.
De horizontale stippellijn stelt opnieuw het gemiddelde voor. We zien heel duidelijk dat de hele grote en de hele lage waarden van het aantal moorden per 100000 inwoners geconcentreerd zijn bij de steden met een klein inwonersaantal. Naarmate we naar rechts opschuiven, i.e. naar de grotere steden gaan, dan zien we dat de geobserveerde waarden dichter rond de rode lijn van het gemiddelde geconcentreerd zijn. Een uitzondering hierop is Moskou, de grootste stad uit de analyse, helemaal rechts op de grafiek. Als we Moskou even buiten beschouwing laten, zien we dat de spreiding van de relatieve moordcijfers groter wordt naarmate de steden kleiner worden. Bij kleine steden kan die spreiding zodanig groot worden dat ze snel de hoogste en de laagste plaatsen kunnen innemen. Bovendien kan een stad het ene jaar bovenaan eindigen en het andere jaar onderaan en omgekeerd.
Om uitdrukking te geven aan de mate van variatie die je kan verwachten bij verschillende bevolkingsaantallen heb ik twee groene stippellijnen aan de grafiek toegevoegd. Wanneer de onderliggende waarde van het aantal moorden per 100000 inwoners gelijk zou zijn aan het gemiddelde (in dit geval 2.54)  dan zouden we in 99.9% van de gevallen alleen al omwille van de te verwachten variatie waarden kunnen tegenkomen tussen de twee groene lijnen. Bij zeer kleine bevolkingsaantallen zie je dat er zeer veel variatie mogelijk is, terwijl dit bij hogere bevolkingsaantallen kleiner wordt. Omwille van die typische trechter-vorm van de groene lijnen wordt deze grafiek ook wel eens een funnel-grafiek genoemd.
In het algemeen is de Funnel-grafiek is gebaseerd op de vergelijking van de Moivre:

$\sigma_{\overline x}= {\sigma \over\sqrt{n} },$

waarin $\sigma_{\overline x}$ de standaardfout van het gemiddelde is, $\sigma$ is de standaarddeviatie in de steekproef en $n$ is de steekproefgrootte. Voor meer uitleg hierover verwijs ik naar "The most dangerous equation", een artikel van Howard Wainer. 
Er moet wel bij gezegd worden dat er heel wat vooronderstellingen zijn, zoals onafhankelijkheid en homogeniteit, waar in dit geval manifest niet aan voldaan wordt. Het hoeft dan ook niet te verbazen dat er heel wat punten zijn die boven of onder de groene lijnen liggen. Dat wil helemaal niet zeggen dat er iets abnormaal is aan deze observaties, maar het geeft wel een ruw idee van welke observaties te verwachten zijn, en welke daar wel erg van afwijken.
Voor dit voorbeeld zien we alvast dat de waarde voor Valletta in 2010, toen het een score van 15.9 haalde, helemaal niet zo abnormaal is. Verder zien we een hele cluster van observaties tussen de 500000 en 1000000 die een hogere score halen dan we in het algemeen zouden verwachten. Tenslotte valt ook op, dat helemaal rechts, bij de grootste stad, zowel de waarden als de variatie van die waarden aan de hoge kant zijn.

Aangezien de studie van  het UNODC zelf het onderscheid maakt tussen vier sub-regio's gaan we deze één na één bespreken. We beginnen met West-Europa. Omdat we minder observaties hebben kunnen we beter aangeven over welke stad het gaat. Bovendien kunnen we nu ook gemakkelijker aangeven wat de waarden waren voor de verschillende jaren.

In deze Funnel plot zien we meteen dat de meeste observaties netjes tussen de twee groene stippellijnen liggen. Enkel Amsterdam in 2007 en Brussel in 2006 en 2008 komen er bovenuit. Het meest recente cijfer voor Brussel (2012) - dat is ook het cijfer dat werd gebruikt in het artikel in De Morgen - bedraagt 2.6 en valt dus netjes binnen de trechter. Het cijfer voor Luxemburg uit het artikel komt uit het jaar 2011 en bedraagt 3.2. Het jaar ervoor was dat  0.0 en twee jaar ervoor was het aantal moorden per 100000 inwoners nog 5.3.  Alle cijfers voor Luxemburg vallen binnen de trechter. Dit illustreert heel mooi dat de vergelijking Brussel/Luxemburg niet op z'n plaats was. Dit gezegd zijnde, als je de cijfers van de afgelopen jaren bekijkt dan zie je wel dat Brussel  hoger scoort dan Wenen, Parijs en Berlijn. Vooruitlopend op de cijfers voor Noord en Zuid Europa kun je ook stellen dat over de laatste jaren Brussel ook hoger scoort dan Rome en Londen. Vanuit die optiek is de titel van het artikel in De Morgen niet eens zo slecht gekozen.
In het algemeen kan je de verticale lijnen uit deze grafiek ook zien als een voorstelling van de spreidingsbreedte (ook wel variatiebreedte of range genoemd) zien. Je ziet heel goed dat de kleine steden (links) door de band een grote spreidingsbreedte hebben, terwijl de grote steden (rechts) een relatief kleine spreidingsbreedte hebben.

Voor Zuid-Europa zien we dat door de band de meeste observaties netjes binnen de trechter vallen. Let er ook op dat de schaal van de Y-as hier anders is. Voor het kleine Valletta zie je heel goed dat die ene moord die gebeurde in 2010, de score die alle andere jaren op 0.0 zit, in 2010 opstuwt naar bijna 16.

Voor Noord-Europa is het verhaal minder duidelijk. Dit heeft te maken met het feit dat ex-Sovjet republieken, Scandinavië, Ierland en het Verenigd Koninkrijk wel een heel heterogene groep is. Het feit dat Londen opvallend laag scoort ten opzichte van wat je zou verwachten op basis van het algemene gemiddelde van deze groep van hoofdsteden en het hoge aantal inwoners in die stad, heeft allicht ook te maken met de manier waarop ik het gemiddelde heb berekend op basis van de beschikbare gegevens.  Een gewogen benadering was hier allicht beter op z'n plaats geweest.

Al valt Reykjavik, de hoofdstad van Ijsland binnen de trechter zou ik daar meer variatie verwachten. Met ongeveer 115000 inwoners tekende de stad jaarlijks 0,1, 2 tot maximum 3 moorden per jaar op, wat bijzonder weinig is in vergelijking met andere steden uit deze groep. Kortom, de heterogeniteit van de steden uit Noord-Europa maken deze Funnel-plot minder bruikbaar.

In de Funnel-plot voor Oost-Europa, tenslotte, valt Moskou op. Deze stad toont veel meer variatie dan je zou verwachten op basis van het heel groot aantal inwoners. Het feit dat Moskou zo veel hoger scoort dan het gemiddelde zou je nog kunnen verklaren door de (relatieve) heterogeniteit van de groep gekoppeld aan het ongewogen karakter van het algemene gemiddelde, maar de gigantische variatiebreedte die we hier zien kunnen we slechts zeer gedeeltelijk hieraan wijten. Tussen 2006 en 2001 is het aantal moorden in die stad gestaag gedaald van 7.0 tot 3.8 per 100000 inwoners.  In absolute aantallen is dat 767   629   626   481   483   439. Vooral de daling van 626 moorden in 2008 naar 481 moorden in 2009 lijkt sterk. Ik laat het aan politicologen en criminologen over om dit te verklaren!

Ook Boekarest is vreemd. In een stad van bijna 2 Miljoen inwoners zou ik meer moorden, maar vooral een hogere variatie in het relatieve aantal moorden verwachten dan:  1.4   1.3   1.1  0.9   1.0   1.1   0.9   1.1 voor de jaren van 2005 tot 2012. Op het eerste zicht lijken deze cijfers me te goed om waar te zijn.  Allicht is dit geval ook minstens gedeeltelijk te verklaren door de heterogeniteit van de groep "Oost-Europa". Om dit na te gaan heb ik zelf een aantal voormalige Oostblok landen bij elkaar gezet. Ik heb enkel Oostblok landen genomen die niet in de vroegere Sovjet-unie zaten, en van ex-Joegoslavië heb ik enkel Slovenië en Kroatië genomen. Met een beetje goed wil kan je deze landen omschrijven als Oostbloklanden die al enige tijd onder invloed van de Europese Unie leven. Bij gebrek aan een betere naam, noem ik deze groep "Midden-Europa".
In deze context geplaatst lijken de cijfers van Boekarest al iets meer plausibel, maar toch blijf ik vraagtekens hebben bij het relatief lage gemiddelde en de relatief lage variantie. Allicht loont het de moeite om met een meer aangepaste statistische techniek na te gaan of deze reeks cijfers echt "too good to be true" is. Anderzijds , als er een Oost-Europa-deskundige is die me kan vertellen waarom dit wel kan, dan hoor ik dat graag!

Tenslotte, enkele bedenkingen vanuit het standpunt van "Data Journalism":

  • Net zoals een journalist aan "fact-checking" moet doen, moet ook de data-journalist z'n bronnen kritisch bekijken. In dit geval volstaat het om de onderliggende Excel dataset te downloaden om de bredere context te kunnen zien.
  • Je mag er als data-journalist niet zonder meer van uitgaan dat een officiële instantie die statistieken publiceert, ook de juiste interpretatie van die cijfers geeft. Soms is dat wel het geval, maar vaak niet.
  • Een (data-)journalist hoeft geen statisticus of methodoloog te zijn, maar moet vooral een goed journalist zijn. En net zoals een Wetstraat-Journalist niet zonder meer een partijstandpunt zal weergeven, moet de (data-)journalist de gegevens kritisch bekijken en in de juiste context plaatsen. Vaak kom je met enkele elementaire regeltjes uit de statistiek al heel ver.   


No comments:

Post a Comment