- Datajournalistiek, Reflectie

Reflectie data treinen

Om te oefenen met datajournalistiek, wilden Stephanie, Cedric, Eline, Karlijn en ik aan de slag gaan met kant-en-klare datasets. Via rijdendetreinen.nl had Karlijn een dataset opgevraagd over de storingen van treinen in Nederland. Deze data was gehaald van de NS API en de Nationale Databank OV. Het plan was dat Stephanie en ik binnen een week de data hadden geanalyseerd en een artikel had geschreven. Dat liep even anders.  

We besloten een onderzoeksvraag en een hypothese op te stellen, zoals we hadden geleerd uit de boeken die we aan het lezen waren over datajournalistiek. Onze hoofdvraag was als volgt: Heeft Dordrecht over de afgelopen drie jaar een stijging gehad in het aantal storingen? Onze verwachting (hypothese) was dat er een stijging was geweest. Eigenlijk had onze hoofdvraag een open vraag moeten zijn, maar dit was ons startpunt. We richtten ons specifiek op Dordrecht, omdat we graag een artikel wilden schrijven voor de lokale krant Dordt Centraal. Bovendien maakten we het onderzoek ook kleiner door het af te bakenen.

De draaitabel maakt de data al overzichtelijker

Analyseren
Stephanie schrapte alle onnodige data en maakte een overzichtelijke draaitabel. Samen analyseerden we de cijfers en dat schreven we handmatig op in notitieboekjes. Wat hadden we onszelf toch veel tijd kunnen besparen door het direct in Excel te doen, maar alles was nieuw voor ons; het was ons eerste datajournalistiekproject. Er vielen direct al een paar uitschieters op, maar pas toen we het in Tableau zetten – een datavisualisatieprogramma – werd duidelijk waar de meeste storingen zich bevonden: het aantal defecte treinen was sinds 2016 explosief toegenomen. Er zat een verhaal in, maar we waren niet zeker van onze uitkomsten. Konden we wel zo snel conclusies trekken en verbanden leggen? We begrepen namelijk niet hoe de data was verzameld, wat het verschil was tussen NS-lines en RDT-lines en waarom bepaalde trajecten een andere naam kregen dan andere (Dordrecht-Breda of Breda-Dordrecht). Vanwege onze twijfels benaderden we Rijden de Treinen en FHJ-docent en datajournalist Jeroen van de Nieuwenhof. Nog geen dag later kregen we antwoord van Geert van Rijden de Treinen en kwam Jeroen langs. Hij heeft samen met ons gekeken naar onze knelpunten en gaf ons tips over hoe we precies verder konden gaan. Ondanks dat wij het gevoel hadden dat we het niet goed hadden aangepakt, vertelde hij dat hij onder de indruk was. Doordat we het in de praktijk leerden zei hij dat we misschien zelfs al op derdejaars niveau aan het werk waren. 

Handmatig opschrijven in plaats van werken met Excel: geen goede keuze.

Bronnen benaderen
Vol goede moed begonnen Stephanie en ik weer aan de data-analyse (met Excel). Het was een geruststelling om te zien dat onze tweede analyse voor het grootste deel overeenkwam met de eerste. Alleen wat telfouten met een minimale marge zorgden voor wat andere uitkomsten. We besloten NS en ProRail te benaderen om hen te confronteren met onze uitkomsten. Wij hadden namelijk ontdekt dat het aantal storingen tussen 2016 en 2018 rondom Dordrecht was toegenomen. NS ging niet in op onze conclusies door te zeggen dat zij niet met storingsdata, maar met data van gehinderde treinen werken. Ook zeiden ze geen tijd te hebben om ons verder te helpen. Daarom richtten we onze pijlen op het NS Community-forum, waar werknemers van NS antwoord kunnen geven op vragen. En dat leverde interessante reacties op. Veel daarvan kwamen overeen met de data die wij voor ons hadden. We zochten eerder gepubliceerde artikelen op en zagen dat er verbanden waren tussen onze dataset en de reacties op het forum. Verder stuurde NS ons een brief door, die door de Staatssecretaris van Infrastructuur & Waterstaat was opgesteld, gericht aan de voorzitter van de Tweede Kamer. Hierin stond vermeld dat 2018 een goed jaar was geweest en dat alleen de storingen op de HSL-Zuid waren toegenomen. Maar dat werd eerder afgedaan als bijzaak. Wij kwamen uit op juist een slechter jaar. Dit was raar. Devid vertelde ons dat op basis van de reactie van NS, we op het goede spoor zaten: “Jullie hebben goud in handen!”. Ondertussen kregen wij het steeds warmer. Dit kon wel iets groots worden. ProRail reageerde minder snel, maar wilde wel meewerken. Ook zij werkten met data van gehinderde treinen en niet met storingsdata. Maar in tegenstelling tot de NS, beaamden zij juist wel dat 2018 een slechter jaar was geweest. 

ProRail stuurde deze grafiek door met als bevestiging dat 2018 een slechter jaar dan 2017 is geweest.

Om het zekere voor het onzekere te nemen, benaderden we nog een keer Rijden de Treinen. Geert had aangegeven dat de data betrouwbaar was. Maar door de reacties van onze bronnen, doemden er weer wat vragen op. We hebben meerdere malen geprobeerd contact op te nemen met Geert, maar we hebben niks meer van hem gehoord sinds hij op vakantie is gegaan (meer dan een maand geleden zou hij terugkomen). We hebben met de hulp van Devid meer informatie over hem opgezocht via de servercode van rijdendetreinen.nl en de KVK, maar het mocht niet baten. Door dit alles bij elkaar kregen wij nog meer twijfels over de betrouwbaarheid van de data. We besloten het artikel niet te publiceren, maar het achter een slotje te zetten. Het is gevoelige informatie waarvan we niet met honderd procent kunnen zeggen of onze uitkomsten kloppen. Jeroen heeft met ons nog het artikel nagelopen en gaf ons complimenten over hoe diep we op de data waren ingegaan. Wel raakte hij een beetje ‘verzopen’ door alle cijfers in het artikel. Jeroen raadde ons aan om een andere dataleverancier te benaderen en zelf te checken hoe data binnenkomt vanaf NS API, de Nationale Databank OV en ProRail. Zo kunnen we checken of de data overeenkomt met de dataset van Rijden de Treinen. We hebben ook nog contact opgenomen met Pointer KRO-NCRV, omdat we denken dat hier een nog groter verhaal in zit. Maar zo’n gevoelig onderzoek over twee grote instanties durven we niet alleen te doen, daar willen we hulp bij krijgen van professionele datajournalisten.  

Reflectie
Wat dus begon met een oefening, mondde uit in een project van meerdere maanden. Het kostte veel tijd en moeite, doordat we telkens afhankelijk waren van andere mensen en soms hard werden geconfronteerd werden met onze fouten. Er gaat nu eenmaal veel tijd in datajournalistiek zitten, het is erg gedetailleerd werk. En dat maakt het ook weer zo interessant, het is echt onderzoeksjournalistiek. En natuurlijk zou ik nu anders te werk gaan. Hoe meer ik las in de boeken over datajournalistiek, hoe meer ik me realiseerde dat ik bepaalde dingen anders aan had moeten pakken. Ik zou voortaan eerst beginnen met het inlezen van het onderwerp: wat is er al bekend? Dit was bij ons juist een van de laatste stappen en dat was zonde. Verder zou ik meer check, check, dubbelcheck doen. Hoe is de data verzameld en hoe betrouwbaar is de dataset? Je mag niet zomaar verbanden leggen, je moet altijd stappen naar bronnen voor de ‘waarom-vraag’. Hierdoor wordt het verhaal sterker en weet je dat je geen onterechte conclusies trekt. Daarnaast is het belangrijk dat je volledig bekend bent met de inhoud van de dataset. De volgende stap is dan pas analyseren. Dat is bij ons ook andersom gegaan. En er zijn zoveel meer verhalen uit deze data te halen. Wie weet komt er nog een vervolg, misschien wel in samenwerking met Pointer KRO-NCRV. 

Competenties
– Publieksgerichtheid: Op het forum van NS Community hebben we meerdere vragen gesteld op basis van de uitkomsten van ons onderzoek. We hebben dus actief het publiek betrokken bij onze productie. Door te linken naar de reacties in het artikel, zijn we transparant naar de lezers toe. Ondanks dat het artikel niet is gepubliceerd in Dordt Centraal, hadden we nog steeds de inwoners van Dordrecht als doelgroep. Dat betekende dat we niet met jargon konden werken, want bij dit onderwerp hoorde een onwetend publiek. Daarom hebben we zoveel mogelijk toelichting en uitleg gegeven. 
– Research: Samen hebben we voortdurend informatie verzameld. Welke informatie is overbodig en welke is een mooie aanvulling voor in het artikel? Om de betrouwbaarheid van de data te checken, hebben we contact opgenomen met de originele bron. Ondanks dat er op een gegeven moment geen respons meer kwam, hebben we met behulp van de experts gekeken naar NS API en KVK-informatie over de server van rijdendetreinen.nl. We hebben gebruik gemaakt van zowel mondelinge (NS en ProRail) als schriftelijke bronnen (NS Community, sites die al eerder hebben gepubliceerd over storingen en informatie over het soort storing). 
– Produceren: Door de grote dataset van honderdduizenden rijen die niet altijd even betrouwbaar was en de reacties van de bronnen (NS die niet mee wilde werken), hebben we een complexe, inhoudelijke productie gemaakt. Er heeft veel tijd gezeten in het maken van deze productie doordat we afhankelijk waren van reacties van bronnen en het analyseren van de data. Het mediumtype was Dordt Centraal, met als doelgroep de inwoners van Dordrecht. 
– Vernieuwen: We hebben een verhaal gehaald uit ruwe, geanalyseerde data en bronnen. Verder hebben we met Tableau een interactieve grafiek gemaakt om de uitkomsten van de data te visualiseren. Dat geeft een duidelijk beeld van onze conclusies. 
– Reflecteren: We waren ons bewust van het feit dat de data niet betrouwbaar kon zijn en dat er fouten in onze analyses konden zitten. Ondanks dat we bronnen en experts hebben geraadpleegd voor begeleiding, verdere uitleg en antwoorden op de ‘waarom-vragen’, hebben we geen risico genomen door het artikel niet te publiceren. Dit komt ook mede doordat grote partijen bij dit onderwerp zijn betrokken en dat kon juridische problemen opleveren als onze data onbetrouwbaar bleek te zijn. 

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Deze website gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.