Data (direct) delen was nog nooit zo belangrijk

Wie

GO FAIR Foundation, ZonMW, LUMC en diverse universiteiten in Nederland (WUR, Universiteit Twente) en de rest van de wereld.

Duur

Startte bij de uitbraak van corona (Go FAIR startte in 2017).

Vervolg

Met FAIR data is met artificial intelligence en machine learning het verloop van een virusuitbraak te voorspellen.

Budget

Onderdeel van ontwikkeling op Data Driven & High Tech en Digital Twins ongeveer 3.1 miljoen euro per jaar

De uitbraak van corona is een kans om serieus werk te maken van het FAIR delen van (medische) data, vinden internationale wetenschappers. In een netwerk (VODAN) mobiliseren ze ziekenhuizen en andere eigenaren van relevante data om deze direct wereldwijd beschikbaar te maken. Aan Wageningen University & Research, onderdeel van VODAN, zijn ze hier al volop mee bezig.

Hoe het mis kan gaan met het delen van data, zegt Ben Schaap van het Wageningen Data Competence Center, bewijst de gang van zaken rond ebola. Over de uitbraken van de afgelopen jaren is nauwelijks data vindbaar en, voor zover ze er zijn, al helemaal niet raadpleegbaar. En daarmee is het onmogelijk om gegevens te vergelijken of te hergebruiken. “Wetenschappers uit Europa en de VS namen monsters en verzamelden data, maar de artsen en wetenschappers in Afrika kregen zelf nooit de beschikking over deze logboeken en gegevens. Waardoor bijna niemand in Afrika van de eigen data kon leren.”

Het onderstreept voor Ben Schaap het belang van FAIR data. De Europese Commissie omarmt het principe van FAIR data. Er wordt gewerkt aan een European Open Science Cloud (EOSC) waarin deelnemers data FAIR kunnen delen. GO FAIR, een initiatief van Nederland, Frankrijk en Duitsland, werkt sinds 2017 aan de implementatie van de FAIR data-principes in een Europese open science cloud. 

Treintjes

De coronacrisis werkt volgens Schaap als een snelkookpan: opeens ziet iedereen hoe belangrijk het is dat data internationaal toegankelijk is voor wetenschappelijk onderzoek. Dat maakt de wereldwijde pandemie ‘een ideale case’ om het belang van FAIR data te onderstrepen en sneller een antwoord te vinden op urgente vragen. Wat zijn de belangrijkste symptomen van corona, hoe lang bezet een patiënt de intensive care? De antwoorden staan in de patiëntgegevens die inmiddels ziekenhuizen met elkaar delen.

Nu richt dit Virus Outbreak Data Network zich voornamelijk op patiënten data, maar Schaap ziet ook mogelijkheden in combinatie met onderzoekgebieden van WUR. Zo beschikt Wageningen over omgevings-data die relevant kan zijn voor corona, zoals bijvoorbeeld luchtkwaliteit. En doet Wageningen onderzoek naar uitbraken van corona in bijvoorbeeld de nertsenhouderij, waarbij onderzoekers veel leren over de transmissie van het virus van mens op dier. Met deze data is er wellicht in combinatie met (FAIR) verspreidingsdata van het RIVM beter inzicht te geven in de verspreiding van het virus. 

Mogelijk zijn ook met data over de luchtkwaliteit interessante links te leggen. Hebben patiënten in regio’s met een slechte luchtkwaliteit bijvoorbeeld meer last van corona? “Hoe meer experts naar een probleem kijken, des te beter inzicht we krijgen in de beheersing ervan”, denkt Schaap. Het netwerk is nu vooral bezig met de voorwaarden om de data op te slaan. Daarvoor worden datastations gebouwd. Straks komen ‘treintjes’ met algoritmes langs de datastations van onderzoeksinstituten om resultaten op te halen voor verdere analyse.

Cultuuromslag

WUR zelf wil dat over vier jaar alle data FAIR zijn, maar het zal nog even duren voordat iedereen deze stap heeft gezet. “Het is een cultuuromslag en dat kost tijd.” Een wetenschapper met een prachtige dataset is niet gewend om deze direct beschikbaar te maken voor anderen. “Die wil eerst zelf publiceren voordat anderen inzage krijgen. Toch is dat laatste precies wat we met FAIR data willen.” De data science alliance manager merkt dat de FAIR data-principes steeds meer toepassingen krijgen. En uiteindelijk vragen steeds meer onderzoekfinanciers zoals NWO om de data FAIR te maken.

Digital twins

Een volgende stap is dat de data ook van meet af aan bruikbaar is voor machine learning en artificial intelligence en daarmee het verloop van corona beter kan voorspellen. Op andere onderwerpen, zoals tomatenkweek, diëten en precisielandbouw, werkt WUR al met zogeheten digitals twins, digitale modellen die deze processen volledig digitaal nabootsen. Een voordeel van een digital twin-model is dat deze voortdurend wordt geüpdate wanneer er iets verandert in de kas, op de weegschaal of in de stikstofkringloop op een boerderij. Het model is daardoor steeds nauwkeuriger, ook in de voorspelling van ontwikkelingen in de toekomst. Voorlopig is dat nog toekomstmuziek, benadrukt Schaap. Daarvoor kun je immers alleen data inzetten waarvan de herkomst bekend is. “Met andere woorden: ook de metadata van modellen moet machine readable zijn. Zodat we erop kunnen vertrouwens dat de data FAIR is, gegenereerd door de modellen.”

Deel dit artikel

Share on facebook
Share on linkedin
Share on twitter
Share on email

Probleem

Data over corona uit de gezondheidszorg is slecht beschikbaar voor wetenschappers en professionals. Terwijl dit wel nodig is voor het in kaart brengen van de verspreiding van het coronavirus en het verbeteren en opschalen van diagnostiek.

TO2-oplossing

Het Virus Outbreak Data Network (VODAN) zorgt dat ziekenhuizen coronadata FAIR delen, dat wil zeggen dat de data Findable (vindbaar) Accessible (toegankelijk), Interoperable (uitwisselbaar) en Reusable (herbruikbaar) is, zowel voor mensen als machines. Waarna een koppeling mogelijk is met FAIR data van onderzoeksinstituten, bedrijven en overheden. WUR stelt data beschikbaar en gaat op zoek naar bruikbare allianties.

Impact

Nu en bij toekomstige virusuitbraken kunnen we sneller verbanden tussen data leggen, gerichter opschalen voor het testen. In het geval van Wageningse onderzoekers bijvoorbeeld met onderzoek naar luchtkwaliteit of uitbraken in nertsenfokkerijen.