08 oktober 2015Sluit venster
eScience en Open Access krijgen wereldwijd vaart, volgens Tony Hey op het eScience Symposium
Amsterdam - Tijdens het Derde eScience Symposium in de ArenA konden we even praten met Tony Hey van het eScience Instituut aan de Universiteit van Washington in Seattle over eScience en het vierde paradigma voor wetenschappelijke ontdekking. Tony Hey heeft in een vorig leven het eScience programma in het Verenigd Koninkrijk geleid en tussen 2005 en 2015 was hij directeur externe onderzoeksactiviteiten bij Microsoft waar hij aan eScience deed met Jim Gray. Samen schreven ze een boek getiteld "The Fourth Paradigm: Data-Intensive Scientific Discovery". In 2015 nam Tony Hey een sabbatical in de luwte van het eScience Instituut van de Universiteit van Washington waar er op dat vlak heel wat interessants gebeurt. In het Verenigd Koninkrijk was er al vroeg sprake van eScience, namelijk in 2001. Toen al zag men dat er big data zouden komen in haast elk domein vna de wetenschap waarvoor nieuwe technologieen zoals gedistribueerde computing en gedistribueerde vormen van samenwerking nodig zouden zijn. Het duurde evenwel nog lang voor eScience aanvaard werd in elk domein. In 2004 stichtte Tony Hey het data curator centrum in het Verenigd Koninkrijk dat zeer sterk gelijkt op DANS in Nederland. Inmiddels is er heel wat vooruitgang geboekt. Data management plannen zijn nu een must voor iedere wetenschapper die een aanvraag naar subsidies doet.

Het is niet nodig alle gegevens op te slaan maar je moet wel weten welke gegevens je nodig hebt om een publicatie te ondersteunen. Dit is nauw verbonden met een open science agenda. Men heeft ook de open access beweging. Als men onderzoeksresultaten wil reproduceren dan moet men naar de gegevens die men gebruikt heeft linken om de hand te leggen op de resultaten maar ook op de gebruikte software. Dit alles moet verbonden worden en we zijn nog maar pas begonnen met die onderlinge verbinding, aldus Tony Hey.

Grote experimentele samenwerkingsverbanden zoals de LHC zijn erg goed georganiseerd en hebben budgetten voor software maar nog veel wetenschappers gebruiken tools zoals Excel. Als je vijf jaar later een Excel sheet raadpleegt, dan heb je geen idee meer wat er in die kolommen staat, waar de berekeningen en annotaties voor staan. Een van de dingen die Tony Hey bij Microsoft deed, was een open source toevoeging bij Excel maken zodat je een Excel spreadsheet kon annoteren door aan te geven wat er in stond en wat je met de gegevens had gedaan. Zoiets zou een tweede natuur moeten worden voor iedere wetenschapper: zorgen dat de metadata die je verzameld hebt over je gegevens nog van nut zijn binnen 5 of 10 jaar.

Tony Hey is ook lid van het bestuur van de Research Data Alliance (RDA). Hij vindt dat RDA zaken moet afleveren die nuttig zijn voor wetenschappelijke gemeenschappen. Het is leuk dat IT managers en computerwetenschappers onder elkaar bedisselen wat men het beste zou doen maar je moet er ook de onderzoekers bij betrekken zodat je dingen niet onmogelijk maakt voor hen en hen lasten oplegt die ze als irrelevant en als iets vervelends ervaren. Tony Hey vindt het geweldig dat Nederland zich zo concentreert op het eScience gebeuren door er de aandacht op te vestigen en de onderzoeksgemeenschappen er actief bij te betrekken.

We wilden ook weten hoe Tony Hey staat tegenover het feit dat men nu tracht om HPC naar het MKB te brengen. Hij denkt dat dit absoluut niet eenvoudig is, nu het einde van Moore's Law in zicht komt en het niet evident meer is om automatisch een verhoging in rekenkracht te realiseren zonder eerst een enorme inspanning qua software te doen. Niet iedereen kan een moderne supercomputer programmeren omdat er tegenwoordig gemengde progammeermodellen bestaan zoals shared-memory OpenMP. Dat is een hele klus voor een MKB.

Waar hij wel in gelooft zijn templates waarmee je iemand van het MKB kan leren om het soort van parallellisme in zijn toepassing te zien. Aan de hand daarvan kun je je eigen code schrijven met behulp van deze templates. De templates zijn libraries en worden geschreven door experten en geoptimaliseerd voor een bepaalde architectuur. De gebruiker hoeft hierover niets te weten. Natuurlijk haal je hiermee niet de meest efficiente implementatie binnen voor je toepassing maar als je de snelheid al met een factor van 20 kunt verhogen, dan is dat heel wat. Het hoeft niet noodzakelijk 99 keer sneller te gaan. Met een versnelling van 40 procent zit je al heel goed.

Tony Hey is een fan van Message Passing Interface. Je kan ermee programmeren op een lager niveau dankzij het gebruik van templates. Natuurlijk zijn de architecturen complexer geworden dan in de jaren 90 van de vorige eeuw maar in deze benadering zit toch muziek voor het MKB.

In verband met open access meent Tony Hey dat 2013 een kantelmoment was voor open access. Toen besloot het Amerikaanse Office of Science & Technology Policy van het Witte Huis een memorandum uit te geven waardoor alle federale agentschappen die onderzoek subsidieren verplicht werden om de resultaten van hun onderzoek meer toegankelijk te maken voor het algemene publiek. De onderzoekspapers en de gegevens waarop het onderzoek gebaseerd was moesten openbaar gemaakt worden. Dat bracht een grote verandering teweeg. Alle agentschappen beschikken nu over een mechanisme om hun onderzoekspublicaties voor de goegemeente beschikbaar te maken zonder dat men een hoge som moet betalen aan deze of gene uitgever.

Ook internationale organisaties uit het Verenigd Koninkrijk, Nederland, Australie en Duitsland sloten hierbij aan tijdens een vergadering van de Algemene Wereldwijde Onderzoeksraden. Ook het Europees Parlement staat nu achter open access. Na Europa dat als pioneer fungeerde met de open universiteitsrepositories voor onderzoekspapers volgt nu ook de USA in snel tempo, met name aan het MIT, Harvard, Berkeley, de Universiteit van Californie, enzovoort.

De volgende stap zijn de gegevens waarop de onderzoekspublicaties gebaseerd zijn. Men dient een persistente identificeerder te hebben voor de gegevens. Nu herhalen mensen steeds dezelfde experimenten omdat ze het van elkaar niet weten. Maar eens men een wereldwijde digitale bibliotheek heeft die niet enkel publicaties maar ook geggevens en zeker ook de software bevat die men gebruikt heeft om de resultaten te genereren, dan verandert alles.

Tenslotte brak Tony Hey nog een lans voor de mensen die een groot talent bezitten voor het schrijven van wetenschappelijke software die wereldwijd gebruikt wordt. Anders dan de full-time onderzoekers blijven zij vaak op hun honger zitten bij het verwerven van een stabiele academische betrekking. Hetzelfde geldt voor mensen die bezig zijn met gegevens. Zij moeten betere carrierekansen krijgen. Zij hebben een onmiskenbaar talent maar het moet erkend worden in het universiteitssysteem zodat zij uitzicht krijgen op een volwaardige betrekking.

Het eScience Instituut in Washington maakt deel uit van een triumviraat, samen met Berkeley en de Universiteit van New York. Dit triumviraat word gesubsidieerd door de Gordon Moore Foundation en door de Sloan Foundation om deze alternatieve carrieretracks te onderzoeken. De start met drie universiteiten is een begin en Tony Hey hoopt dat het positief zal aanslaan.

http://primeurmagazine.com/weekly/AE-PR-12-15-80.html
Sluit venster