IDLab ontwikkelt COVID-19 literature knowledge graph

(20-03-2020) IDLab legt met de COVID-19 literature knowledge graph links tussen meer dan 44.000 wetenschappelijke artikelen over het coronavirus.

CORD-19

Als antwoord op de coronapandemie, heeft het Witte Huis in samenwerking met een coalitie van onderzoeksgroepen de COVID-19 Open Research Dataset (CORD-19) aangemaakt. CORD-19 is een verzameling van meer dan 45.000 wetenschappelijke artikelen over COVID-19, SARS-CoV-2, en gerelateerde coronavirussen. Deze vrij te consulteren dataset is nu beschikbaar voor de globale onderzoeksgemeenschap om hen te helpen in hun strijd tegen deze ziekte.

Aangezien het bijna onmogelijk is om uit die verzameling manueel informatie te halen, werd er een oproep gelanceerd naar experts over de hele wereld om hierop tekst- en datamining technieken los te laten, om zo een antwoord te kunnen bieden op de meest dringende wetenschappelijke vragen. Data analisten passen verschillende technieken toe die enerzijds op een automatische manier inzichten extraheren uit deze artikelen, of anderzijds het gemakkelijker maken om naar nuttige informatie te zoeken. Aangezien het aantal artikelen over het coronavirus snel toeneemt, is het steeds moeilijker voor de medische onderzoeksgemeenschap om alle informatie bij te houden.

COVID-19 literature knowledge graph

IDLab wil in eerste instantie heel veel van die artikelen linken aan elkaar. Verschillende papers refereren naar elkaar, hebben dezelfde auteur, zijn gepubliceerd in hetzelfde journal, etc. Door al die relaties tussen alle artikelen te leggen, ontstaat er een soort netwerk van kennis, of knowledge graph. Concreet kan je dus van het ene naar het andere artikel gaan door het pad te volgen in die graph. 

Voorbeeld COVID-19 Literature Knowledge Graph

 

 

De graph van wetenschappelijk artikel (doi 10.3390/jcm9020388) toont aan dat de abstract of de titel enkele nuttige woorden bevat, maar ook hoe dit artikel gelinkt is aan auteur (Guangpu Yang), die werkt voor de Chinese University of Hong Kong. Verder citeert dit artikel ook andere artikelen waar men opnieuw dezelfde structuur kan terug vinden.

Query COVID-19

Een knowledge graph heeft weinig nut als men er niet openlijk in kan zoeken. Doordat alle informatie aan elkaar is gelinkt, is het zeer eenvoudig om alle artikelen van een bepaalde auteur of alle artikelen die het woord 'coronavirus' bevatten, weer te geven. IDLab zette daarom een online framework op zodat onderzoekers hun knowledge graph kunnen gebruiken om informatie op te zoeken: query-covid19.linkeddatafragments.org/ 

De knowledge graph verrijkt op deze manier ook de initiële dataset met extra informatie door deze extra links toe te voegen. IDLab onderzoekt momenteel de mogelijkheid om automatische analyses uit te voeren om op die manier bepaalde groepen van gelijke artikelen te vinden.

Contact

IDLab

iGent Tower - Department of Information Technology
Technologiepark-Zwijnaarde 126, B-9052 Ghent, Belgium

IDLab.UGent.be