Seminář iniciativy Semanti-CS v rámci programu konferencí Datakon 2012 a Znalosti 2012

From Semanti-CS Wiki
Jump to: navigation, search

Diskuse se zaměřila na možnosti otevřeného vystavování informací o publikacích, a to zejména kvalifikačních pracích.

Problémem je motivace vedení univerzit. Prozatím většinou zveřejňují jen to, co je nařízeno. Je proto potřebné na jedné straně demonstrovat relativní snadnost otevřeného vystavování dat zevnitř, a na druhé straně vysvětlovat, že zveřejňování publikační činnosti je také v zájmu vysokých škol, protože přispívá to k lepší viditelnosti a citovanosti článků. Nehledě na to, povinnost publikovat data by měla být dána i zákonem (o vysokých školách). Lze argumentovat tím, že jsme pozadu oproti zahraničí.

Nadějnou úlohou s okamžitým přínosem může být "matchování" oponentů kvalifikačních prací. Důležitá je ovšem shoda na konceptualizacích vyjadřujících obory.

Další funkcionalitou založenou na otevřených datech může být alternativní způsob hodnocení univerzit (ve stylu modelu Altmetrics).

Konkrétní postřehy:

  • Na ČVUT je projekt KOSapi, který nabízí REST rozhraní k datům. Neexistuje ale export dat.
  • Mohla by otevřená data být využita pro RIV? RIV má strukturovaná data. Server RIVu běží údajně na ČVUT.
  • Za úvahu by stála organizace hackathonu, směřující k vytváření mashupů s akademickými daty.
  • Existující otevřený systém pro zveřejňování abstraktů disertací: http://acmbulletin.fiit.stuba.sk/abstracts.html
  • Na Slovensku je zákonem stanovené centrální shromážďování kvalifikačních prací kvůli odhalování plagiátorství. V Česku se o podobnou činnost snaží http://theses.cz, nicméně účast na tomto projektu není povinná (např. Univerzita Karlova zcela chybí).

V rámci Semanti-CS bychom se měli pokusit o cestu rychlého prototypu a vývoje užitečných aplikací, které mohou být použity jako argument pro oficiální postup - proof of concept. Pro zveřejnění vzorku dat a případně i zpracovaných agregací by bylo možné využít server OpenData.cz. Testovací vzorek by měl být heterogenní: z více různých VŠ. Aplikace nad daty by pak mohli vyvíjet studenti. Je ale otázky, zda a kdy je vůbec legální data o VŠ kopírovat. Jde o veřejná díla? Existuje nějaká zodpovědnost za zveřejněná data? Jak zajistit duplikovaná data? Organizace se zřejmě zveřejněním dat zavazuje k jejich údržbě. Další možností je, aby menší výzkumné skupiny data samy zveřejňovaly na vlastním webu.

Dalo by se vyjít z dat, která jsou v Národním úložišti šedé literatury. Data jsou k dispozici přes strojově zpracovatelné API - standardní protokol OAI-PMH (endpoint). Lze je proto harvestovat. Repozitář obsahuje přes 86 tisíc vysokoškolských kvalifikačních prací. Záznamy mají perzistentní URI (např. http://www.nusl.cz/ntk/nusl-77051). Data jsou přístupná v různých formátech, např. různé druhy XML (http://invenio.nusl.cz/record/77051/export/xnusl). Připadá v úvahu přidání dalšího formátu do Invenia (pomocí XSLT a la http://invenio-software.org/browser/modules/bibconvert/etc/oaidc2marcxml.xsl)? Linkování dat by mělo charakter rekonciliace klíčových slov na řízené slovníky (klasifikace ACM, PSH...) K projektu NUŠL by se postupně mohly přidávat další školy, viz http://nusl.techlib.cz/index.php/Spoluprace.