piwik-script

English Intern
    Research Data Management

    Handlungsempfehlungen

    Forschungsdatenmanagement (FDM) nimmt aufgrund der rasant voranschreitenden Digitalisierung in Forschung, Lehre sowie im Wissens- und Technologietransfer eine immer zentralere Rolle im Forschungsgeschehen ein. An der JMU existieren bereits  Unterstützungsstrukturen für Akquise und Durchführung von Forschungsprojekten und weitere Aspekte des FDM. Grundsätzlich wird dazu geraten, alle Kooperationspartner, die zu einem Forschungsprojekt beitragen, möglichst frühzeitig in das FDM einzubinden und einen Datenmanagementplan (DMP) aufzustellen. Das Vorgehen im Umgang mit gewonnenen Daten und mit deren Veröffentlichung und Verwertung sollte integraler Bestandteil der Planung eines Forschungsprojektes sein. Die langfristige Speicherung von Daten beinhaltet ebenfalls eine Reihe von Gesichtspunkten und Entscheidungen, die für den erfolgreichen Projektverlauf und die Wiederverwertung der Forschungsdaten wichtig sind. Ein sinnvolles Datenmanagement sichert Ihre Daten langfristig und personenunabhängig vor Verlust. Aufgrund nachvollziehbarer Archivierungsstrukturen und gespeicherter Kontextinformationen bleiben die Daten auch auf lange Sicht leichter auffindbar und nutzbar. Schließlich sind die positiven Auswirkungen reiner Datenpublikationen nicht zu unterschätzen. Sie gelten als eigenständige Publikationen, so dass Wissenschaftler und Wissenschaftlerinnen ihre Forschungsleistungen sichtbarer machen und ihre Reputation steigern können: Die veröffentlichten Daten werden durch Zuweisung einer DOI bereits ohne eine Besprechung in wissenschaftlichen Zeitungsartikeln zitierfähig und können z. B. in manchen Formen von Zitationsanalysen oder in Publikationslisten verwendet werden.

    Die nachfolgenden Erläuterungen bieten Hinweise und Empfehlungen für das systematische Management von Forschungsdaten:

    /

    1. Erstellung eines Datenmanagementplans (DMP)


    Anhand eines DMPs können Sie systematisch darstellen, wie Sie im Laufe eines Projektes mit Ihren Daten umgehen wollen. Ausgehend von der Überlegung, welche Forschungsdaten erzeugt werden, enthält der Plan eine Dokumentation hinsichtlich der Verarbeitung, Pflege, Speicherung, Archivierung und Nutzungsmöglichkeiten Ihrer Daten. Ein gewinnbringendes FDM beginnt mit der Erstellung des DMPs bereits in der Planungsphase des Projektes, also vor Generierung der Daten und nicht erst nach Projektabschluss. Nur so kann die dauerhafte Nutzung der Daten erleichtert oder gar ermöglicht werden. Warum die Datenerhaltung und -pflege während sämtlicher Phasen eines Forschungsvorhabens und darüber hinaus wichtig sind, lässt sich anhand des Begriffs des „Daten-Lebenszyklus“ (Data Curation Life Cycle) des Digital Curation Centers und der Hinweise des Leitfadens des WissGrid-Projektes klären:

     

    • Planung: Zu Beginn des Zyklus stehen die Planung des Forschungsprojektes, die Erstellung eines DMPs und die Erhebung von Daten, wobei neue Primärdaten erzeugt, aber auch häufig bereits vorhandene Daten aufgegriffen werden. Die nachfolgende Datenauswertung wiederum generiert die weiteren wesentlichen Daten des Forschungsprojektes.
    • Auswahl: Es ist weder zielführend noch möglich, alle gewonnen Forschungsdaten aufzubewahren. Deshalb müssen vor der Archivierung alle erhobenen Daten dahingehend bewertet werden, ob ihre Aufbewahrung sinnvoll oder eine bewusste Löschung (beispielsweise von im Nachhinein unnötigen Zwischenstufen) angebracht ist. Auch eine Entscheidung hinsichtlich der Aufbewahrungsdauer ist notwendig.
    • Ingest/Übernahme: Gemeint ist hier die Überführung der aufzubewahrenden Daten in ein Datenarchiv. Zuvor bedarf es einer meist aufwendigen Aufarbeitung und Strukturierung der Daten, beispielsweise um ihre Homogenisierung und Anreicherung mit geeigneten Metadaten zu erreichen. Es sollte auch daran gedacht werden, notwendige Verarbeitungsschritte zu dokumentieren und die dazu erforderliche Software-Umgebung zu bewahren.
    • Speicherung: Die Langzeitarchivierung (LZA) über die Projektlaufzeit hinaus bedarf einer entsprechenden Infrastruktur, die von erfahrenen Speicherdienst-Anbietern angeboten werden. Forschungsdaten sind für mindestens 10 Jahre zu archivieren.
    • Erhaltungsmaßnahmen: Es kann nicht davon ausgegangen werden, dass digitale Daten außerhalb ihrer ursprünglichen Erstellungs- bzw. Nutzungsumgebung nutzbar bleiben. Deshalb sollte festgeschrieben werden, welche Anforderungen an die technische Umgebung gestellt werden, um die Nutzbarkeit der Daten sicherzustellen und wie mit technischen Veränderungen umgegangen werden soll.
    • Zugriff und Nachnutzung: Die besten Daten sind nutzlos, wenn sie nicht auffindbar sind. Folglich muss in der letzten Phase festgelegt werden, wie die Daten aufgefunden werden können, wem eine Zugriffsberechtigung eingeräumt wird und mit welchen Mitteln zugegriffen werden kann.

     

    2. Leitfragen


    Insgesamt geht es bei der Erstellung eines DMP darum, Arbeitsabläufe für den gesamten Lebenszyklus von Forschungsdaten zu definieren sowie grundlegende Fragen zu Zuständigkeiten, Prozessen und Technologien zu klären.
    Der folgende Fragenkatalog bietet Ihnen dabei einige Ansatzpunkte:

    • Welches Ziel hat das Projekt?
    • Welche Einrichtungen und Personen sind involviert?
    • Welche Art von Daten wird erzeugt und genutzt?
    • Auf welche Art und Weise werden die Forschungsdaten erzeugt bzw. genutzt?
    • Welche fachspezifischen Standards werden dabei angewendet (Dateiformate, Ontologien etc.)?
    • Welche Methoden werden zur Qualitätssicherung der Daten eingesetzt?
    • Welche Zusatzinformationen sind zum Verständnis der Daten erforderlich?
    • Welche Daten müssen aus welchem Grund aufbewahrt werden?
    • Wann werden die Daten ausgewählt?
    • Wie lange dürfen und sollen die Daten aufbewahrt werden?
    • Wer darf die Daten nutzen (rechtliche oder anderweitige Einschränkungen)?

    Die unterschiedlichen Erfordernisse und Standards innerhalb der verschiedenen Wissenschafts-disziplinen machen es unmöglich, die Erstellung eines DMPs abschließend schematisch darzustellen. Die bereitgestellten Planungsinstrumente müssen in jedem Einzelfall hinterfragt und an die einzelnen Gegebenheiten angepasst werden.

    3. Vorgaben von Forschungsförderern


    Förderorganisationen wie die DFG, das BMBF oder die EU fordern immer häufiger schon bei der Beantragung von Drittelmitteln die Einreichung eines Datenmanagementplans oder zumindest eine Stellungnahme zum Umgang mit gewonnenen Daten. Zudem erhalten viele Inhalte des FDM und ihre Projekt spezifischen Vorgehensweisen eine verstärkte Gewichtung in der Evaluierung von Projektvorschlägen. FDM ist Bestandteil erfolgreicher Projekte.

    Open Data Management in EU-Projekten
    Die Europäische Kommission fordert im Rahmen von Horizon 2020 eine öffentliche Zugänglichkeit von Forschungsdaten (open access to research data). Um Sammlung, Abspeicherung und öffentliche Zugänglichkeit von Forschungsdaten für ein EU-Projekt zu planen und vorzubereiten, sind Antragsteller verpflichtet, einen Data Management Plan zu erstellen, und zwar in allen Programmteilen und Ausschreibungen der neuen Arbeitsprogramme 2017. Für Förderungen im Rahmen des Horizon2020-Programms der EU existiert ein offizieller Leitfaden zur Erstellung der benötigten Datenmanagementpläne in englischer Sprache. Das Online-Tool DMPonline hat die entsprechenden Vorgaben der Europäischen Kommission explizit eingearbeitet.

    BMBF-Förderungen
    Das Bundesministerium für Bildung und Forschung verlangt in den jeweils einschlägigen (Neben-) Bestimmungen für Fördervorhaben die Vorlage eines "Verwertungsplans", der u.a. wissenschaftliche und technische Nachnutzungsmöglichkeiten darzustellen hat.

    DFG-Förderungen
    Die Deutsche Forschungsgemeinschaft (DFG) hat 2015 „Leitlinien zum Umgang mit Forschungsdaten“  für Antragsteller/innen verabschiedet. Erwartet wird, dass sich Antragsteller/innen bereits bei der Projektplanung mit der Frage befassen, ob und welche der aus einem Vorhaben hervorgehenden Forschungsdaten für andere Wissenschaftler/innen relevant sein können und wie deren Zugänglichkeit und Nachnutzbarkeit erreicht werden kann. Entsprechende Erläuterungen zur Art von und zum Umgang mit Forschungsdaten sind im Antrag darzulegen. Gleichzeitig können projektspezifische Kosten, die anfallen, um eine Nachnutzung der Daten durch Dritte zu ermöglichen, mit dem Antrag eingeworben werden. In Sonderforschungsbereichen kann ein Teilprojekt zur Informationsinfrastruktur beantragt werden. Forschungsdaten sind für mindestens 10 Jahre zu archivieren. Weitere Erläuterungen und fachspezifische Empfehlungen zum Umgang mit Forschungsdaten finden Sie auf den Seiten der DFG.

    4. Wahl des geeigneten Datenformats


    Schon die gezielte Wahl des Datenformats kann die Nachnutzbarkeit ihrer Forschungsdaten erheblich verbessern oder gar erst ermöglichen. Folgende Aspekte sollten Sie bei Ihrer Entscheidung mit einbeziehen:

    • Das gewählte Format sollte in Ihrer Wissenschaftsdisziplin etabliert sein.
    • Es sollte im Hinblick auf seine Zukunftsfähigkeit überprüft werden. Hier ist jedoch nur eine Prognose möglich: Je mehr Softwareprodukte das Datenformat lesen können, desto eher wird dieses Format auch zukünftig unterstützt werden.
    • Achten Sie darauf, dass die Dokumentation des Formates frei zugänglich ist. Nur dann kann auch in Zukunft eine Software zur Verwendung des Formats entwickelt werden.
    • Es dürfen keine technischen Beschränkungen, wie z.B. Verschlüsselungen oder DRMs, die Verarbeitung des Formats behindern.
    • Es sollten zudem keine rechtlichen Beschränkungen für die Nutzung des Formates bestehen (z.B. Patente wie MP3).
    • Das Format sollte nur die für die Forschungsdaten relevanten Informationen mit einbeziehen. Insbesondere unnötige Formatierungsinformationen sollten vermieden (z.B. Schriftgrad für tabellarische Messdaten in ODS oder XLS) werden.

    Einen Überblick über gängige Datentypen erhalten Sie auf den Seiten des RADAR-Projekts.

    Wir empfehlen folgende Dateiformate:

    InhaltEmpfohlenes Format
    Text

    PDF, ideal: PDF/A

    ohne Formatierung: TXT

    für Editierbarkeit: ODT, RTF, HTML

    mit Formeln: LaTeX (TEX)

    In geisteswissenschaftlichen Editionsprojekten: TEI/P5

     

     

    Tabelle   

    CSV / TSV

    numerische Daten: HDF5

    RastergraphikPNG, TIFF (baseline)
    VektorgraphikSVG, EPS
    Multimedia

    Container: MKV, WebM, OGG

    Video-Codec: VP8, Theora

    Audio-Codec: FLAC, WAV (PCM-Daten), Vorbis, Opus

    relationale DatenbankSQL Dump, XML, siehe auch Tabellenformate
    allg. strukturierte DatenXML bzw. verbreitete XML-Dialekte, JSON, YAML

     

    5. Nutzung von Metadaten


    Damit Sie Ihre Daten identifizieren und auffinden oder sie anderen Forschenden zugänglich machen können, müssen Sie Ihre Daten erschließen. Dazu werden Ihre Daten mit Hilfe eines Metadaten-Schemas beschrieben und gleichzeitig erläutert. Durch die Benutzung geeigneter Metadaten können Sie Ihre Forschungsdaten nicht nur managen, sondern sie über lange Zeiträume verstehen und benutzen oder auch anderen Forschenden zur Verfügung stellen: So enthält beispielsweise der weit verbreitete Metadaten-Standard Dublin Core Eingaben über Identifikatoren (ISBN, DOI etc.), technische Angaben (Dateiformate etc.), die inhaltliche Beschreibung Ihrer Daten (wie zugrundeliegende Fragestellungen oder angewandte Forschungsmethoden) und sogar Verweise auf Dokumente, zu denen Ihre Daten einen Bezug haben.
    Ein guter Überblick über die Vielzahl der gängigen, disziplinspezifischen Metadaten-Standards ist auf den Seiten der Standford University Libraries oder des britischen Digital Curation Centre (DCC) zu finden.
    Um eine erschöpfende Nutzung der Metadaten zu ermöglichen, sollten möglichst einheitliche Begrifflichkeiten und gleichartige Beschreibungen gebraucht werden. Nur wenn gleiche Dinge auch gleich benannt werden, ist es möglich, anhand der verwendeten Begriffe exakte und vollständige Suchergebnisse zu erzielen und Forschungsdaten folgerichtig miteinander zu verknüpfen. Deshalb sollten Sie beim Ausfüllen der Metadaten-Felder ein sogenanntes kontrolliertes Vokabular benutzen. Es handelt sich dabei um die Vorgabe bzw. Definition von festen Begriffen und Regeln, zusammengefasst in Wortlisten oder strukturierten Thesauri. Ein solches kontrolliertes Vokabular kann für den jeweiligen Einzelfall projektintern selbst erstellt und benutzt werden. Zur Vereinheitlichung der sprachlichen Vielfalt ist jedoch empfehlenswert, standardisierte Vokabulare und Thesauri zu verwenden. Sie weisen häufig eine fachspezifische oder institutionelle Ausrichtung auf und werden von den zuständigen Einrichtungen fortlaufend gepflegt und verbreitet.
    Zu den kontrollierten Vokabularen zählen auch sog. Normdaten. Es handelt sich um Datensätze, die Personen, Organisationen, aber auch Konzepte oder Werke der Literatur, Musik, des Films, von Artefakten, Bauwerken und Orten beschreiben. Dabei werden der jeweilige semantische Kontext abgebildet und dauerhafte Identifikatoren hinzugefügt. Wissenschaftseinrichtungen im deutschsprachigen Raum nutzen oftmals Normdaten der Gemeinsamen Normdatei (GND).
    Auch sogenannte Klassifikationen gehören zu kontrollierten Vokabularen. Durch ihren Einsatz werden Daten systematisch geordnet und gleichzeitig einheitlich beschrieben.
    Ein weltweites Verzeichnis von kontrollierten Vokabularen, Normdateien, Klassifikationen, Thesauri, Ontologien und Taxonomien wird an der Universität Basel entwickelt (BARTOC Basel Register of Thesauri, Ontologies & Classifications).

    6. Zugänglichmachung und Veröffentlichung von Forschungsdaten


    In den unterschiedlichen Wissenschaftsdisziplinen sind die Infrastrukturen für die Veröffentlichung von Daten verschieden stark etabliert. Bei der Wahl des Publikationsmediums sollten Sie insbesondere die etablierte Vorgehensweise Ihrer Fachcommunity berücksichtigen. Grundsätzlich gibt es verschiedene Möglichkeiten, wie Sie Ihre Forschungsdaten veröffentlichen können:

    • in einem Medienrepositorium
    • in einem Data Paper oder
    • als Supplement zu einem Zeitschriftenartikel oder einem Buch


    Medienrepositorien
    Bei einem Repositorium handelt es sich um einen Server, auf dem Dateien abgelegt werden können. Rein institutionelle Repositorien beinhalten lediglich Publikationen aus der eigenen Institution. Fachrepositorien sind dagegen auf eine spezielle Wissenschaftsdisziplin oder Medientypen spezialisiert, während disziplinübergreifende Repositorien eine allgemeine Veröffentlichungsplattform bieten.
    Bei der Wahl eines geeigneten Repositoriums sollten Sie vornehmlich die Standards Ihrer Fachdisziplin berücksichtigen. Zusätzlich sollten Sie auf die Verlässlichkeit und Unabhängigkeit des Anbieters achten. Die gewählte Plattform sollte zudem Optionen zur Lizenz- und Rechtevergabe sowie eine Verknüpfungsmöglichkeit mit einem Persistent Identifier bereitstellen.
    Beispiele für Fachrepositorien und disziplinübergreifende Repositorien:


    Eine nach Wissenschaftsgebieten sortierte Zusammenstellung aller Fachrepositorien finden Sie auf den Seiten des Open Access Directory (OAD).

    Die Registry of Research Data Repositories (re3data) bietet nicht nur einen Überblick über rund 1.500 Repositorien, sondern auch ein eigenes Bewertungssystem für diese Server.

    Neben den eigentlichen Forschungsdaten ist die Erstellung eines Data Paper wichtig. Unter einem Data Paper versteht man ein Metadaten-Dokument, das einen einzelnen Datensatz oder eine ganze Gruppe von Datensätzen beschreibt. Anders als bei konventionellen Forschungsartikeln enthält es keine wissenschaftlichen Hypothesen oder Schlussfolgerungen, sondern dokumentiert ausschließlich die Methoden der Datenerhebung und enthält Angaben zu Qualität und Grenzen der Daten sowie über ihre Nachnutzungsmöglichkeiten. Der Datensatz selbst ist meist auf einem Medienserver oder in einem Repositorium gespeichert und wird mit dem Data Paper lediglich verlinkt.
    Veröffentlicht wird das Data Paper in Form eines Peer-Review-Artikels in einer wissenschaftlichen Zeitschrift. Dabei enthalten die meisten Journals neben den Veröffentlichungen dieser Datensets auch andere wissenschaftliche Artikel.

    Open Access in EU-Projekten
    Die Europäische Kommission fordert im Rahmen von Horizon 2020, dass alle Publikationen, die einem Peer-Review-Prozess unterliegen und die aus einem geförderten Projekt resultieren, der Öffentlichkeit frei zugänglich zur Verfügung gestellt werden (open access to scientific publications). Eine Verlinkung auf der Projekt-Homepage genügt nicht. Gefordert ist eine Veröffentlichung der Endfassung eines Artikels nach Abschluss des Peer-Review-Prozesses.

    Dabei gibt es zwei Möglichkeiten:

    • Die „green option“ / Selbstarchivierung, bei der die / der Verfasser/in den bzw. die Artikel in einem Online-Repositorium (z. B. OPUS-Publikationsserver der Universität Würzburg) archiviert, und zwar vor, während oder nach der Veröffentlichung in einer Fachzeitschrift. Dabei wird eine Embargo-Zeit der Verlage von bis zu 6 Monaten bzw. in den Geistes- und Sozialwissenschaften bis zu 12 Monaten akzeptiert.
    • Die „gold option“ / open access publishing: Der Artikel wird sofort, d.h. ohne zeitliche Verzögerung Open Access publiziert. Die Kosten, die dadurch für die / den Wissenschaftler/in entstehen, die sogenannten „Article Processing Charges“ (APC), werden unter gewissen Voraussetzungen anteilig von der Universität Würzburg  getragen.  Auch über die Fördereinrichtung, über die das Projekt finanziert wird, können APCs in vielen Fällen abgerechnet werden.


    Forschungsdaten im Rahmen dieser Publikation sollten ebenfalls als Open Data verfügbar gemacht werden. Es besteht jedoch immer auch die Möglichkeit, Forschungsdaten nicht zu veröffentlichen, vor allem dann, wenn die Veröffentlichung eigenen kommerziellen Verwertungsinteressen entgegensteht. Die Wahl dieser „opt-out“-Möglichkeit wirkt sich nicht auf die Bewertung eines Antrags aus. Allerdings ist zu erwarten, dass sich immer mehr Konsortien und Projekte bemühen werden, ihre Forschungsdaten öffentlich zugänglich zu machen.

    7. Recht und Ethik


    Im Umgang mit Forschungsdaten und insbesondere im Zusammenhang mit ihrer Veröffentlichung ist eine Reihe von rechtlichen Rahmenbedingungen zu beachten. So unterliegen bestimmte Forschungsmethoden beispielsweise in den Lebenswissenschaften einer zwingenden Begutachtung durch eine Ethikkommission. Werden personenbezogene Daten genutzt, müssen strenge datenschutzrechtliche Auflagen erfüllt werden. Bei der Nutzung und Veröffentlichung der Daten müssen ergänzend das Arbeitnehmererfindungsgesetz, das Urheberrecht und der Schutz berechtigter Interessen Dritter berücksichtigt werden.
    Deshalb sollten die rechtlichen Rahmenbedingungen schon bei der Planung eines Projektes abgeklärt werden.

    8. Unterstützungsservices in der JMU und nützliche Links


    Die JMU berät Sie zu folgenden Aspekten rund um das Thema FDM:

    • Projektanträge und Projektstrukturierung
    • Publikation im Universitätsverlag Würzburg University Press
    • Publikation mit dem OPUS Publikationsserver
    • Unterstützung für Open-Access-Publikationen
    • Forschungsdatenrepositorien
    • Unterstützung bei geisteswissenschaftlichen Projekten
    • Verwendung interoperabler, freier, dokumentierter Datenformate
    • Kurz- und mittelfristige Datenspeicherung bis zu 10 Jahren
    • Publikation von Forschungsdaten

    Ansprechpartner finden Sie unter Kontakt.

    Informationen zu FDM der DFG und zu den Forderungen der EU-Kommission finden Sie hier:

     EU-geförderten Unterstützungsangebote zu Open Access und Open Data: