piwik-script

Intern
Research Data Management

Datenpublikation und -archivierung

Forschungsdaten können auf unterschiedlichen Wegen veröffentlicht werden:

  • als Ergänzungsmaterial zu einer Publikation
  • als Datenartikel
  • in einem Datenrepositorium

Ergänzungsmaterial zu einer Publikation

Forschungsdaten als Ergänzungsmaterial von wissenschaftlichen Artikeln zu veröffentlichen, ist die bekannteste Form der Datenpublikation und bei den meisten Journalen möglich. Die Daten liegen hierbei entweder direkt bei der Ergebnispublikation oder sie werden in einem Repositorium abgelegt.

Wenn Daten einem Artikel direkt beigefügt werden, sind einige Punkte zu berücksichtigen:

  • Die Daten erhalten keine eigenständige zitierfähige ID (z.B. DOI oder Handle), durch die sie unabhängig von dem Artikel zu finden wären. Es lässt sich somit nicht explizit von einer Datenpublikation im klassischen Sinne sprechen.
  • Die Daten im Anhang sind in der Regel auf die Analysedaten beschränkt, die für die Ergebnisse des wissenschaftlichen Artikels relevant sind. Umfangreichere Datenbestände können nicht in den Anhang aufgenommen werden.
  • Da der Umfang des Anhangs von wissenschaftlichen Publikationen fast immer begrenzt wird, können die Daten nur einschränkt mit Metadaten beschrieben werden.
  • Hinzu kommt, dass der Zugang zu den Daten auch durch Nutzungsbedingungen der Journale eingeschränkt sein kann, falls diese nicht Open Access verfügbar sind.
  • Besonders wichtig ist es, auf die Vertragsbedingungen zu achten, da die Abtretung von Verwertungsrechten an Journale die eigene Verwertbarkeit der Daten einschränken kann.

Mittlerweile können die Textpublikation und die Forschungsdaten immer häufiger auch getrennt voneinander abgelegt werden. Hierbei werden Forschungsdaten parallel zum Erscheinen des Artikels als eigenständiger Forschungsoutput in einem externen Datenrepositorium publiziert.

Teilweise bestehen bereits Kooperationen zwischen Verlagen bzw. Journalen und Datenrepositorien (z.B. Elsevier und PANGEA  oder Zeitschrift für Soziologie und GESIS) oder es gibt zumindest Empfehlungen, wo die Daten abgelegt werden können.

Bei dieser Publikationsvariante erhalten die Daten eine eigene persistente ID, so dass eine Referenzierbarkeit der Daten dauerhaft möglich ist. Zur Verknüpfung beider Elemente wird die Daten-ID im Artikel genannt.

Allerdings werden auch bei dieser Variante meistens nur die Analysedaten abgelegt, die für die Ergebnisse des wissenschaftlichen Artikels relevant sind. Ebenso ist die Datendokumentation darauf ausgelegt, die Forschungsergebnisse nachvollziehen zu können, unterstützt jedoch nicht die Nachnutzung der Daten zu anderen Forschungsfragen.

Datenartikel

Für die Publikation von Forschungsdaten bieten Verlage zunehmend auch Datenjournale an. Anders als in klassischen wissenschaftlichen Zeitschriften werden in Datenjournalen die Daten hauptsächlich hinsichtlich ihres zugrundliegenden Forschungsdesigns und ihrer Nachnutzungs- bzw. Anwendungspotentiale beschrieben, ohne dass empirische Analysen oder inhaltliche Ergebnisse zu den Daten berichtet werden.

Datenartikel sind eigenständige, zitierfähige Publikationen, die in der Regel ein Begutachtungsverfahren (Peer Review) durchlaufen. Ein wichtiges Kriterium für viele Datenjournale ist die Einhaltung der FAIR-Prinzipien in Bezug auf die Daten.

Wenn Datenjournale genutzt werden, sind einige Punkte zu berücksichtigen:

  • Ein Datenartikel ist eine zitierbare Quelle für einen Datensatz, ohne dass notwendigerweise in allen Journalen der Datensatz unter der Quelle tatsächlich zugänglich ist (sog. citable proxy).
  • Datenjournale outsourcen die Daten ebenso wie traditionelle Journale häufig an Repositorien. In der Regel vergibt das Repositorium ebenfalls eine dauerhafte ID für die Daten, die direkt zum Datensatz führt und deshalb dem Datenartikel als indirekte, zitierfähige Quelle für die Daten vorzuziehen ist.
  • Begutachtungsverfahren sichern die Qualität der publizierten Datensätze. Allerdings sind die Kriterien andere als bei klassischen Journalen und oft weniger klar definiert. Dies liegt daran, dass keine theoretischen Konzepte, Hypothesen und empirischen Analysen bewertet werden, sondern vor allem die Beschreibung von Daten.
  • Datenjournale sind insbesondere geeignet, um einen Datensatz bekannt zu machen, dessen Nachnutzung durch weitere Informationen zu erleichtern und die eigene wissenschaftliche Leistung während des Forschungsprozesses mit akademischem Output zu belohnen.
  • Die Verlage, die Datenjournale herausbringen, verlangen häufig Bearbeitungsgebühren für die Publikation (sog. article processing fees). Darüber sollte sich Forschende vor der Einreichung von Artikeln informieren.

Weitere Informationen zu Datenjournale geben Candela et al. (2015) und Kratz und Strasser (2014)

Liste einiger Datenjournale

Biodiversity Data Journal  (OA, community peer review)

Biomedical Data Journal  (OA, peer review)

Genomics Data (absorption into Data in Brief)

GigaScience  (OA, open peer review, recommends to publish data in the GigaDB repository)

Ecology (requires to publish the data sets in Ecological Archives)

Open Health Data (OA, peer review, focus: health and medical data sets)

Journal of Open Psychology Data  (OA, peer review, requires to publish data in a repository under an open licence, e.g. GESIS)

Research Data Journal for the Humanities and Social Sciences (OA, peer review)

Journal of Statistical Software (OA, peer review, free of charge)

Jahrbücher für Nationalökonomie und Statistik (hybrid OA, peer review, hypbrid journal: section Data Observer)

Journal of Open Archaeology Data (OA, peer review, requires to publish data in a repository under an open licence)

Journal of Open Humanities Data (OA, peer review)

Geoscience Data Journal (OA, peer review, requires to publish data in a repository)

Earth System Science Data  (open peer review)

IUCrData (International Union of Crystallography) (OA, peer review)

International Journal of Spatial Data Infrastructures Research (OA, peer review, free of charge)

Journal of Open Source Software

Journal of open research software (peer review, meta-journal, focus: research software)

SoftwareX

Data Science Journal  (OA, peer review)

Data in Brief (OA, peer review)

Data (OA, peer review)

F1000Research (OA, open peer review)

Scientific data (OA, peer review, focus: life, biomedical, environmental science, requires to publish data in a repository)

Patterns (OA, peer review)

Grundsätzlich empfehlen wir Forschenden die Vertrauenswürdigkeit jedes peer-reviewed Open Access Journals, das sie nicht kennen, zu verifizieren, bevor sie ihre Publikationen einreichen (z.B. mit  Directory of OA Journals).

Datenrepositorium

Datenrepositorien sind Speicherorte, um digitale Forschungsdaten längerfristig zu archivieren und in vielen Fällen auch zu publizieren. Sie lassen sich auf Grundlage ihrer fachlichen Ausrichtung und ihres Betreibers in drei Varianten unterteilen:

  • Fachspezifische Repositorien, die auf eine wissenschaftliche Fachrichtung oder ein spezifisches Themengebiet spezialisiert sind.
  • Generische Repositorien, die eine große Bandbreite an Daten unterschiedlichster wissenschaftlicher Fachrichtungen publizieren bzw. archivieren.
  • Institutionelle Repositorien, die an eine Institution wie z.B. eine Universität oder eine Forschungseinrichtung angeschlossen sind und die dort entstehenden Daten publizieren bzw. archivieren.

Fachspezifische Repositorien

In etlichen wissenschaftlichen Disziplinen gibt es etablierte fachspezifisch Repositorien.

Durch ihre fachliche Ausrichtung bieten sie einige Vorteile:

  • Fachrepositorien sind in der Forschungscommunity bekannt, so dass die Daten von der Zielgruppe leicht gefunden werden. Dadurch werden sie von anderen Forschenden häufiger zitiert, was die eigene Sichtbarkeit in der Fachdisziplin erhöht.
  • Fachspezifische Repositorien orientieren sich stark an den Qualitätsstandards für wissenschaftliche Daten des jeweiligen Faches, das sie vertreten. Deshalb bieten sie meist zusätzliche Dienstleistungen, wie die Qualitätsprüfung durch Datenkuratoren mit fachlicher Expertise (z.B. Plausibilitäts-/Anonymitätsprüfung).
  • Außerdem nutzen sie in der Regel fachspezifische Metadatenstandards und ermöglichen die Ablage von umfangreichem Dokumentationsmaterial, die das Auffinden und Nachnutzen der Daten erleichtern. Hinzu kommt, dass eine relative Offenheit für und technische Unterstützung von (möglicherweise auch spezielleren) Datenformaten vorhanden ist, die im jeweiligen Fachgebiet Standard sind.

Beispiele für fachspezifische Repositorien:

RCSB PDB – Protein Data Bank (protein sequence data)

UniProtKB - Universal Protein Resource Knowledge (protein sequence data)

ENA - European Nucleotide Archive (nucleic acid sequence data)

Genbank (nucleic acid sequence data)

EGA - European Genome-Phenome Archive  (genome data)

GEO - Gene Expression Omnibus (genome data)

SRA - Sequence Read Archive (genome data)

OpenNeuro  (data from neuroscience)

PANGEA  (georeferenced data)

e!DAL - Plant Genomics & Phenomics Research Data Repository (plant genomics and phenomics data)

Eine Übersicht zu Repositorien für die Lebenswissenschaften stellt PUBLISSO das ZB MED Publikationsportal bereit.

Hier findet sich eine Liste aller Repositorien des European Bioinformatics Institute (EBI-EMBL) sowie eine Hilfe bei der Auswahl des geeigneten Repositoriums.

GFBio - German Federation for Biological Data unterstützt bei der Archivierung und Publikation von Nukleotidsequenz-, Pflanzen- und Umweltdaten sowie naturwissenschaftliche Sammlungenin in insgesamt neun Datenzentren (u.a. ENA, PANGEA, e!DAL).

FDZ Bildung (DIPF) (Quantitative und qualitative Bildungsdaten inkl. Instrumentendatenbank für quantitative Erhebungsinstrumente der Bildungsforschung)

GESIS Datenarchiv für Sozialwissenschaften (Quantitative sozialwissenschaftliche Daten; keine Audio- oder Videodaten)

Qualiservice (Qualitative sozialwissenschaftliche Daten)

PsychData (Daten aus der Psychologie)

ZIS – OA Repositorium für Messinstrumente (GESIS) (Quantitative Erhebungsinstrumente der Sozialwissenschaften)

ZBW – Journal Data Archive (Autoren von wissenschaftlichen Artikeln für Fachzeitschriften aus der VWL und der BWL können ihre Datensätze zu Replikationszwecken in diesem Repositorium ablegen. Die Datensätze erhalten eine eigene zitierfähige ID und werden mit dem Fachartikel verlinkt.)

DARIAH-DE

TextGrid  (XML/TEI-kodierte Texte, Bilder und Datenbanken, insbes. digitale Editionen)

CLARIN­-D Servicezentren (insbes. linguistische Daten)

IANUS - FDZ Archäologie und Altertumswissenschaften

GFZ Data Services  (geoscience data)

PANGEA  (georeferenced data)

WDC Climate (data of climate or earth system research)

Weitere geowissenschaftlichen Repositorien (inkl. Geographie) finden Sie auf Re3Data.org

Chemotion

Coherent X-ray Imaging Data Bank

Crystal Structure Database of the Cambridge Crystallographic Data Centre (CCDC)

Weitere Datenrepositorien für die Chemie finden Sie auf Re3Data.org

Generische Repositorien

Generische Repositorien sind vor allem dann eine sinnvolle Option, wenn in einem Fach keine geeigneten fachspezifischen Repositorien vorhanden sind. Beachtet werden sollte, dass generische Repositorien aufgrund der Vielfalt an Fächern, deren Daten sie archivieren, geringere Anforderungen an die Begleitdokumentation und die Datenaufbereitung stellen und in der Regel keine fachbezogenen, sondern allgemeine Metadatenstandards nutzen.

Dies kann die Suche nach den Daten für potentielle Datennutzer erschweren. Es legt dem Forschenden außerdem mehr Eigenverantwortung auf, die Daten so zu gestalten, dass sie den Qualitätsstandards des eigenen Faches entsprechen und andere Forschende die Daten gut nachnutzen können.

Harvard Dataverse

Dryad

EUDAT – B2SHARE

Figshare

RADAR

ZENODO

Einen Vergleich von generischen Repositorien finden Sie bei Stall et al. (2020).

Finden eines geeigneten Datenrepositoriums

Es gibt einige Internetressourcen, die dabei helfen können, ein geeignetes fachspezifisches oder generisches Repositorium zu finden. Nachfolgend sind einige Verzeichnisse und Portale aufgelistet.

re3data.org 
Das Registry of Research Data Repositories bietet einen guten Überblick über internationale Forschungsdatenrepositorien in einer Vielzahl von wissenschaftlichen Disziplinen. Das Verzeichnis verfügt über umfangreiche Such- und Filterfunktionen.

Repository Finder von Datacite
Der Finder ermöglicht die Suche nach Repositorien, die den FAIR-Datenprinzipien entsprechen. Dafür kann die Option „See the repositories in re3data that meet the criteria of the Enabling FAIR Data Project“ aktiviert werden. Der Dienst wird von DataCite gehostet und durchsucht das Verzeichnis von re3data.org.

RIsources
Ein Informationsportal zu wissenschaftlichen Forschungsinfrastrukturen der DFG, das neben anderen Ressourcen auch Fachrepositorien für Forschungsdaten auflistet.

FAIRsharing
Das FAIRsharing-Projekt ist ein kuratiertes Portal für Datenstandards, Datenbanken und Daten-Policies von Journalen/Verlagen und Forschungsförderorganisationen der Lebenswissenschaften

OpenDOAR
Ein Verzeichnis, das einen internationalen Überblick über Open-Access-Repositorien gibt.

Open Access Directory: Data Repositories
Ein Teil des Open-Access-Directory-Handbuchs, das alle Informationen zum Thema Open Access zusammenträgt. Die Webseite listet Repositorien und Datenbanken für Open Data auf.

Auswahl eines geeigneten Repositoriums

Bei der Entscheidung zwischen einem fachlichen, generischen und institutionellen Repositorium sollte berücksichtigt werden, welche Gepflogenheiten in der eigenen Fachdisziplin üblich sind und welche Vorgaben die Förderinstitutionen bzw. Verlage machen. Sofern keine Regeln oder Vorgaben existieren, sind die fachlichen Repositorien als Speicherorte zu empfehlen.

Um die Suchprozesse nach dem passenden Repositorium möglichst effizient zu gestalten, können Forschende bereits mit einigen Kriterien an die Suche herangehen.

  • Fachspezifische Standards: Regeln der Fachcommunity
    • Was ist in der eigenen Fachcommunity bereits etabliert?
  • Qualitätsstandards: Langzeitverfügbarkeit und Zertifizierung
    • Ist das Repositorium zertifiziert oder unterstützt es einen Repositorienstandard?
    • Ist die Langzeitverfügbarkeit des Repositoriums gesichert? Dies ist vor allem bei kommerziellen (generischen) Repositorien eine wichtige Frage.
  • Technische Standards: Persistente Identifikatoren
    • Vergibt das Repositorium eindeutige persistente Identifikatoren (z.B. DOI, URN, Handle) zur langfristigen Auffindbarkeit?
  • Rechtliche Aspekte: Lizenzen und Nutzungsrechte an ihren Daten
    • Bleiben Sie Eigentümer der Daten?
    • Erlaubt die Lizenz gute Nachnutzungsmöglichkeiten für die Daten?
    • Werden verschiedene Varianten von Zugriffsrechten und Embargofristen angeboten und können Sie aus diesen Varianten selbst auswählen?
  • Sonstiges: Informieren Sie sich …
    • über die Aufbewahrungsdauer der Daten.
    • über mögliche anfallende Kosten für den Speicherplatz abhängig von der Aufbewahrungsdauer.
    • über die maximale Upload-Größe von Daten.
    • über die Datenformate, die von dem jeweiligen Repositorium unterstützt werden.
    • ob das Repositorium kommerziell oder nicht-kommerziell betrieben wird.
    • ob das Repositorium eine Policy besitzt, die den FAIR-Datenprinzipien folgt.

Vertiefende Informationen finden Sie bei Pampel et al. (2013) und Sansone et al. (2019).