Datenpublikation und -archivierung
Forschungsdaten können auf unterschiedlichen Wegen veröffentlicht werden:
- als Ergänzungsmaterial zu einer Publikation
- als Datenartikel
- in einem Datenrepositorium
Ergänzungsmaterial zu einer Publikation
Forschungsdaten als Ergänzungsmaterial von wissenschaftlichen Artikeln zu veröffentlichen, ist die bekannteste Form der Datenpublikation und bei den meisten Journalen möglich. Die Daten liegen hierbei entweder direkt bei der Ergebnispublikation oder sie werden in einem Repositorium abgelegt.
Wenn Daten einem Artikel direkt beigefügt werden, sind einige Punkte zu berücksichtigen:
- Die Daten erhalten keine eigenständige zitierfähige ID (z.B. DOI oder Handle), durch die sie unabhängig von dem Artikel zu finden wären. Es lässt sich somit nicht explizit von einer Datenpublikation im klassischen Sinne sprechen.
- Die Daten im Anhang sind in der Regel auf die Analysedaten beschränkt, die für die Ergebnisse des wissenschaftlichen Artikels relevant sind. Umfangreichere Datenbestände können nicht in den Anhang aufgenommen werden.
- Da der Umfang des Anhangs von wissenschaftlichen Publikationen fast immer begrenzt wird, können die Daten nur einschränkt mit Metadaten beschrieben werden.
- Hinzu kommt, dass der Zugang zu den Daten auch durch Nutzungsbedingungen der Journale eingeschränkt sein kann, falls diese nicht Open Access verfügbar sind.
- Besonders wichtig ist es, auf die Vertragsbedingungen zu achten, da die Abtretung von Verwertungsrechten an Journale die eigene Verwertbarkeit der Daten einschränken kann.
Mittlerweile können die Textpublikation und die Forschungsdaten immer häufiger auch getrennt voneinander abgelegt werden. Hierbei werden Forschungsdaten parallel zum Erscheinen des Artikels als eigenständiger Forschungsoutput in einem externen Datenrepositorium publiziert.
Teilweise bestehen bereits Kooperationen zwischen Verlagen bzw. Journalen und Datenrepositorien (z.B. Elsevier und PANGEA oder Zeitschrift für Soziologie und GESIS) oder es gibt zumindest Empfehlungen, wo die Daten abgelegt werden können.
Bei dieser Publikationsvariante erhalten die Daten eine eigene persistente ID, so dass eine Referenzierbarkeit der Daten dauerhaft möglich ist. Zur Verknüpfung beider Elemente wird die Daten-ID im Artikel genannt.
Allerdings werden auch bei dieser Variante meistens nur die Analysedaten abgelegt, die für die Ergebnisse des wissenschaftlichen Artikels relevant sind. Ebenso ist die Datendokumentation darauf ausgelegt, die Forschungsergebnisse nachvollziehen zu können, unterstützt jedoch nicht die Nachnutzung der Daten zu anderen Forschungsfragen.
Datenartikel
Für die Publikation von Forschungsdaten bieten Verlage zunehmend auch Datenjournale an. Anders als in klassischen wissenschaftlichen Zeitschriften werden in Datenjournalen die Daten hauptsächlich hinsichtlich ihres zugrundliegenden Forschungsdesigns und ihrer Nachnutzungs- bzw. Anwendungspotentiale beschrieben, ohne dass empirische Analysen oder inhaltliche Ergebnisse zu den Daten berichtet werden.
Datenartikel sind eigenständige, zitierfähige Publikationen, die in der Regel ein Begutachtungsverfahren (Peer Review) durchlaufen. Ein wichtiges Kriterium für viele Datenjournale ist die Einhaltung der FAIR-Prinzipien in Bezug auf die Daten.
Wenn Datenjournale genutzt werden, sind einige Punkte zu berücksichtigen:
- Ein Datenartikel ist eine zitierbare Quelle für einen Datensatz, ohne dass notwendigerweise in allen Journalen der Datensatz unter der Quelle tatsächlich zugänglich ist (sog. citable proxy).
- Datenjournale outsourcen die Daten ebenso wie traditionelle Journale häufig an Repositorien. In der Regel vergibt das Repositorium ebenfalls eine dauerhafte ID für die Daten, die direkt zum Datensatz führt und deshalb dem Datenartikel als indirekte, zitierfähige Quelle für die Daten vorzuziehen ist.
- Begutachtungsverfahren sichern die Qualität der publizierten Datensätze. Allerdings sind die Kriterien andere als bei klassischen Journalen und oft weniger klar definiert. Dies liegt daran, dass keine theoretischen Konzepte, Hypothesen und empirischen Analysen bewertet werden, sondern vor allem die Beschreibung von Daten.
- Datenjournale sind insbesondere geeignet, um einen Datensatz bekannt zu machen, dessen Nachnutzung durch weitere Informationen zu erleichtern und die eigene wissenschaftliche Leistung während des Forschungsprozesses mit akademischem Output zu belohnen.
- Die Verlage, die Datenjournale herausbringen, verlangen häufig Bearbeitungsgebühren für die Publikation (sog. article processing fees). Darüber sollte sich Forschende vor der Einreichung von Artikeln informieren.
Weitere Informationen zu Datenjournale geben Candela et al. (2015) und Kratz und Strasser (2014).
Lebenswissenschaften
- Biodiversity Data Journal
- Biomedical Data Journal
- GigaScience (recommends to publish data in the GigaDB repository)
- Ecology (requires to publish the data sets in Ecological Archives)
- Open Health Data
Sozial-, Verhaltens- und Wirtschaftswissenschaften
- Journal of Open Psychology Data
- Research Data Journal for the Humanities and Social Sciences
- Journal of Statistical Software
- Jahrbücher für Nationalökonomie und Statistik
Geistes- und Kulturwissenschaften
Geowissenschaften, Geographie
- Geoscience Data Journal
- Earth System Science Data
- IUCrData (International Union of Crystallography)
- International Journal of Spatial Data Infrastructures Research
Chemie, Physik, Mathematik
- Journal of Physical and Chemical Reference Data (JPCRD)
- Journal of Chemical and Engineering Data (JCED)
- Chemical Data Collections (CDC)
- IUCrData (International Union of Crystallography)
- Atomic Data and Nuclear Data Tables
- Nuclear Data Sheets
Informatik
Fachübergreifend
Grundsätzlich sollten Forschende die Vertrauenswürdigkeit jedes peer-reviewed Open Access Journals verifizieren, das sie nicht kennen, bevor sie ihre Publikationen einreichen (z.B. mit Directory of OA Journals: www.doaj.org).
Datenrepositorium
Datenrepositorien sind Speicherorte, um digitale Forschungsdaten längerfristig zu archivieren und in vielen Fällen auch zu publizieren. Sie lassen sich auf Grundlage ihrer fachlichen Ausrichtung und ihres Betreibers in drei Varianten unterteilen:
- Fachspezifische Repositorien, die auf eine wissenschaftliche Fachrichtung oder ein spezifisches Themengebiet spezialisiert sind.
- Generische Repositorien, die eine große Bandbreite an Daten unterschiedlichster wissenschaftlicher Fachrichtungen publizieren bzw. archivieren.
- Institutionelle Repositorien, die an eine Institution wie z.B. eine Universität oder eine Forschungseinrichtung angeschlossen sind und die dort entstehenden Daten publizieren bzw. archivieren.
Fachspezifische Repositorien
In etlichen wissenschaftlichen Disziplinen gibt es etablierte fachspezifische Repositorien. Durch ihre fachliche Ausrichtung bieten sie einige Vorteile:
- Fachrepositorien sind in der Forschungscommunity bekannt, so dass die Daten von der Zielgruppe leicht gefunden werden. Dadurch werden sie von anderen Forschenden häufiger zitiert, was die eigene Sichtbarkeit in der Fachdisziplin erhöht.
- Fachspezifische Repositorien orientieren sich stark an den Qualitätsstandards für wissenschaftliche Daten des jeweiligen Faches, das sie vertreten. Deshalb bieten sie meist zusätzliche Dienstleistungen, wie die Qualitätsprüfung durch Datenkuratoren mit fachlicher Expertise (z.B. Plausibilitäts-/Anonymitätsprüfung).
- Außerdem nutzen sie in der Regel fachspezifische Metadatenstandards und ermöglichen die Ablage von umfangreichem Dokumentationsmaterial, die das Auffinden und Nachnutzen der Daten erleichtern. Hinzu kommt, dass meist eine technische Unterstützung von (möglicherweise auch spezielleren) Datenformaten vorhanden ist, die im jeweiligen Fachgebiet Standard sind.
Beispiele für fachspezifische Datenrepositorien:
Proteinsequenzdaten
Nukleinsäuresequenzdaten
Genomdaten
- EGA - European Genome-Phenome Archive
- GEO - Gene Expression Omnibus (NCBI)
- SRA - Sequence Read Archive
Neurowissenschaftliche Daten
Biodiversitätsdaten
- GFbio – German Federation for Biological Data
- PANGAEA – Data Publisher for Earth and Environmental Science
- e!DAL - Plant Genomics & Phenomics Research Data Repository
Übersichten zu Datenrepositorien in den Lebenswissenschaften
- Repository Finder von PUBLISSO das ZB MED Publikationsportal Lebenswissenschaften
- Liste aller Repositorien des European Bioinformatics Institute (EBI-EMBL)
- Liste an Datenzentren, in denen Forschende bei der Archivierung von GFBio unterstützt werden
Repositorien, Forschungsdatenzentren (FDZ) und Archive
- FDZ Bildung – FDZ für die Bildungsforschung
- GESIS – Datenarchiv für Sozialwissenschaften
- PsychData – FDZ für die Psychologie am ZPID
- Qualiservice – FDZ für qualitative sozialwissenschaftliche Forschungsdaten
- ZBW – Journal Data Archive (Datensätze zu Fachartikeln aus der VWL und der BWL können in diesem Repositorium zu Replikationszwecken ablegt werden.)
Instrumentendatenbanken
- ZIS - Open Access Repositorium für Messinstrumente: Empirisch erprobte quantitative Erhebungsinstrumente zur Nachnutzung bietet die ZIS-Instrumentendatenbank von GESIS. ZIS ist ein Open Access Repositorium für Forschende der Sozial- und Verhaltenswissenschaften.
- ZPID – Instrumentendatenbanken: Das Leibniz-Zentrum für Psychologische Information und Dokumentation (ZPID) verfügt über die Angebote PSYNDEX Tests und das elektronische Testarchiv. PSYNDEX Tests bietet umfassende Informationen über Testverfahren aus dem Bereich der Testdiagnostik. Das Testarchiv stellt eine Reihe von Testverfahren für Forschungszwecke zum Download zur Verfügung.
- DARIAH-DE – Digital Research Infrastructure for the Arts and Humanities
- CLARIN-D – Digitale Forschungsinfrastruktur für Sprachressourcen in den Geisteswissenschaften
- IANUS – Forschungsdatenzentrum Archäologie und Altertumswissenschaften
- TextGrid Repository – Langzeitarchiv für geisteswissenschaftliche Forschungsdaten
Weitere geowissenschaftlichen Repositorien (inkl. Geographie) finden Sie auf Re3Data.org
- Chemotion Repository
- ChemSpider
- Coherent X-ray Imaging Data Bank
- Crystal Structure Database (CSD) of the Cambridge Crystallographic Data Centre (CCDC)
- HEPData
- StrendaDB
- NOMAD
Datenbanken, die zusätzlich in der Chemie zur Bereitstellung von Daten verwendet werden können:
Weitere Datenrepositorien für die Chemie finden Sie auf Re3Data.org
Generische Repositorien
Generische Repositorien sind vor allem dann eine sinnvolle Option, wenn in einem Fach keine geeigneten fachspezifischen Repositorien vorhanden sind. Beachtet werden sollte, dass generische Repositorien aufgrund der Vielfalt an Fächern, deren Daten sie archivieren, geringere Anforderungen an die Begleitdokumentation und die Datenaufbereitung stellen und in der Regel keine fachbezogenen, sondern allgemeine Metadatenstandards nutzen.
Dies kann die Suche nach den Daten für potentielle Datennutzer erschweren. Es legt dem Forschenden außerdem mehr Eigenverantwortung auf, die Daten so zu gestalten, dass sie den Qualitätsstandards des eigenen Faches entsprechen und andere Forschende die Daten gut nachnutzen können.
Ein Vergleich von generischen Repositorien ist bei Stall et al. (2020) zu finden.
Institutionelle Repositorien
Eine weitere Möglichkeit zur Datenpublikation sind institutionelle Forschungsdatenrepositorien. Sie werden an Universitäten oder anderen Forschungseinrichtung betrieben und ermöglichen es den Mitgliedern der Einrichtung Ihre Forschungsdaten digital zu publizieren.
Wenn Sie Forschungsdaten nach den FAIR-Prinzipien veröffentlichen möchten, können Sie als Wissenschaftler oder Wissenschaftlerin der Universität Würzburg das institutionelle Forschungsdatenrepositorium WueData nutzen.
WueData bietet unter anderem folgende Vorteile:
- Es können Daten mit Metadaten beschrieben werden, damit die Datenpublikation leichter gefunden werden kann.
- Es wird ein Digital Object Identifier (DOI) vergeben, so dass die Datenpublikation dauerhaft auffindbar ist.
- Den Daten können zur besseren Nachnutzung Studien- und Begleitdokumente beigefügt werden.
- Es gibt fast keine Beschränkungen bei den Datentypen, die publiziert werden können.
- Es wird eine (offene) Lizenz festgelegt, um Urheberrechte transparent zu machen.
- Es ist möglich ein Embargo festzulegen, so dass die Datenpakete erst zu einem späteren Zeitpunkt von Dritten eingesehen werden können.
- Die Datenspeicherung inklusive Backup erfolgt lokal auf Servern der Universität Würzburg.
- Derzeit wird eine Mindestaufbewahrungsdauer von 10 Jahren garantiert. Perspektivisch wird die Übernahme in ein Langzeitarchiv angestrebt.
Zur Webseite von WueData: https://wuedata.uni-wuerzburg.de/
Finden eines geeigneten Datenrepositoriums
Es gibt einige Internetressourcen, die dabei helfen können, ein geeignetes fachspezifisches oder generisches Repositorium zu finden. Nachfolgend sind einige Verzeichnisse und Portale aufgelistet.
re3data.org
Das Registry of Research Data Repositories bietet einen guten Überblick über internationale Forschungsdatenrepositorien in einer Vielzahl von wissenschaftlichen Disziplinen. Das Verzeichnis verfügt über umfangreiche Such- und Filterfunktionen.
Repository Finder von DataCite
Der Finder ermöglicht die Suche nach Repositorien, die den FAIR-Datenprinzipien entsprechen. Dafür kann die Option „See the repositories in re3data that meet the criteria of the Enabling FAIR Data Project“ aktiviert werden. Der Dienst wird von DataCite gehostet und durchsucht das Verzeichnis von re3data.org.
RIsources
Ein Informationsportal zu wissenschaftlichen Forschungsinfrastrukturen der DFG, das neben anderen Ressourcen auch Fachrepositorien für Forschungsdaten auflistet.
FAIRsharing
Das FAIRsharing-Projekt ist ein kuratiertes Portal für Datenstandards, Datenbanken und Daten-Policies von Journalen/Verlagen und Forschungsförderorganisationen der Lebenswissenschaften.
OpenDOAR
Ein Verzeichnis, das einen internationalen Überblick über Open-Access-Repositorien gibt.
Open Access Directory: Data Repositories
Ein Teil des Open-Access-Directory-Handbuchs, das alle Informationen zum Thema Open Access zusammenträgt. Die Webseite listet Repositorien und Datenbanken für Open Data auf.
Bei der Entscheidung zwischen einem fachlichen, generischen und institutionellen Repositorium sollte berücksichtigt werden, welche Gepflogenheiten in der eigenen Fachdisziplin üblich sind und welche Vorgaben die Förderinstitutionen bzw. Verlage machen. Sofern keine Regeln oder Vorgaben existieren, sind die fachlichen Repositorien als Speicherorte zu empfehlen.
Um die Suchprozesse nach dem passenden Repositorium möglichst effizient zu gestalten, können Forschende bereits mit einigen Kriterien an die Suche herangehen.
- Fachspezifische Standards: Regeln der Fachcommunity
- Was ist in der eigenen Fachcommunity bereits etabliert?
- Qualitätsstandards: Langzeitverfügbarkeit und Zertifizierung
- Ist das Repositorium zertifiziert oder unterstützt es einen Repositorienstandard?
- Ist die Langzeitverfügbarkeit des Repositoriums gesichert? Dies ist vor allem bei kommerziellen (generischen) Repositorien eine wichtige Frage.
- Technische Standards: Persistente Identifikatoren
- Vergibt das Repositorium eindeutige persistente Identifikatoren (z.B. DOI, URN, Handle) zur langfristigen Auffindbarkeit?
- Rechtliche Aspekte: Lizenzen und Nutzungsrechte an ihren Daten
- Bleiben Sie Eigentümer der Daten?
- Erlaubt die Lizenz gute Nachnutzungsmöglichkeiten für die Daten?
- Werden verschiedene Varianten von Zugriffsrechten und Embargofristen angeboten und können Sie aus diesen Varianten selbst auswählen?
- Sonstiges: Informieren Sie sich …
- über die Aufbewahrungsdauer der Daten.
- über mögliche anfallende Kosten für den Speicherplatz abhängig von der Aufbewahrungsdauer.
- über die maximale Upload-Größe von Daten.
- über die Datenformate, die von dem jeweiligen Repositorium unterstützt werden.
- ob das Repositorium kommerziell oder nicht-kommerziell betrieben wird.
- ob das Repositorium eine Policy besitzt, die den FAIR-Datenprinzipien folgt.
Vertiefende Informationen sind bei Pampel et al. (2013) und Sansone et al. (2019) zu finden.
Letzte Aktualisierung: 15.05.2023