Daten / Forschungsdaten

Views
385
Downloads
1
Open Public Peer Review
Kategorie
Working Paper
Version
1.0
Jonathan D. Geiger Autor*inneninformationen

DOI: 10.17175/wp_2023_003

Nachweis im OPAC der Herzog August Bibliothek: 183976709X

Erstveröffentlichung: 25.05.2023

Lizenz: Sofern nicht anders angegeben Creative Commons Lizenzvertrag

Medienlizenzen: Medienrechte liegen bei den Autor*innen

Letzte Überprüfung aller Verweise: 13.04.2023

GND-Verschlagwortung: Big Data | Forschungsdaten | Daten | Rohdaten | Terminologie | 

Empfohlene Zitierweise: Jonathan D. Geiger: Daten / Forschungsdaten. In: AG Digital Humanities Theorie des Verbandes Digital Humanities im deutschsprachigen Raum e. V. (Hg.): Begriffe der Digital Humanities. Ein diskursives Glossar (= Zeitschrift für digitale Geisteswissenschaften / Working Papers, 2). Wolfenbüttel 2023. 25.05.2023. HTML / XML / PDF. DOI: 10.17175/wp_2023_003


Das Open Public Peer Review ist abgeschlossenOpen Public Peer Review abgeschlossen

[1]Synonyme und ähnliche Begriffe: Capta | Information | Intermediärdaten | Linked Data | Linked Open Data | Long Data | Paradaten | Primärdaten | raw data | Zeichen
Pendants in kontrollierten Vokabularen: Wikidata: Q15809982 | TaDiRAH: –

1. Begriffsdefinition

[2]›Daten‹ werden heute überwiegend als eine Art Informationseinheit im Zusammenhang mit Digitaltechnologien verstanden. → Wissenschaftstheoretisch wird der Begriff kaum bearbeitet, eine einheitliche Definition gibt es bis dato nicht. In den geistes- und kulturwissenschaftlichen Traditionen gibt es zwar keinen Dissens hinsichtlich unterschiedlicher technisch verstandener Datenbegriffe. Eine breitere Diskussion gibt es in den Digital Humanities allerdings dort, wo Daten als ›Forschungsdaten‹ in Erscheinung treten. Eine einheitliche Definition liegt aber auch hier (noch) nicht vor – der Begriff bewegt sich in einem Spannungsfeld zwischen sprachlichen Definitionsversuchen, dem praktischen Umgang in Forschungskontexten und wissenschaftstheoretischen Reflexionen.

2. Begriffs- / Ideengeschichte

[3]Zu unserer heutigen alltäglichen Verwendung des Begriffs ›Daten‹ führt der Duden folgende Bedeutungsdimensionen auf:

[4] »1. Plural von Datum
2. (durch Beobachtungen, Messungen, statistische Erhebungen u. a. gewonnene) [Zahlen]werte, (auf Beobachtungen, Messungen, statistischen Erhebungen u. a. beruhende) Angaben, formulierbare Befunde
Herkunft  nach englisch data, Plural von: datum < lateinisch datum, datum
[...]
3. elektronisch gespeicherte Zeichen, Angaben, Informationen
Gebrauch  EDV
[...]
4. zur Lösung oder Durchrechnung einer Aufgabe vorgegebene Zahlenwerte, Größen
Gebrauch  Mathematik
[...]« [1]

[5]Etymologisch stammt der Singular zu Daten – ›Datum‹ – aus dem Lateinischen und leitet sich von ›dare‹ (›geben‹) ab. Er wurde schon in der Antike und in deutschen Datierungsformen seit dem 13. Jahrhundert verwendet für die Tages- und Ortsangaben eines Schreibens, z. B. bei der Datierung von Briefen. In seiner Bedeutung als ›gegebene Größe, Angabe, Beleg‹ wird ›Datum‹ oder pluralisiert als ›data‹ von der Wissenschaftssprache im 17. und 18. Jahrhundert aufgegriffen. Der eingedeutschte Plural ›Daten‹ wurde seit Beginn des 19. Jahrhunderts verwendet und seit den 1950ern verstärkt im Zusammenhang mit Computertechnik zusammengebracht.[2]

[6]Um der Begriffsentwicklung und den damit einhergehenden Wörtern, Intensionen und Extensionen gerecht zu werden, muss zwischen verschiedenen Begriffen differenziert werden: (1) einem historischen expliziten Datenbegriff im nicht-technischen Sinne, (2) einem historischen, aber impliziten Datenbegriff im technischen Sinne und (3) einem modernen expliziten Datenbegriff (im technischen Sinne).

[7]Unter (1) lassen sich alle Begrifflichkeiten in geisteswissenschaftlichen Traditionen subsumieren, die zwar explizit von ›Daten‹ sprechen, aber nicht in einem technischen Sinne. In der Philosophie war dies beispielsweise der Begriff der ›Sinnesdaten‹, dessen Prägung gemeinhin George Edward Moore und Bertrand Russell zugeschrieben wird.[3] (2) nähert sich dem Datenbegriff extensional. Gemeint sind hier alle zeichenhaften Strukturen, die sich mit unserem modernen technischen Verständnis von Daten decken, aber in ›analoger‹ Form vorliegen (›analoge Daten‹). Beispiele hierfür sind Tabellenstrukturen, wie sie für die historischen Geschichtswissenschaften von Benjamin Steiner untersucht wurden,[4] oder die sozialstatistischen Studien von Adolphe Quetelet (1796–1874). Schließlich umfasst (3) digitale Daten in unserem allgemeinen modernen Sprachgebrauch, also beispielsweise Messreihen, die in digitaler Form vorliegen. Der in diesem Sinne gebrauchte Begriff taucht durchaus in (modernen) geistes- und kulturwissenschaftlichen Diskursen auf, beispielsweise bei Armin Nassehi, der Daten weniger zeichen-haft als mehr form-gebend begreift,[5] in der Philosophie Yuk Huis, der den Charakter des Gegeben-seins (›givenness‹) von Daten technisch-materiell auflädt[6] oder in der Informationsphilosophie von Luciano Floridi, in der Daten als Rohform von Informationen begriffen werden.[7] Zudem sei an dieser Stelle auf eine Begriffsdifferenzierung von Rob Kitchin und Martin Dodge hingewiesen, die zwischen ›data‹ (potenzielle Fakten) und ›capta‹ (erhobene Daten) unterscheiden.[8] Diese Begriffsdeutungsversuche weichen in ihrer konkreten Ausgestaltung durchaus voneinander ab, in ihrer Grundkonzeption – Daten verstanden als (digital-)technische Phänomene – stimmen sie aber alle überein.

[8]Welcher dieser Begriffe ist nun relevant für den Diskurs rund um den Datenbegriff in den Digital Humanities? Die Begriffstraditionen nicht-technischer Daten (1) spielen hier keine Rolle, doch es gibt auch keinen (prominenten) Dissens in Bezug auf ›analoge Daten‹ (2) oder darüber, dass beispielsweise Messreihen (3) unter Daten zu verstehen sind. ›Daten‹ werden als Daten im modern-technischen Sinne verstanden. Allerdings: Die Digital Humanities sind Forschungsfelder, die mit digitalen Methoden oder weitgehend in digitalen Milieus stattfinden. Die Digitalisierung der Forschungspraktiken führt nicht (unbedingt) zu begrifflichen Friktionen hinsichtlich des (technischen) Datenbegriffs, wohl aber zu Unsicherheiten hinsichtlich des Verhältnisses zwischen ›Daten‹ und den sogenannten ›Forschungsdaten‹.

[9]Auffälligerweise gibt es trotz der heutigen Omnipräsenz des Forschungsdatenbegriffs in den Digital Humanities keine umfängliche wissenschaftstheoretische Auseinandersetzung mit diesem. Was aussteht, ist allerdings weniger eine begriffliche Transferleistung vom Datenbegriff auf die Forschung, sondern institutionelle Aushandlungsprozesse. Daher muss der Begriff nicht nur als theoretischer Begriff neu gedacht werden, sondern als methodologischer Begriff, der seine Relevanz auf der Ebene des Forschungsprozesses entfaltet und sich in einem Spannungsfeld zwischen Forschungspraxis, Wissenschaftspolitik und Wissenschaftstheorie bewegt.

3. Erläuterungen

3.1 Mehrdeutigkeiten

[10]Für den (technischen) Datenbegriff gibt es in der Praxis eine ganze Fülle von Definitionsvorschlägen unterschiedlichster Qualität. Anhand dieser lässt sich eine (nicht abgeschlossene) Reihe von Attributen identifizieren, die die Intension des Begriffs expliziert und ihn in ein Begriffsnetzwerk einordnet bzw. ihn als Wittgensteinschen Familienbegriff[9] entpuppen lässt: ›Daten‹ ...

  • ... haben eine enge Beziehung zum Zeichenbegriff (z. B. in der Wissenstreppe von North[10]).
  • ... haben eine enge Beziehung zum Informationsbegriff (z. B. bei Floridi[11]).
  • ... haben eine enge Beziehung zum Wertebegriff (im Sinne von Messwerten).
  • ... haben verschiedene Formate (z. B. MP3 oder CSV) bzw. Typen (z. B. boolean oder integer).
  • ... können in unterschiedliche Arten unterteilt werden. Typische Datenarten sind qualitative und quantitative Daten oder nominale, ordinale und Intervalldaten oder unstrukturierte, strukturierte und semi-strukturierte Daten.
  • ... haben eine Form. Diese wird hauptsächlich realtechnisch als von Maschinen bzw. dem Computer verarbeitbar oder auf binären Datenträgern speicherbar verstanden.
  • ... sind Abbilder, d. h. sie stehen nicht für sich, sondern für etwas anderes (→ Modell).

[11]In wissenschaftlichen Kontexten lassen sich Daten in mannigfaltigen Formen finden. Die diskursive und rekursive Dynamik des Datenbegriffs lässt zwar eine einheitliche Definition schwer bis unmöglich werden, eröffnet dafür allerdings Spielräume, um die Applikation des Datenbegriffs auf die Wissenschaft (›Forschungsdaten‹) praktischen und systemischen Anforderungen genügen zu lassen. Zu ›Forschungsdaten‹ gibt es (daher) ebenfalls viele Definitionen, die die meisten Forschungs- und GLAM- (Galleries, Libraries, Archives, Museums) Einrichtungen, sowie digitale Infrastrukturprojekte (z. B. die Nationale Forschungsdateninfrastruktur, NFDI) und auch forschungsfördernde Institutionen (z. B. die Deutsche Forschungsgemeinschaft, DFG) in ihrer jeweiligen Forschungsdatenstrategie darlegen.

[12]Die DFG definiert Forschungsdaten beispielsweise primär extensional:

[13]»Zu Forschungsdaten zählen u. a. Messdaten, Laborwerte, audiovisuelle Informationen, Texte, Surveydaten oder Beobachtungsdaten, methodische Testverfahren sowie Fragebögen. Korpora und Simulationen können ebenfalls zentrale Ergebnisse wissenschaftlicher Forschung darstellen und werden daher ebenfalls unter den Begriff Forschungsdaten gefasst.« [12]

[14]Die wissenschaftlich einschlägige Plattform forschungsdaten.info definiert Forschungsdaten intensional:

[15] »Forschungsdaten sind (digitale) Daten, die während wissenschaftlicher Tätigkeit (z. B. durch Messungen, Befragungen, Quellenarbeit) entstehen. Sie bilden eine Grundlage wissenschaftlicher Arbeit und dokumentieren deren Ergebnisse. Daraus ergibt sich ein disziplin- und projektspezifisches Verständnis von Forschungsdaten mit unterschiedlichen Anforderungen an die Aufbereitung, Verarbeitung und Verwaltung der Daten.« [13]

[16]Neben intensionalen und extensionalen Deutungsansätzen existieren zudem auch funktionale:[14]

  • Forschungsdaten sind alle Daten, die in einem Forschungsprojekt verwendet werden (z. B. die berücksichtigten → Texte).
  • Forschungsdaten sind alle Daten, die in einem Forschungsprojekt anfallen (erzeugt, gesammelt oder beiläufig entstanden; z. B. → Annotationen).
  • Forschungsdaten sind alle Daten, die für die künftige Forschung relevant sein könnten (z. B. Daten der digitalen Projektkommunikation und -organisation).
  • Forschungsdaten sind eine Mischung der drei ersten Kategorien.

[17]Zur Schaffung einer Übersicht über die während eines Forschungsprojektes bzw. in Forschungsprozessen anfallenden Daten hat sich das Modell des Forschungsdatenlebenszyklus herauskristallisiert. Die eigentlich fließenden und oftmals diachronen Phasen in der Forschung werden hier holzschnittartig in üblicherweise sechs Phasen unterteilt und zirkulär angeordnet (vgl. Abbildung 1). Dieser Zyklus ist ein Beispiel für einen Zugriff auf den Datenbegriff in der Wissenschaft, der eine praktische Verwaltung der Forschungsdaten systematisch ermöglicht.


                     Abb. 1: Datenlebenszyklus von Forschungsdaten. [Grafik: forschungsdaten.info 2022]
Abb. 1: Datenlebenszyklus von Forschungsdaten. [Grafik: forschungsdaten.info 2022]

3.2 Differenzen der Begriffsverwendung

[18]Der Datenbegriff als ›Forschungsdaten‹ ist heutzutage in allen wissenschaftlichen Disziplinen inklusive der (Digital) Humanities von zentraler Bedeutung. Wie an den Definitionsbeispielen ersichtlich wurde, gibt es durchaus fachspezifische Unterschiede, was als Forschungsdaten begriffen wird und was nicht. Diese lassen sich allerdings überwiegend auf der extensionalen Ebene finden – die intensionale und funktionale Ebene beziehen sich auf Wissenschaftlichkeit allgemein, sowie wissenschaftstheoretische Überlegungen, die sich beispielsweise auch in der sogenannten guten wissenschaftlichen Praxis manifestieren[15] und daher auch (zumindest tentativ) über Disziplingrenzen hinweg generalisiert werden können.

4. (Gegenwärtige) Kontroversen und Diskussionen

[19]Der Dissens in den Digital Humanities in Bezug auf Forschungsdaten kann also verdichtet werden zu der Frage: Was sind Forschungsdaten (und was nicht) in den jeweiligen Disziplinen und warum? Die Verwaltung von Forschungsdaten sowohl auf der Ebene einzelner Wissenschaftler*innen als auch auf institutioneller und infrastruktureller Ebene erfordert unter Umständen sehr viele Ressourcen und steht daher unter einem Legitimationsdruck. Dies schließt sowohl die Erzeugung von Forschungsdaten als auch sämtliche datenkuratorische Aktivitäten ein. Daten und Metadaten sind in diesem Sinne nie vollständig, welche sind aber notwendig? Kriterien lassen sich aus verschiedenen Dimensionen der Ausgangsfrage ableiten und können als Grundlage für eine intensionale bzw. funktionale Definition von Forschungsdaten dienen.[16]

  • Begründungskriterium: Alle Daten, die notwendig sind, um Forschungsergebnisse argumentativ rechtfertigen zu können, sind Forschungsdaten.
    Daten sind nie selbsterklärend und bedürfen daher immer der Deutung (→ Interpretation). Das Verhältnis zwischen Datenbasis und Forschungsergebnis muss logisch – induktiv oder deduktiv – strukturiert sein.
  • Wahrheitskriterium: Alle Daten, die notwendig sind, um aus ihnen einen hinreichenden Anspruch auf die Wahrheit der Forschungsergebnisse ableiten zu können, sind Forschungsdaten.
    Hier geht es um eine Reflexion der Datenbasis selbst. Daten sind niemals ›roh‹[17]: Kognitive Verzerrungen sind in jede Datenbasis eingeschrieben und spiegeln oft soziale Machtstrukturen wider, wie sie beispielsweise in den gender oder decolonial studies herausgearbeitet werden.
  • Reproduktionskriterium: Alle Daten, die im Rahmen einer wissenschaftlichen Forschung auftreten und für die praktische Reproduktion der einzelnen Arbeitsschritte und Ergebnisse notwendig sind, sind Forschungsdaten.
    Insbesondere der Anspruch der Reproduzierbarkeit von Forschung hat zu Ende gedacht weitreichende Konsequenzen. Die Mitpublikation der Datenbasis reicht (meistens) nicht aus, um digitale Prozesse rekapitulieren und reproduzieren zu können – hier bedarf es auch der sogenannten Intermediärdaten (Zwischendaten), sowie der technischen Paradaten, also hinreichenden Angaben über sämtliche (semi)automatischen Transformationsschritte der Daten. So ist beispielsweise bei der Erstellung eines Texts in einem beliebigen Textverarbeitungsprogramm das Betriebssystem irrelevant, da es keinen semantischen Einfluss auf die Daten nimmt. Finden allerdings automatisierte / algorithmische Verarbeitungsschritte statt (z. B. bei der Datenkompression, Konvertierung, Clustering-Verfahren oder Visualisierung) werden die Angaben sämtlicher Parameter der verwendeten Programme und Einstellungen notwendig, um die Prozesse reproduzieren zu können. Freilich macht dies die vorgelagerte Kenntnis darüber, auf welche Parameter, Routinen etc. ein verwendetes Programm überhaupt zurückgreift bzw. zurückgreifen könnte, notwendig (Stichwort: data literacy bzw. Datenliteralität).

[20]Im Anschluss an die Frage, was Forschungsdaten in den Digital Humanities sind und was nicht, stellt sich die Frage nach der adäquaten Form von Forschungsdaten. Hier sind vor allem die heuristischen FAIR[18]- und CARE[19]-Prinzipien zu nennen, die bereits eine ganze Bandbreite von Aspekten (praktische Zugänglichkeit, Nachnutzbarkeit, ethische Erwägungen etc.) berücksichtigen und damit auch einer praktischen Nachnutzbarkeit (Reproduktion von Forschung, Anschlussforschung, Bildung von Repositorien etc.) Rechnung tragen. Ein weiterer Aspekt ist die Unterscheidung zwischen Forschungsdaten, die Ansprüchen hinsichtlich der Forschung genügen müssen, und wissenschaftlichen Produkten, die aber keine Forschungsergebnisse im engeren Sinne sind, beispielsweise Normdaten, digitale Korpora (die einerseits Forschungsprojekte antizipieren, andererseits Forschungsprojekte überhaupt erst möglich werden lassen), Open Educational Resources (OER) oder Podcasts. Hier sind noch weitere begriffliche Differenzierungen notwendig, was wieder auf das diskursive Spannungsfeld, in dem der Forschungsdatenbegriff ausgehandelt wird, verweist.


Fußnoten


Bibliografische Angaben

  • Eckhart Arnold: Forschungsdaten aus wissenschaftstheoretischer Sicht. 2017. PDF. [online]

  • Stephanie Russo Carroll / Maui Hudson / Jan Chapman / Oscar Luis Figueroa-Rodríguez / Jarita Holbrook / Ray Lovett / Simeon Materechera / Mark Parsons / Kay Raseroka / Desi Rodriguez-Lonebear / Robyn Rowe / Rodrigo Sara / Jennifer Walker: Die CARE-Prinzipien für indigene Data Governance. 01.09.2019. DOI: 10.5281/zenodo.5995059

  • Deutsche Forschungsgemeinschaft: Umgang mit Forschungsdaten. Checkliste für Antragstellende zur Planung und zur Beschreibung des Umgangs mit Forschungsdaten in Forschungsvorhaben. Versionsdatum 21.12.2021. PDF. [online]

  • Deutsche Forschungsgemeinschaft: Leitlinien zur Sicherung guter wissenschaftlicher Praxis. Kodex. Stand: April 2022 / korrigierte Version 1.1. PDF. [online]

  • Duden. Letzter Zugriff: 28.02.2023. HTML. [online]

  • Luciano Floridi: Semantic Information and the Veridicality Thesis. In: The Philosophy of Information. Oxford 2011, S. 80–107. DOI: 10.1093/acprof:oso/9780199232383.003.0004

  • forschungsdaten.info: Datenlebenszyklus. Letzte Änderung: 28.11.2022. HTML. [online]

  • forschungsdaten.info: Glossar. Letzte Änderung: 13.02.2023. HTML. [online]

  • Gary Hatfield: Sense Data. In: The Stanford Encyclopedia of Philosophy. Hg. von Edward Nouri Zalta. Stanford 2021. HTML. [online]

  • Yuk Hui: On the Existence of Digital Objects. Minneapolis u. a. 2016. [Nachweis im GVK]

  • Rob Kitchin / Martin Dodge: Code/Space. Software and Everyday Life. Cambridge, MA 2011. [Nachweis im GVK]

  • Lauren Klein: »There’s no such thing as raw data«. In: FEED. Blogbeitrag vom 22.06.2020. [online]

  • Armin Nassehi: Muster. Theorie der digitalen Gesellschaft. München 2019. [Nachweis im GVK]

  • Klaus North: Wissensorientierte Unternehmensführung. Wissensmanagement gestalten. Wiesbaden 2016. [Nachweis im GVK]

  • Benjamin Steiner: Die Ordnung der Geschichte. Historische Tabellenwerke in der Frühen Neuzeit (= Norm und Struktur, 34). Köln 2008. [Nachweis im GVK]

  • Wolfgang Pfeifer et al.: Etymologisches Wörterbuch des Deutschen. Digitalisierte und von Wolfgang Pfeifer überarbeitete Version im Digitalen Wörterbuch der deutschen Sprache. Berlin 1993. HTML. [online]

  • Mark D. Wilkinson / Michel Dumontier / IJsbrand Jan Aalbersberg / Gabrielle Appleton / Myles Axton / Arie Baak / Niklas Blomberg / Jan-Willem Boiten / Luiz Bonino da Silva Santos / Philip Eric Bourne / Jildau Bouwman / Anthony J. Brookes / Tim Clark / Mercè Crosas / Ingrid Dillo / Olivier Dumon / Scott Edmunds / Chris T. Evelo / Richard Finkers / Alejandra Gonzalez-Beltran / Alasdair J. G. Gray / Paul Groth / Carole Goble / Jeffrey Sean Grethe / Jaap Heringa / Peter A. C. ’t Hoen / Rob Hooft / Tobias Kuhn / Ruben Kok / Joost Kok / Scott J. Lusher / Maryann Elizabeth Martone / Albert Mons / Abel Laerte Packer / Bengt Persson / Philippe Rocca-Serra / Marco Roos / Rene van Schaik / Susanna-Assunta Sansone / Erik Schultes / Thierry Sengstag / Ted Slater / George Strawn / Morris A. Swertz / Mark Thompson / Johan van der Lei / Erik van Mulligen / Jan Velterop / Andra Waagmeester / Peter Wittenburg / Katherine Wolstencroft / Jun Zhao / Barend Mons: The FAIR Guiding Principles for Scientific Data Management and Stewardship. In: Scientific Data 3 (2016). DOI: 10.1038/sdata.2016.18

  • Ludwig Wittgenstein: Philosophische Untersuchungen. In: Ludwig Wittgenstein Werkausgabe, Band 1. Hg. von Gertrude Elisabeth Margaret Anscombe / Rush Rhees / Georg Henrik von Wright. Frankfurt / Main 1999, S. 231–485. [Nachweis im GVK]


Abbildungsverzeichnis