Versionen vergleichen von : Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in den digitalen Geisteswissenschaften (nach-)nutzen

AltNeu
17 Felicitas Kleinkopf 17 Felicitas Kleinkopf
18 Kontakt: felicitas.kleinkopf@kit.eduInstitution: Karlsruher Institut für Technologie, Institut für 18 Kontakt: felicitas.kleinkopf@kit.eduInstitution: Karlsruher Institut für Technologie, Institut für Informations- und
19 Informations- und Wirtschaftsrecht, Zentrum für Angewandte 19 Wirtschaftsrecht, Zentrum für Angewandte Rechtswissenschaft GND: 1268974757ORCID: 0000-0001-8670-2668
20 Rechtswissenschaft GND: 1268974757ORCID: 0000-0001-8670-2668
21 Jonas Kuhn 20 Jonas Kuhn
29 28
30 DOI: 10.17175/2022_007_v2 29 DOI: 10.17175/2022_007
31 Nachweis im OPAC der Herzog August Bibliothek: 1845597966 30 Nachweis im OPAC der Herzog August Bibliothek: 1816418234
32 Erstveröffentlichung: 03.11.2022 31 Erstveröffentlichung: 03.11.2022
33 Version 2.0: 22.06.2023
34 Lizenz: Sofern nicht anders angegeben 32 Lizenz: Sofern nicht anders angegeben
36 34
37 Medienlizenzen: Medienrechte liegen bei den Autor*innen 35 Medienlizenzen: Medienrechte liegen bei den Autor*innen.
38 Letzte Überprüfung aller Verweise: 06.09.2022 36 Letzte Überprüfung aller Verweise: 22.09.2022
39 GND-Verschlagwortung: Urheberrecht | Data Mining | Infrastruktur | Open Science | Digital Humanities | Forschungsdaten |  37 GND-Verschlagwortung: Urheberrecht | Data Mining | Infrastruktur | Open Science | Digital Humanities | Forschungsdaten |
40 Empfohlene Zitierweise: Melanie Andresen, Markus Gärtner, Sibylle Hermann, Janina Jacke, Nora Ketschik, Felicitas Kleinkopf, Jonas Kuhn, Axel Pichler: Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in 38 Empfohlene Zitierweise: Melanie Andresen, Markus Gärtner, Sibylle Hermann, Janina Jacke, Nora Ketschik, Felicitas Kleinkopf, Jonas Kuhn: Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in
41 den digitalen Geisteswissenschaften (nach-)nutzen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 03.11.2022. Version 2.0 vom 22.06.2023. HTML / XML / PDF. DOI: 10.17175/2022_007_v2 39 den digitalen Geisteswissenschaften (nach-)nutzen. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2022. text/html Format. DOI: 10.17175/2022_007
40
42 41
46 Abstract 45 Abstract
47
48 Um urheberrechtlichen Einschränkungen beim Austausch zu Forschungsergebnissen 46 Um urheberrechtlichen Einschränkungen beim Austausch zu Forschungsergebnissen
73 71
74
75 Version 2.0 (22.06.2023)
76 Korrekturen in Text und Fußnoten anhand der Monita in den Gutachten. Ergänzungen in
77 der Bibliografie.
78
79
80 1. Einleitung 72 1. Einleitung
94 5. Fazit 86 5. Fazit
95 Bibliografische Angaben 87 Bibliographische Angaben
96 Abbildungs- und Tabellenverzeichnis 88 Abbildungs- und Tabellenverzeichnis
101 [1]Die korpusorientierte Forschung an Texten und anderen Materialien in den digitalen 93 [1]Die korpusorientierte Forschung an Texten und anderen Materialien in den digitalen
102 Geisteswissenschaften[1] ist durch das 94 Geisteswissenschaften ist durch das deutsche Urheberrecht eingeschränkt, das die
103 deutsche Urheberrecht eingeschränkt, das die Weitergabe von Forschungsdaten zu 95 Weitergabe von Forschungsdaten zu geschützten Werken und deren Archivierung nur in
104 geschützten Werken und deren Archivierung nur in engen Grenzen erlaubt.[2] 96 engen Grenzen erlaubt.[1] Die Restriktionen erschweren die
105 Die Restriktionen erschweren die Einhaltung der guten wissenschaftlichen Praxis 97 Einhaltung der guten wissenschaftlichen Praxis sowie der FAIR-Prinzipien für Forschungsdateninfrastrukturen.[2] In
106 sowie der FAIR-Prinzipien für 98 vielen Projekten wird deshalb aus pragmatischen Gründen gänzlich darauf
107 Forschungsdateninfrastrukturen.[3] In vielen Projekten wird deshalb aus pragmatischen 99 verzichtet, urheberrechtlich geschützte Texte einzubeziehen. Nicht selten bedeutet
108 Gründen gänzlich darauf verzichtet, urheberrechtlich geschützte Texte 100 dies, dass zeitgenössische Texte – und mit ihnen bestimmte Fragestellungen –
109 einzubeziehen. Nicht selten bedeutet dies, dass zeitgenössische Texte – und mit 101 nahezu vollständig ausgeblendet werden (müssen).[3] Eine so weitreichende
110 ihnen bestimmte Fragestellungen – nahezu vollständig ausgeblendet werden 102 Beschneidung des Gegenstandsbereichs führt jedoch nicht nur zu Verzerrungen der
111 (müssen).[4] Eine so weitreichende Beschneidung des
112 Gegenstandsbereichs führt jedoch nicht nur zu Verzerrungen der
113 Forschungslandschaft, die aus geisteswissenschaftlich-fachlichen Gründen 103 Forschungslandschaft, die aus geisteswissenschaftlich-fachlichen Gründen
114 problematisch sind, sie hat häufig auch zur Folge, dass sich die Entwicklung 104 problematisch sind, sie hat häufig auch zur Folge, dass sich die Entwicklung
115 algorithmischer Verfahren mit sehr kleinen Datensätzen und / oder einer 105 algorithmischer Verfahren mit sehr kleinen Datensätzen und / oder einer heterogenen
116 heterogenen Kombination von Quellen behelfen muss. 106 Kombination von Quellen behelfen muss.
117 [2]Selbstverständlich besteht für Forscher*innen die Möglichkeit, für die Forschung 107 [2]Selbstverständlich besteht für Forscher*innen die Möglichkeit, für die Forschung
138 Reihe von digitalen Analyseverfahren geeignet sind, die den Text jedoch aus 128 Reihe von digitalen Analyseverfahren geeignet sind, die den Text jedoch aus
139 urheberrechtlicher Perspektive hinreichend verfremden.[5] Diese abgeleiteten Textformate halten beispielsweise für 129 urheberrechtlicher Perspektive hinreichend verfremden.[4] Diese abgeleiteten Textformate halten beispielsweise
140 Textsegmente wie Kapitel oder Abschnitte lediglich die Häufigkeit der enthaltenen 130 für Textsegmente wie Kapitel oder Abschnitte lediglich die Häufigkeit der
141 Einzelwörter oder n-Gramme (also kurzen Wortsequenzen) 131 enthaltenen Einzelwörter oder n-Gramme (also kurzen
142 fest. Gängige Verfahren der Makroanalyse,[6] die etwa lexikalische Indikatoren für die Dynamik des Textverlaufs 132 Wortsequenzen) fest. Gängige Verfahren der Makroanalyse,[5] die etwa lexikalische Indikatoren für die Dynamik
143 heranziehen, können auf dieser Basis zur Anwendung kommen. Der Urheberrechtsschutz 133 des Textverlaufs heranziehen, können auf dieser Basis zur Anwendung kommen. Der
144 wird dabei durch den Aufbruch der Textstruktur aufgehoben, sodass Restriktionen 134 Urheberrechtsschutz wird dabei durch den Aufbruch der Textstruktur aufgehoben,
145 zur Archivierung, Weitergabe und Veröffentlichung der Datensätze nicht mehr zum 135 sodass Restriktionen zur Archivierung, Weitergabe und Veröffentlichung der
146 Tragen kommen. Das Konzept der abgeleiteten Textformate leistet somit einen großen 136 Datensätze nicht mehr zum Tragen kommen. Das Konzept der abgeleiteten Textformate
147 Beitrag zur Replizierbarkeit von Forschung und Nachnutzbarkeit von 137 leistet somit einen großen Beitrag zur Replizierbarkeit von Forschung und
148 Forschungsdaten. 138 Nachnutzbarkeit von Forschungsdaten.
149 [5]Allerdings stößt das Konzept der abgeleiteten Formate dort an seine Grenzen, wo 139 [5]Allerdings stößt das Konzept der abgeleiteten Formate dort an seine Grenzen, wo
158 der komplementär zum Konzept der abgeleiteten Textformate eingesetzt werden kann 148 der komplementär zum Konzept der abgeleiteten Textformate eingesetzt werden kann
159 (vgl. Abbildung 1). 149 (vgl. Abbildung 1). Dieser
160 Dieser Ansatz nutzt das bestehende Recht zur Weitergabe von prozentual begrenzten 150 Ansatz nutzt das bestehende Recht zur Weitergabe von prozentual begrenzten
161 Auszügen geschützter Werke zu Zwecken der wissenschaftlichen Forschung (§ 60c UrhG) 151 Auszügen geschützter Werke zu Zwecken der wissenschaftlichen Forschung (§ 60c
162 und überträgt dies auf die Herausgabe von Korpusauszügen. Der erlaubte Umfang 152 UrhG) und überträgt dies auf die Herausgabe von Korpusauszügen. Der erlaubte
163 dieser Auszüge beträgt zwar in der Regel nur 15 Prozent eines Werks, der 153 Umfang dieser Auszüge beträgt zwar in der Regel nur 15 Prozent eines Werks, der
164 XSample-Ansatz ermöglicht jedoch eine dynamische, auf das individuelle 154 XSample-Ansatz ermöglicht jedoch eine dynamische, auf das individuelle
167 vorhandenen Annotationen genau spezifizieren, welche Teile des Korpus für sie 157 vorhandenen Annotationen genau spezifizieren, welche Teile des Korpus für sie
168 relevant sind. Dabei stellt der XSample-Ansatz sicher, dass die geschützten 158 relevant sind. Auf diese Weise werden die rechtlichen Möglichkeiten in einer
169 Primärdaten bei der Modellierung der Suchanfrage für die Nachnutzer*innen nicht
170 einsehbar sind. Auf diese Weise werden die rechtlichen Möglichkeiten in einer
171 zielführenden Art und Weise ausgeschöpft und nachhaltige Forschung mit 159 zielführenden Art und Weise ausgeschöpft und nachhaltige Forschung mit
190 [7]Der vorliegende Beitrag geht in Kapitel 2 178 [7]Der vorliegende Beitrag geht in Kapitel 2
191 zunächst auf die rechtlichen Grundlagen ein, die für Verfahren des Text- und Data-Mining (TDM)[7] gelten und die Rahmenbedingungen für das hier präsentierte 179 zunächst auf die rechtlichen Grundlagen ein, die für Verfahren des Text- und Data-Mining (TDM)[6] gelten und die Rahmenbedingungen für das hier präsentierte
192 Auszugskonzept schaffen. Kapitel 3 stellt 180 Auszugskonzept schaffen. Kapitel 3 stellt
194 innerhalb des rechtlichen Rahmens technisch umgesetzt werden kann. Dabei werden 182 innerhalb des rechtlichen Rahmens technisch umgesetzt werden kann. Dabei werden
195 insbesondere die unterschiedlichen Akteur*innen in den Blick genommen sowie 183 insbesondere die unterschiedlichen Akteur*innen in den Blick genommen sowie Schritte
196 Schritte der Datenvorbereitung und verschiedene Möglichkeiten der 184 der Datenvorbereitung und verschiedene Möglichkeiten der Auszugsgenerierung
197 Auszugsgenerierung vorgestellt. Anschließend werden in Kapitel 4 zwei Nutzungsszenarien präsentiert, die im 185 vorgestellt. Anschließend werden in Kapitel
198 Kontext konkreter Forschungsfragen ausführen, inwieweit abgeleitete Textformate 186 4 zwei Nutzungsszenarien präsentiert, die im Kontext konkreter
199 und / oder das Auszugskonzeptkonzept für die Reproduktion ihrer Forschung und die 187 Forschungsfragen ausführen, inwieweit abgeleitete Textformate und / oder das
200 Nachnutzung ihrer Daten praktikabel sind. Das erste Nutzungsszenario widmet sich 188 Auszugskonzeptkonzept für die Reproduktion ihrer Forschung und die Nachnutzung
201 der Wissenschaftssprache der geisteswissenschaftlichen Fächer 189 ihrer Daten praktikabel sind. Das erste Nutzungsszenario widmet sich der
202 Literaturwissenschaft, Linguistik und Philosophie und erstellt dazu ein Korpus aus 190 Wissenschaftssprache der geisteswissenschaftlichen Fächer Literaturwissenschaft,
203 insgesamt 135 urheberrechtlich geschützten Zeitschriftenartikeln. Das zweite 191 Linguistik und Philosophie und erstellt dazu ein Korpus aus insgesamt 135
204 Nutzungsszenario beschäftigt sich mit dem Phänomen des unzuverlässigen Erzählens, 192 urheberrechtlich geschützten Zeitschriftenartikeln. Das zweite Nutzungsszenario
205 das in einem ersten Zugang anhand eines Korpus aus acht deutschsprachigen 193 beschäftigt sich mit dem Phänomen des unzuverlässigen Erzählens, das in einem
206 fiktionalen Erzählungen aus dem 19. bis zum 21. Jahrhundert untersucht wird, die 194 ersten Zugang anhand eines Korpus aus acht deutschsprachigen fiktionalen
207 teilweise dem Urheberrecht unterliegen. Nach Abschluss der Forschung sollen die 195 Erzählungen aus dem 19. bis zum 21. Jahrhundert untersucht wird, die teilweise dem
208 Daten für die Überprüfung der Ergebnisse und zur Nachnutzung in weiteren Projekten 196 Urheberrecht unterliegen. Nach Abschluss der Forschung sollen die Daten für die
209 zur Verfügung gestellt werden. Das Fazit in Kapitel 5 fasst die Ergebnisse zusammen und leitet praktische 197 Überprüfung der Ergebnisse und zur Nachnutzung in weiteren Projekten zur Verfügung
210 Handlungsempfehlungen und Desiderate ab. 198 gestellt werden. Das Fazit in Kapitel 5
199 fasst die Ergebnisse zusammen und leitet praktische Handlungsempfehlungen und
200 Desiderate ab.
211 201
220 im Juni 2021, als die Richtlinie zum Urheberrecht im digitalen 210 im Juni 2021, als die Richtlinie zum Urheberrecht im digitalen
221 Binnenmarkt (Digital Single Market-, kurz DSM-Richtlinie) im Urheberrechtsgesetz (UrhG) umgesetzt wurde. Um einen kurzen 211 Binnenmarkt (Digital Single Market-, kurz DSM-Richtlinie) im Urheberrechtsgesetz (UrhG) umgesetzt wurde. Um einen kurzen Überblick
222 Überblick über die Entwicklung der Gesetzeslage zu geben, wird nachfolgend (Kapitel 2.1) skizziert, in welchem Umfang 212 über die Entwicklung der Gesetzeslage zu geben, wird nachfolgend (Kapitel 2.1) skizziert, in welchem Umfang
223 Vervielfältigungen (§ 16 UrhG) und 213 Vervielfältigungen (§ 16 UrhG) und öffentliche Zugänglichmachungen (§ 19a UrhG)
224 öffentliche Zugänglichmachungen (§ 19a UrhG)
225 für die Erstellung und (gemeinsame) Beforschung von Korpora im Kontext von TDM in 214 für die Erstellung und (gemeinsame) Beforschung von Korpora im Kontext von TDM in
226 den verschiedenen Gesetzesfassungen erlaubt waren bzw. sind.[8] Daran anschließend werden Fragen nach der 215 den verschiedenen Gesetzesfassungen erlaubt waren bzw. sind.[7] Daran anschließend werden Fragen nach der
227 Zugänglichmachung und Nachnutzbarkeit von Korpora sowie mögliche Lösungsansätze 216 Zugänglichmachung und Nachnutzbarkeit von Korpora sowie mögliche Lösungsansätze
241 enthalten, sein Werk zu vervielfältigen und es öffentlich zugänglich zu machen. 230 enthalten, sein Werk zu vervielfältigen und es öffentlich zugänglich zu machen.
242 Eine ausdrückliche Erlaubnis[9] dieser Handlungen 231 Eine ausdrückliche Erlaubnis[8] dieser Handlungen
243 wurde im Jahr 2018 durch das Gesetz zur Angleichung des Urheberrechts an die 232 wurde im Jahr 2018 durch das Gesetz zur Angleichung des Urheberrechts an die
255 [10]Aufgrund des Gesetzes zum Urheberrecht im digitalen 244 [10]Aufgrund des Gesetzes zum Urheberrecht im digitalen
256 Binnenmarkt vom 7. Juni 2021[10] hat 245 Binnenmarkt vom 7. Juni 2021[9] hat sich der
257 sich der Rechtsrahmen ein weiteres Mal verändert. Seitdem darf Forschung mit 246 Rechtsrahmen ein weiteres Mal verändert. Seitdem darf Forschung mit TDM auch zu
258 TDM auch zu anderen Zwecken als zur nicht-kommerziellen wissenschaftlichen 247 anderen Zwecken als zur nicht-kommerziellen wissenschaftlichen Forschung (diese
259 Forschung (diese ist weiterhin in § 60d UrhG geregelt), z. B. in Unternehmen 248 ist weiterhin in § 60d UrhG geregelt), z. B. in Unternehmen oder in der Presse,
260 oder in der Presse, praktiziert werden, wenn auch in eingeschränktem Umfang 249 praktiziert werden, wenn auch in eingeschränktem Umfang (§ 44b UrhG). Die
261 (§ 44b 250 Erlaubnis ist dabei nach wie vor an den rechtmäßigen Zugang gebunden. Dieser
262 UrhG).[11] Die Erlaubnis ist 251 rechtmäßige Zugang liegt dann vor, wenn die genutzten Texte in Buchform
263 dabei nach wie vor an den rechtmäßigen Zugang gebunden. Dieser rechtmäßige 252 vorliegen, im Internet frei abrufbar sind oder als E-Books lizenziert
264 Zugang liegt dann vor, wenn die genutzten Texte in Buchform vorliegen, im 253 wurden.[10] § 60d
265 Internet frei abrufbar sind oder als E-Books lizenziert wurden.[12] Neu ist auch, dass 254 UrhG wurde außerdem um Befugnisse zugunsten von sogenannten
266 jedenfalls für Vervielfältigungen im Rahmen von TDM nunmehr keine Vergütung 255 Kulturerbe-Einrichtungen erweitert. Neu ist auch, dass jedenfalls für
267 mehr anfällt (§ 60h Abs. 2 Nr. 3 UrhG). Diese war zuvor durch die jeweiligen 256 Vervielfältigungen im Rahmen von TDM nunmehr keine Vergütung mehr anfällt
268 Einrichtungen zu tragen. 257 (§ 60h Abs. 2 Nr. 3 UrhG). Diese war zuvor durch die jeweiligen Einrichtungen
258 zu tragen.
269 259
271 261
272 [11]§ 60d UrhG in seiner aktuellen Fassung erlaubt t es bestimmten privilegierten 262 [11]§ 60d UrhG in seiner aktuellen Fassung erlaubt es u. a. Forschungs- und
273 Personenkreisen und Einrichtungen, vollständige Werke zu Zwecken des TDM zu 263 sogenannten Kulturerbe-Einrichtungen, dazu zählen auch die in diesem Aufsatz
274 vervielfältigen (Abs. 1 bis 3) und die Vervielfältigungen (d. h. nicht die 264 adressierten Forschungsinfrastruktureinrichtungen, vollständige Werke zu
275 unveränderten Ursprungsmaterialien) für die gemeinsame wissenschaftliche 265 Zwecken des TDM zu vervielfältigen (Abs. 1 bis 3) und die Vervielfältigungen
276 Forschung bestimmt abgegrenzten Personenkreisen sowie einzelnen Dritten zur 266 (d. h. nicht die unveränderten Ursprungsmaterialien) für die gemeinsame
277 Überprüfung der wissenschaftlichen Forschung öffentlich zugänglich zu machen 267 wissenschaftliche Forschung bestimmt abgegrenzten Personenkreisen sowie
278 (Abs. 4 S. 1). Im Gegensatz zu seiner Vorgängernorm knüpft § 60d UrhG in seiner 268 einzelnen Dritten zur Überprüfung der wissenschaftlichen Forschung öffentlich
279 neuen Fassung nicht allgemein an nicht-kommerzielle wissenschaftliche 269 zugänglich zu machen (Abs. 4 S. 1). Die Zugänglichmachung ist jeweils zu
280 Zwecke[13] an, sondern 270 beenden, wenn die gemeinsame Forschung oder die Überprüfung abgeschlossen ist
281 berechtigt Forschungsorganisationen (Hochschulen, Forschungsinstitute und 271 (Abs. 4 S. 2).
282 sonstige Einrichtungen, die wissenschaftliche Forschung betreiben, hierzu
283 zählen auch die in diesem Beitrag adressierten
284 Forschungsinfrastruktureinrichtungen), sofern diese 1. nicht kommerzielle
285 Zwecke verfolgen, 2. sämtliche Gewinne in die Forschung reinvestieren oder 3.
286 im Rahmen eines staatlich anerkannten Auftrags im öffentlichen Interesse tätig
287 sind. Public-Private-Partnerships, d. h. Kooperationen mit privaten
288 Unternehmen, sind nur dann erfasst, wenn letztere keinen bestimmenden Einfluss
289 auf die Forschungsorganisation haben und keinen bevorzugten Zugang zu den
290 Forschungsergebnissen erhalten (§ 60d Abs. 2 S. 3 UrhG). § 60d Abs. 3 Nr. 1
291 UrhG benennt nunmehr auch ausdrücklich sogenannte Kulturerbe-Einrichtungen wie
292 Bibliotheken, Museen, Archive und Einrichtungen im Bereich des Ton- und
293 Filmerbes, wobei hier nicht an nicht-kommerzielle Zwecke, sondern an ihre
294 öffentliche Zugänglichkeit angeknüpft wird. Individualforscher*innen sind
295 weiterhin unter der Voraussetzung, dass sie nicht-kommerzielle Zwecke
296 verfolgen, erfasst (§ 60d Abs. 3 Nr. 2 UrhG). Die öffentliche Zugänglichmachung
297 steht unter der Voraussetzung der nicht-kommerziellen Zwecke, sodass auch die
298 öffentlich zugänglichen Kulturerbe-Einrichtungen diese letztlich beachten
299 müssen, um vom vollen Umfang der Erlaubnisse des § 60d UrhG zu profitieren. Die
300 Zugänglichmachung ist jeweils zu beenden, wenn die gemeinsame Forschung oder
301 die Überprüfung abgeschlossen ist (Abs. 4 S. 2).
302 [12]Die Befugnis zur Weitergabe der Korpora während der Forschungsarbeiten ist also 272 [12]Die Befugnis zur Weitergabe der Korpora während der Forschungsarbeiten ist also
308 Öffentlichkeit angehören, d. h. zu denen keine persönliche Beziehung existiert, 278 Öffentlichkeit angehören, d. h. zu denen keine persönliche Beziehung existiert,
309 vgl. § 15 Abs. 279 vgl. § 15 Abs. 3 UrhG, und die einer »unbestimmten Zahl potentieller
310 3 UrhG, und die einer »unbestimmten Zahl potentieller
311 Adressaten« und einer »ziemlich großen Zahl von 280 Adressaten« und einer »ziemlich großen Zahl von
312 Personen« angehören.[14] Die 281 Personen« angehören.[11] Die Erlaubnis,
313 Erlaubnis, Korpora während der TDM-Forschungsarbeiten weiterzugeben (§ 60d Abs. 282 Korpora während der TDM-Forschungsarbeiten weiterzugeben (§ 60d Abs. 4 S. 1
314 4 S. 1 UrhG), bezieht sich hingegen nur auf bestimmt abgegrenzte, d. h. weiter 283 UrhG), bezieht sich hingegen nur auf bestimmt abgegrenzte, d. h. weiter
315 eingegrenzte Personenkreise, die der Öffentlichkeit angehören. Bei 284 eingegrenzte Personenkreise, die der Öffentlichkeit angehören. Bei
316 Forschungsgruppen handelt es sich in der Regel nicht um eine 285 Forschungsgruppen handelt es sich in der Regel nicht um eine
317 Öffentlichkeit,[15] weswegen 286 Öffentlichkeit,[12]
318 es auf diese Erlaubnis in den meisten Fällen nicht ankommt. 287 weswegen es auf diese Erlaubnis in den meisten Fällen nicht ankommt.
319 [13]Die TDM-Korpora dürfen gemäß § 60d UrhG so lange aufbewahrt werden, wie es für 288 [13]Die TDM-Korpora dürfen gemäß § 60d UrhG so lange aufbewahrt werden, wie es für
321 im Regelfall die von der guten wissenschaftlichen Praxis geforderten zehn 290 im Regelfall die von der guten wissenschaftlichen Praxis geforderten zehn
322 Jahre,[16] sie kann im Einzelfall aber auch kürzer oder länger 291 Jahre,[13] sie kann im Einzelfall aber auch kürzer oder länger bemessen
323 bemessen sein. Aufgrund der Wissenschaftsfreiheit unterliegt die Einschätzung 292 sein. Aufgrund der Wissenschaftsfreiheit unterliegt die Einschätzung der
324 der Aufbewahrungsdauer den Forschenden und ist nur eingeschränkt 293 Aufbewahrungsdauer den Forschenden und ist nur eingeschränkt überprüfbar.[14]
325 überprüfbar.[17]
326 [14]Eine Erlaubnis, die Korpora zur Aufbewahrung an 294 [14]Eine Erlaubnis, die Korpora zur Aufbewahrung an
329 Auslegung aus der Gesetzesbegründung abgeleitet werden, denn diese scheint von 297 Auslegung aus der Gesetzesbegründung abgeleitet werden, denn diese scheint von
330 einer Aufbewahrung durch Kulturerbe-Einrichtungen auszugehen:[18] »Hiernach kann auch eine dauerhafte Speicherung erforderlich und folglich 298 einer Aufbewahrung durch Kulturerbe-Einrichtungen auszugehen:[15] »Hiernach kann auch eine dauerhafte Speicherung erforderlich und folglich
331 zulässig sein, insbesondere, wenn sie durch Kulturerbe-Einrichtungen und 299 zulässig sein, insbesondere, wenn sie durch Kulturerbe-Einrichtungen und
332 nicht durch die Forschungseinrichtung selbst erfolgt«.[19] Möglich ist aber in 300 nicht durch die Forschungseinrichtung selbst erfolgt«.[16] Möglich ist aber in jedem
333 jedem Fall, die TDM-Projekte gleich von Beginn an auf zentralen 301 Fall, die TDM-Projekte gleich von Beginn an auf zentralen Bibliotheksservern
334 Bibliotheksservern bzw. einrichtungsübergreifenden Servern anzusiedeln, sodass 302 bzw. einrichtungsübergreifenden Servern anzusiedeln, sodass dort die
335 dort die Archivierung ohne eine gesonderte Übermittlung erfolgen kann. Dann 303 Archivierung ohne eine gesonderte Übermittlung erfolgen kann. Dann bewegt man
336 bewegt man sich im Rahmen dessen, was die Gesetzesbegründung ausdrücklich 304 sich im Rahmen dessen, was die Gesetzesbegründung ausdrücklich enthält, und
337 enthält, und vermeidet gleichzeitig, das Korpus erneut zu vervielfältigen (§ 16 305 vermeidet gleichzeitig, das Korpus erneut zu vervielfältigen (§ 16 UrhG).
338 UrhG).
339 [15]Unklar ist aber weiterhin, ob zu Zwecken von Anschlussforschungen auf die 306 [15]Unklar ist aber weiterhin, ob zu Zwecken von Anschlussforschungen auf die
340 Korpora zugegriffen werden kann. Gemäß § 60d Abs. 5 UrhG dürfen die Korpora 307 Korpora zugegriffen werden kann. Gemäß § 60d Abs. 5 UrhG dürfen die Korpora
341 (nach dem Gesetz jedoch nicht die unveränderten Ursprungsdaten)[20] so lange aufbewahrt werden, wie 308 (nach dem Gesetz jedoch nicht die unveränderten Ursprungsdaten)[17] so lange aufbewahrt
342 es für Zwecke der Überprüfung der Qualität der wissenschaftlichen Forschung 309 werden, wie es für Zwecke der Überprüfung der Qualität der wissenschaftlichen
343 oder für die Forschung selbst erforderlich ist. Das impliziert, dass es auch 310 Forschung oder für die Forschung selbst erforderlich ist. Das impliziert, dass
344 abseits der Überprüfung wissenschaftliches Interesse an den Korpora geben kann. 311 es auch abseits der Überprüfung wissenschaftliches Interesse an den Korpora
345 Auch die DSM-Richtlinie setzt voraus, dass nach Abschluss der 312 geben kann. Auch die DSM-Richtlinie setzt voraus, dass nach Abschluss der
346 Forschungsarbeiten bzw. während der Langzeitarchivierung noch Interesse an 313 Forschungsarbeiten bzw. während der Langzeitarchivierung noch Interesse an
347 weiterer Beforschung der Korpora bestehen kann:[21] »Die Nutzung zum Zwecke der wissenschaftlichen Forschung außerhalb des 314 weiterer Beforschung der Korpora bestehen kann:[18] »Die Nutzung zum Zwecke der wissenschaftlichen
348 Text und Data Mining, etwa die Begutachtung unter wissenschaftlichen 315 Forschung außerhalb des Text und Data Mining, etwa die Begutachtung unter
349 Fachkollegen und gemeinsame Forschungsarbeiten, sollte nach wie vor unter 316 wissenschaftlichen Fachkollegen und gemeinsame Forschungsarbeiten, sollte
350 die Ausnahme oder Beschränkung im Sinne von Artikel 5 Absatz 3 Buchstabe a 317 nach wie vor unter die Ausnahme oder Beschränkung im Sinne von Artikel 5
351 der Richtlinie 2001/29/EG fallen, sofern diese Bestimmung anwendbar 318 Absatz 3 Buchstabe a der Richtlinie 2001/29/EG fallen, sofern diese
352 ist.«[22] Für eine 319 Bestimmung anwendbar ist.«[19]
320 [16]Für eine
353 Nachnutzung der Korpora kommen neben den von Schöch et al. vorgestellten 321 Nachnutzung der Korpora kommen neben den von Schöch et al. vorgestellten
354 abgeleiteten Textformaten sogenannte Closed-Room-Zugänge[23] (§§ 60e Abs. 4, 60f UrhG) 322 abgeleiteten Textformaten sogenannte Closed-Room-Zugänge[20] (§§ 60e Abs. 4,
355 und die Erlaubnis der auszugsweisen Nutzung zu Zwecken der wissenschaftlichen 323 60f UrhG) und die Erlaubnis der auszugsweisen Nutzung zu Zwecken der
356 Forschung (§ 60c UrhG) in Betracht. Nachfolgend werden diese beiden Optionen 324 wissenschaftlichen Forschung (§ 60c UrhG) in Betracht. Nachfolgend werden diese
357 dargestellt und gegeneinander abgewogen. 325 beiden Optionen dargestellt und gegeneinander abgewogen.
358 [16]§§ 60e Abs. 4, 60f UrhG erlauben es Bibliotheken und anderen 326 [17]§§ 60e Abs. 4, 60f UrhG erlauben es Bibliotheken und anderen
359 Kulturerbe-Einrichtungen wie öffentlich zugänglichen Museen, ihren Nutzer*innen 327 Kulturerbe-Einrichtungen wie öffentlich zugänglichen Museen, ihren Nutzer*innen
360 Werke aus ihrem Bestand an Terminals in ihren Räumen für deren Forschung oder 328 Werke aus ihrem Bestand an Terminals in ihren Räumen für deren Forschung oder
361 private Studien zugänglich zu machen (sogenannte Terminal-Schranke). Die Nutzer*innen dürfen sogenannte Anschlusskopien[24] im Umfang von zehn Prozent erstellen. Einzelne Werke geringen 329 private Studien zugänglich zu machen (sogenannte Terminal-Schranke). Die Nutzer*innen dürfen sogenannte Anschlusskopien[21] im Umfang von zehn Prozent erstellen. Einzelne Werke geringen
362 Umfangs[25] wie Beiträge aus 330 Umfangs[22] wie Beiträge aus
363 wissenschaftlichen Zeitschriften dürfen hingegen vollständig genutzt werden. 331 wissenschaftlichen Zeitschriften dürfen hingegen vollständig genutzt werden.
367 UrhG ist gleichwohl, dass jedenfalls der erste Zugriff auf die Werke nur an 335 UrhG ist gleichwohl, dass jedenfalls der erste Zugriff auf die Werke nur an
368 Terminals vor Ort erfolgen kann (sogenannte Closed-Room-Zugänge).[26] 336 Terminals vor Ort erfolgen kann (sogenannte Closed-room-Zugänge).[23]
369 [17]Anders verhält es sich mit § 60c UrhG, der Erlaubnisnorm für Zwecke der 337 [18]Anders verhält es sich mit § 60c UrhG, der Erlaubnisnorm für Zwecke der
370 nicht-kommerziellen wissenschaftlichen Forschung, auf den sich das hier 338 nicht-kommerziellen wissenschaftlichen Forschung, auf den sich das hier
378 gerechtfertigt ist« vorzusehen. 346 gerechtfertigt ist« vorzusehen.
379 [18]§ 60c Abs. 1 Nr. 1 UrhG erlaubt es, zu Zwecken der nicht-kommerziellen 347 [19]§ 60c Abs. 1 Nr. 1 UrhG erlaubt es, zu Zwecken der nicht-kommerziellen
380 wissenschaftlichen Forschung bis zu 15 Prozent von Werken und auch vollständige 348 wissenschaftlichen Forschung bis zu 15 Prozent von Werken und auch vollständige
386 erlaubt ist allerdings, Werke für eine gesamte Einrichtung frei abrufbar zu 354 erlaubt ist allerdings, Werke für eine gesamte Einrichtung frei abrufbar zu
387 machen.[27] Die 355 stellen.[24]
388 nicht-kommerziellen Zwecke können auch bei Drittmittelforschung sowie dann 356 [20]Wenn Forschende also nach § 60c UrhG Texte auszugsweise zur Nachnutzung
389 vorliegen, wenn Forschende ihre Ergebnisse in einem Verlag veröffentlichen und
390 Honorare erhalten, kommerzielle Zwecke sind aber jedenfalls dann anzunehmen,
391 wenn Forschung betrieben wird, um Waren oder Dienstleistungen zu entwickeln und
392 diese zu vermarkten.[28] Entscheidend ist bei der
393 Bestimmung der nicht-kommerziellen Zwecke nicht die organisatorische
394 Einrichtung oder Finanzierung, sondern, ob die jeweilige Nutzung auf
395 Gewinnerzielung ausgerichtet ist.[29]
396 [19]Wenn Forschende also nach § 60c UrhG Texte auszugsweise zur Nachnutzung
397 erhalten und diese anschließend für TDM im Sinne des § 60d UrhG nutzen, werden 357 erhalten und diese anschließend für TDM im Sinne des § 60d UrhG nutzen, werden
399 einerseits der InfoSoc-Richtlinie und andererseits der DSM-Richtlinie), 359 einerseits der InfoSoc-Richtlinie und andererseits der DSM-Richtlinie),
400 miteinander kombiniert. Das ist rechtlich möglich.[30] 360 miteinander kombiniert. Das ist rechtlich möglich.[25]
401 [20]Daneben entspricht die Nachnutzbarkeit auf Grundlage des § 60c UrhG auch den 361 [21]Daneben entspricht die Nachnutzbarkeit auf Grundlage des § 60c UrhG auch den
402 Interessen der Urheber*innen, das gilt insbesondere deswegen, weil § 60c UrhG 362 Interessen der Urheber*innen, das gilt insbesondere deswegen, weil § 60c UrhG
403 vergütungspflichtig ist (§ 60h UrhG) und dadurch ein finanzieller Ausgleich für 363 vergütungspflichtig ist (§ 60h UrhG) und dadurch ein finanzieller Ausgleich für
404 die Rechteinhaber*innen hergestellt wird, schließlich ist für eine Nutzung 364 die Rechteinhaber*innen hergestellt wird, schließlich ist für eine Nutzung gemäß
405 gemäß § 60d UrhG ein rechtmäßiger Zugang erforderlich, der zumeist einen 365 § 60d UrhG ein rechtmäßiger Zugang erforderlich, der zumeist einen finanziellen
406 finanziellen Ausgleich für den*die Urheber*in enthält. § 60c UrhG setzt diesen 366 Ausgleich für den*die Urheber*in enthält. § 60c UrhG setzt diesen rechtmäßigen Zugang
407 rechtmäßigen Zugang allerdings nicht voraus. Die Vergütung stellt also einen 367 allerdings nicht voraus. Die Vergütung stellt also einen Ausgleich der
408 Ausgleich der urheberrechtlichen Interessen her. Insgesamt ermöglicht § 60c 368 urheberrechtlichen Interessen her. Insgesamt ermöglicht § 60c UrhG insofern
409 UrhG insofern eine flexiblere Korpus-Nachnutzung als §§ 60e Abs. 4, 60f UrhG, 369 eine flexiblere Korpus-Nachnutzung als §§ 60e Abs. 4, 60f UrhG, weswegen sich
410 weswegen sich das in XSample entwickelte Konzept auf § 60c UrhG stützt. 370 das in XSample entwickelte Konzept auf § 60c UrhG stützt.
411 371
413 373
414 [21]Zusammenfassend orientiert sich das hier vorgestellte Auszugskonzept an 374 [22]Zusammenfassend orientiert sich das hier vorgestellte Auszugskonzept an
415 folgenden rechtlichen Einschränkungen, die von 375 folgenden rechtlichen Einschränkungen, die von
416 Forschungsinfrastruktureinrichtungen, die Korpora mit geschützten Texten 376 Forschungsinfrastruktureinrichtungen, die Korpora mit geschützten Texten bereitstellen möchten, zu prüfen sind:
417 bereitstellen möchten, zu prüfen sind: 377 [23]Einbeziehung der Forschungsinfrastruktureinrichtungen:
418 [22]Einbeziehung der Forschungsinfrastruktureinrichtungen:
419 Forschungsinfrastruktureinrichtungen, die die Korpora aufbewahren und 378 Forschungsinfrastruktureinrichtungen, die die Korpora aufbewahren und
421 integriert werden. 380 integriert werden.
422 [23]Aufbewahrungsdauer: Forscher*innen, die die Korpora 381 [24]Aufbewahrungsdauer: Forscher*innen, die die Korpora
423 bereitstellen möchten, sollten eine der Forschung angemessenen 382 bereitstellen möchten, sollten eine der Forschung angemessenen
424 Aufbewahrungsdauer für die Korpora vorschlagen. Wenn diese von den von der DFG 383 Aufbewahrungsdauer für die Korpora vorschlagen. Wenn diese von den von der DFG
425 vorgeschlagenen zehn Jahren[31] abweicht, sollte eine explizite Begründung 384 vorgeschlagenen zehn Jahren[26] abweicht,
426 erfolgen. 385 sollte eine explizite Begründung erfolgen.
427 [24]Inhalt der Korpora: Die gespeicherten und gegebenenfalls 386 [25]Inhalt der Korpora: Die gespeicherten und gegebenenfalls
428 bereitgestellten Korpora dürfen nicht die unveränderten Ursprungsdaten 387 bereitgestellten Korpora dürfen nicht die unveränderten Ursprungsdaten
430 Lizenzen erworben. 389 Lizenzen erworben.
431 [25]Nachnutzung: Nachnutzer*innen müssen nicht-kommerzielle, 390 [26]Nachnutzung: Nachnutzer*innen müssen nicht-kommerzielle,
432 wissenschaftliche Zwecke verfolgen. Die Verifizierung kann dadurch erfolgen, 391 wissenschaftliche Zwecke verfolgen. Die Korpusauszüge dürfen nur bestimmt
433 dass Interessierte sich in Bezug auf die Zugehörigkeit zu einer
434 Forschungseinrichtung verifizieren und zudem versichern, die Daten nur für die
435 nicht-kommerzielle wissenschaftliche Forschung zu verwenden.[32] Die Korpusauszüge dürfen nur bestimmt
436 abgegrenzten Personenkreisen zugänglich gemacht werden, d. h. auf individuelle 392 abgegrenzten Personenkreisen zugänglich gemacht werden, d. h. auf individuelle
437 Anfrage. 393 Anfrage.
438 [26]Umfang der Korpusauszüge: Korpusauszüge dürfen maximal 394 [27]Umfang der Korpusauszüge: Korpusauszüge dürfen maximal
439 15 Prozent ganzer Werke betragen, kurze Werke wie z. B. Aufsätze aus 395 15 Prozent ganzer Werke betragen, kurze Werke wie z. B. Aufsätze aus
445 401
446 [27]Wie im vorigen Kapitel beschrieben, bedient 402 [28]Wie im vorigen Kapitel beschrieben, bedient
447 sich der in XSample verfolgte Ansatz der rechtlichen Erlaubnis, Auszüge bis zu 403 sich der in XSample verfolgte Ansatz der rechtlichen Erlaubnis, Auszüge bis zu
452 umrissen. Hierfür werden zunächst die Workflow-Akteur*innen (Kapitel 3.1) und die im Workflow eingesetzten 408 umrissen. Hierfür werden zunächst die Workflow-Akteur*innen (Kapitel 3.1) und die im Workflow eingesetzten
453 Serverkomponenten (Kapitel 3.2) 409 Serverkomponenten (Kapitel 3.2) vorgestellt.
454 vorgestellt. Im Anschluss werden die Vorbereitungsschritte für die Erstellung 410 Im Anschluss werden die Vorbereitungsschritte für die Erstellung eines Auszugs
455 eines Auszugs (Kapitel 3.3) sowie 411 (Kapitel 3.3) sowie verschiedene
456 verschiedene Möglichkeiten der Auszugsgenerierung (Kapitel 3.4) erläutert. Für letztere liegt der Fokus auf 412 Möglichkeiten der Auszugsgenerierung (Kapitel
457 der Verwendung im Korpus enthaltener Annotationen, um mittels Suchanfragen Auszüge 413 3.4) erläutert. Für letztere liegt der Fokus auf der Verwendung im Korpus
458 zu erhalten, die optimal auf die Bedürfnisse der Nachnutzer*innen zugeschnitten 414 enthaltener Annotationen, um mittels Suchanfragen Auszüge zu erhalten, die optimal
459 sind. Abschließend wird die Nachhaltigkeit und Nachnutzbarkeit der hier 415 auf die Bedürfnisse der Nachnutzer*innen zugeschnitten sind. Abschließend wird die
460 vorgestellten Infrastruktur thematisiert (Kapitel 3.5). 416 Nachhaltigkeit und Nachnutzbarkeit der hier vorgestellten Infrastruktur
417 thematisiert (Kapitel 3.5).
461 3.1 Workflow-Akteur*innen 418 3.1 Workflow-Akteur*innen
462 419
463 [28]XSample unterscheidet zwischen drei Akteur*nnen im Workflow: Erstens den 420 [29]XSample unterscheidet zwischen drei Akteur*innen im Workflow: Erstens den
464 Infrastrukturbetreiber*innen, zweitens den Datenanbieter*innen / 421 Infrastrukturbetreiber*innen, zweitens den Datenanbieter*innen / -lieferant*innen und
465 -lieferant*innen und drittens den Nachnutzer*innen. 422 drittens den Nachnutzer*innen. Infrastrukturbetreiber*innen gehören zu den oben
466 Infrastrukturbetreiber*innen gehören zu den oben adressierten 423 adressierten Forschungsinfrastruktureinrichtungen und bieten die
467 Forschungsinfrastruktureinrichtungen und bieten die infrastrukturelle 424 infrastrukturelle Komponente zur Ablage und Verwaltung der verschiedenen im
468 Komponente zur Ablage und Verwaltung der verschiedenen im Workflow anfallenden 425 Workflow anfallenden Daten. Eine zentrale Bedeutung kommt hierbei der
469 Daten. Eine zentrale Bedeutung kommt hierbei der Authentifizierung von 426 Authentifizierung von Nutzer*innen und einem feingranularen Rechtemanagement
470 Nutzer*innen und einem feingranularen Rechtemanagement zu, um die beschriebenen 427 zu, um die beschriebenen rechtlichen Bedingungen (z. B. Zugriffsbeschränkung
471 rechtlichen Bedingungen (z. B. Zugriffsbeschränkung für bestimmt abgegrenzte 428 für bestimmt abgegrenzte Personenkreise) erfüllen zu können. Neben der reinen
472 Personenkreise) erfüllen zu können. Neben der reinen Datenablage dient das 429 Datenablage dient das zugrundeliegende Repositorium mit seiner Weboberfläche
473 zugrundeliegende Repositorium mit seiner Weboberfläche gleichzeitig als 430 gleichzeitig als zentraler Einstiegspunkt für die weiteren beteiligten
474 zentraler Einstiegspunkt für die weiteren beteiligten Akteur*innen. Als 431 Akteur*innen. Als Datenlieferant*innen werden im XSample-Kontext sämtliche
475 Datenlieferant*innen werden im XSample-Kontext sämtliche Personen oder 432 Personen oder Personenkreise bezeichnet, welche (gemäß § 60d UrhG) TDM auf
476 Personenkreise bezeichnet, welche (gemäß § 60d UrhG) TDM auf geschützten Werken 433 geschützten Werken zum Zwecke nicht-kommerzieller Forschung durchführen und die
477 zum Zwecke nicht-kommerzieller Forschung durchführen und die dabei erzeugten 434 dabei erzeugten Korpora zur Nachnutzung durch XSample verfügbar machen möchten.
478 Korpora zur Nachnutzung durch XSample verfügbar machen möchten. Die Gruppe der 435 Die Gruppe der Nachnutzer*innen schließlich beinhaltet die nach § 60c UrhG
479 Nachnutzer*innen schließlich beinhaltet die nach § 60c UrhG bestimmt 436 bestimmt abgegrenzten Personenkreise, denen auszugsweise Zugang zu geschützten
480 abgegrenzten Personenkreise, denen auszugsweise Zugang zu geschützten Werken 437 Werken zum Zwecke nicht-kommerzieller Forschung gewährt werden darf.
481 zum Zwecke nicht-kommerzieller Forschung gewährt werden darf.
482 438
484 440
485 [29]Innerhalb des XSample-Workflows kommen zwei getrennte Serverkomponenten zum 441 [30]Innerhalb des XSample-Workflows kommen zwei getrennte Serverkomponenten zum
486 Einsatz: das Repositorium und die Auszugsgenerierung. Beide stehen unter der 442 Einsatz: das Repositorium und die Auszugsgenerierung. Beide stehen unter der
488 Weboberflächen. 444 Weboberflächen.
489 [30]Das Repositorium dient vorwiegend der Ablage und Verwaltung der Korpus- und 445 [31]Das Repositorium dient vorwiegend der Ablage und Verwaltung der Korpus- und
490 eventuell Ursprungsdaten und wird innerhalb des Prototyps durch eine 446 eventuell Ursprungsdaten und wird innerhalb des Prototyps durch eine
508 Zugriff abgeschirmt sind. 464 Zugriff abgeschirmt sind.
509 [31]Neben dem Repositorium stellt die Auszugsgenerierung als eigener Server die 465 [32]Neben dem Repositorium stellt die Auszugsgenerierung als eigener Server die
510 zweite Komponente im XSample-Workflow dar. Sie leitet Nutzer*innen auf einer 466 zweite Komponente im XSample-Workflow dar. Sie leitet Nutzer*innen auf einer
532 488
533 [32]Bevor Auszüge aus einem Korpus generiert werden können, sind mehrere 489 [33]Bevor Auszüge aus einem Korpus generiert werden können, sind mehrere
534 Vorbereitungsschritte notwendig: 490 Vorbereitungsschritte notwendig:
535 [33]Zulässige Formate: Alle für die Auszüge zu verwendenden 491 Zulässige Formate: Alle für die Auszüge zu verwendenden
536 Dateien des Korpus müssen in einem nicht öffentlich zugreifbaren Bereich 492 Dateien des Korpus müssen in einem nicht öffentlich zugreifbaren Bereich
538 Prototypenimplementierung ist bisher nur eine begrenzte Anzahl von Formaten für 494 Prototypenimplementierung ist bisher nur eine begrenzte Anzahl von Formaten für
539 Ursprungsdaten (PDF, EPUB oder TXT) und Annotationen (TEI-Subset und CoNLL-ähnliche tabellarische Formate) vorgesehen. Während 495 Ursprungsdaten (PDF, EPUB oder TXT) und Annotationen (TEI-Subset und
540 der Konzeptphase lag hierbei der Fokus auf EPUB und TXT 496 CoNLL-ähnliche tabellarische Formate) vorgesehen. Werden unveränderte
541 Primärdaten, sowie Annotationen in einem Subset des weit verbreiteten TEI-Formats aus dem zweiten 497 Ursprungsdaten eingegliedert, ist von Seiten der Infrastrukturbetreiber*innen
542 Nutzungsszenario (Kapitel 4.2). Bedingt durch zeitliche Überschneidungen 498 und Datenanbieter*innen auch zu prüfen, ob für die verwendeten Werke
543 verschob sich dieser Fokus im Verlauf der Implementierungsphase auf Daten des
544 ersten Nutzungsszenarios (Kapitel 4.1), konkret auf PDF-Dateien und das
545 tabellarische Format des CoNLL-2009-Shared-Tasks. Werden unveränderte Ursprungsdaten
546 eingegliedert, ist von Seiten der Infrastrukturbetreiber*innen und
547 Datenanbieter*innen auch zu prüfen, ob für die verwendeten Werke
548 Archivierungsrechte oder Lizenzen mit äquivalenten Berechtigungen vorliegen, 499 Archivierungsrechte oder Lizenzen mit äquivalenten Berechtigungen vorliegen,
564 große Hürde darstellen. Dies sollte schon frühzeitig im Projekt eingeplant 515 große Hürde darstellen. Dies sollte schon frühzeitig im Projekt eingeplant
565 werden, damit die notwendigen und nicht selten ›format-fremden‹[33] Informationen nicht im 516 werden, damit die notwendigen und nicht selten ›format-fremden‹[27] Informationen nicht im Forschungsprozess
566 Forschungsprozess verloren gehen und entweder durch manuellen Zusatzaufwand 517 verloren gehen und entweder durch manuellen Zusatzaufwand oder Anpassung
567 oder Anpassung automatischer Verarbeitungsschritte wiederhergestellt werden 518 automatischer Verarbeitungsschritte wiederhergestellt werden müssen. Die Ablage
568 müssen. Die Ablage der Alignierungsinformationen erfolgt analog zu obigen 519 der Alignierungsinformationen erfolgt analog zu obigen Ursprungs- und
569 Ursprungs- und Annotationsdateien in einem nicht-öffentlichen Bereich. 520 Annotationsdateien in einem nicht-öffentlichen Bereich.
570 [35]Erzeugung eines Manifests: Als letztes muss ein 521 [35]Erzeugung eines Manifests: Als letztes muss ein
598 [36]Beim folgenden Beispiel handelt es sich um ein Manifest mit Informationen zu 549 [36]Beim folgenden Beispiel handelt es sich um ein Manifest mit Informationen zu
599 Primärdaten im Repositorium, Rechteinhaber*innen und voreingestellten Werten 550 Primärdaten im Repositorium, Rechteinhaber*innen und voreingestellten Werten für die
600 für die statische Auszugsgenerierung. Das beschriebene Beispielkorpus ist eine 551 statische Auszugsgenerierung. Das beschriebene Beispielkorpus ist eine
601 100-seitige PDF-Datei (verlinkt im 552 100-seitige PDF-Datei (verlinkt im
643 [38]Sind alle Vorbereitungsschritte abgeschlossen, können Nachnutzer*innen über die 594 [38]Sind alle Vorbereitungsschritte abgeschlossen, können Nachnutzer*innen über die
644 Dataverse-Oberfläche (Abbildung 2) eine Zugriffsanfrage auf die XSample-Manifeste stellen. 595 Dataverse-Oberfläche (Abbildung
645 Wenn diese durch die Infrastrukturbetreiber*innen akzeptiert wird, dürfen die 596 2) eine Zugriffsanfrage auf die XSample-Manifeste stellen. Wenn diese
646 Nachnutzer*innen auf den XSample-Server (Abbildung 3) weitergeleitet werden, wo 597 durch die Infrastrukturbetreiber*innen akzeptiert wird, dürfen die
647 die eigentliche Konfiguration und Erstellung der Auszüge erfolgt. Da einzelnen 598 Nachnutzer*innen auf den XSample-Server (Abbildung 3) weitergeleitet werden, wo die
599 eigentliche Konfiguration und Erstellung der Auszüge erfolgt. Da einzelnen
648 Nutzer*innen nach § 60c UrhG jeweils nur maximal 15 Prozent eines geschützten 600 Nutzer*innen nach § 60c UrhG jeweils nur maximal 15 Prozent eines geschützten
673 (Korpus-)Ressourcen. Anschließend haben Nutzer*innen die Möglichkeit, zwischen 625 (Korpus-)Ressourcen. Anschließend haben Nutzer*innen die Möglichkeit, zwischen
674 drei Arten der Auszugsgenerierung (vgl. Abbildung 3, unten links) auszuwählen: 626 drei Arten der Auszugsgenerierung (vgl. Abbildung 3, unten links) auszuwählen: Als
675 Als simpelste Lösung kann ein statisch definierter Auszug (beispielsweise die 627 simpelste Lösung kann ein statisch definierter Auszug (beispielsweise die
676 ersten 10 Prozent oder ein anderer im Manifest definierter Abschnitt) gewählt 628 ersten 10 Prozent oder ein anderer im Manifest definierter Abschnitt) gewählt
677 werden. Wird mehr Kontrolle über die Zusammensetzung des Auszugs gewünscht, 629 werden. Wird mehr Kontrolle über die Zusammensetzung des Auszugs gewünscht,
678 bietet die zweite Alternative (vgl. Abbildung 4) die Möglichkeit, die 630 bietet die zweite Alternative (vgl. Abbildung 4) die Möglichkeit, die Auszugsgrenzen innerhalb der
679 Auszugsgrenzen innerhalb der Ursprungsdaten frei zu definieren (z. B. die 631 Ursprungsdaten frei zu definieren (z. B. die Seiten 20 bis 33). Auch hier wird
680 Seiten 20 bis 33). Auch hier wird eine zusammenhängende Sequenz an Seiten / 632 eine zusammenhängende Sequenz an Seiten / Segmenten geliefert.
681 Segmenten geliefert. In jedem Falle stehen die Auszugsdaten am Ende des
682 Workflows direkt als zip-Datei zum Download zur Verfügung, zusammen mit
683 bibliografischen Informationen zu den Auszügen und den Rechteinhaber*innen.
684 633
693 oder Passagen interessieren. Um dem gerecht zu werden, wird als dritte 642 oder Passagen interessieren. Um dem gerecht zu werden, wird als dritte
694 Alternative eine Korpusanfrageschnittstelle[34] integriert, die Suchanfragen auf Basis der im Korpus 643 Alternative eine Korpusanfrageschnittstelle[28] integriert, die Suchanfragen auf Basis der im Korpus
695 enthaltenen Annotationen ermöglicht. Dadurch lassen sich beispielsweise gezielt 644 enthaltenen Annotationen ermöglicht. Dadurch lassen sich beispielsweise gezielt
696 bestimmte syntaktische Konstruktionen finden[35], die dann als Kandidaten für 645 bestimmte syntaktische Konstruktionen finden[29], die dann als Kandidaten für
697 die Auszugserstellung genutzt werden (vgl. Abbildung 5). Basierend auf diesen 646 die Auszugserstellung genutzt werden (vgl. Abbildung 5). Basierend auf diesen
700 sicherstellen, dass die Auszüge optimal auf die individuellen Bedürfnisse der 649 sicherstellen, dass die Auszüge optimal auf die individuellen Bedürfnisse der
701 Nutzer*innen zugeschnitten sind. Da Nutzer*innen zu diesem Zeitpunkt der 650 Nutzer*innen zugeschnitten sind.
702 Auszugsgenerierung noch kein Zugriff auf die geschützten Daten gewährt werden
703 kann, wird lediglich eine visuelle Verteilung der Treffer und möglicher
704 Auszugssegmente angeboten. Etablierte Such- und Visualisierungswerkzeuge wie
705 ANNIS[36] oder
706 KorAP[37] stellen
707 zwar umfangreiche Such- und Exportmöglichkeiten zur Verfügung, bieten aber
708 nicht diese notwendige Abschirmung der Daten bis zur finalen Auszugserstellung.
709 Die den beiden erwähnten und anderen bestehenden Suchwerkzeugen zugrunde
710 liegenden Anfragesprachen und -Schnittstellen könnten allerdings als
711 Alternativen zu den im Prototypen integrierten Optionen für ICARUS und ICARUS2
712 dienen.
713 651
718 direkt visualisiert und Nutzer*innen anschließend die Möglichkeit 656 direkt visualisiert und Nutzer*innen anschließend die Möglichkeit
719 gegeben, die für sie relevanten Segmente exakt auszuwählen. [Gärtner 657 gegeben, die für sie relevanten Segmente exakt auszuwählen. [Gärtner 2021]
720 2021]
721 658
744 können, werden nur diejenigen weiterhin angeboten, die sich bewährt haben. 681 können, werden nur diejenigen weiterhin angeboten, die sich bewährt haben.
745 [42]Die Software für den Prototypen 682 [42]Die Software für den Prototypen ist open-source öffentlich verfügbar und kann
746 ist open-source öffentlich verfügbar und kann somit auch von anderen 683 somit auch von anderen Einrichtungen genutzt werden, um eine eigene Instanz des
747 Einrichtungen genutzt werden, um eine eigene Instanz des XSample-Servers zu 684 XSample-Servers zu betreiben. Neben einem laufenden Dataverse-Server wird
748 betreiben. Neben einem laufenden Dataverse-Server wird lediglich eine 685 lediglich eine SQL-basierte Datenbank benötigt, um den XSample-Server in
749 SQL-basierte Datenbank benötigt, um den XSample-Server in bestehende 686 bestehende Infrastruktur integrieren zu können. Die Anforderungen an
750 Infrastruktur integrieren zu können. Die Anforderungen an Rechenleistung und 687 Rechenleistung und Speicherplatz für den Prototypen sind hierbei
751 Speicherplatz für den Prototypen sind hierbei überschaubar. 688 überschaubar.
752 [43]Zwar ist der aktuelle Prototyp auf die Schnittstelle zu Dataverse beschränkt, 689 [43]Zwar ist der aktuelle Prototyp auf die Schnittstelle zu Dataverse beschränkt,
774 Disziplinen Literaturwissenschaft, Linguistik und Philosophie. Es handelt sich 711 Disziplinen Literaturwissenschaft, Linguistik und Philosophie. Es handelt sich
775 dabei um die Replikation einer Studie[38] 712 dabei um die Replikation einer Studie[30] zur Frage, wie sich
776 zur Frage, wie sich die Wissenschaftssprachen von Linguistik und 713 die Wissenschaftssprachen von Linguistik und Literaturwissenschaft voneinander
777 Literaturwissenschaft voneinander unterscheiden. Als Datengrundlage der 714 unterscheiden. Als Datengrundlage der Originalstudie dienen jeweils 30
778 Originalstudie dienen jeweils 30 Dissertationen aus den beiden Fächern. Die 715 Dissertationen aus den beiden Fächern. Die Unterschiede zwischen den beiden
779 Unterschiede zwischen den beiden Teilkorpora werden in einem datengeleiteten 716 Teilkorpora werden in einem datengeleiteten Verfahren mithilfe von maschinellem
780 Verfahren mithilfe von maschinellem Lernen ermittelt. Daran anschließend 717 Lernen ermittelt. Daran anschließend erfolgt eine Interpretation der
781 erfolgt eine Interpretation der deutlichsten Unterschiede vor dem Hintergrund 718 deutlichsten Unterschiede vor dem Hintergrund wissenschaftstheoretischer
782 wissenschaftstheoretischer Merkmale der beiden Disziplinen. In der 719 Merkmale der beiden Disziplinen. In der Replikationsstudie werden im
783 Replikationsstudie werden im Wesentlichen zwei Modifikationen vorgenommen:[39] Erstens 720 Wesentlichen zwei Modifikationen vorgenommen: Erstens erfolgt eine Veränderung
784 erfolgt eine Veränderung der Variable ›Textsorte‹ von Dissertationen hin zu 721 der Variable ›Textsorte‹ von Dissertationen hin zu Zeitschriftenartikeln.
785 Zeitschriftenartikeln. Während die Autor*innen von Dissertationen mit ihren 722 Während die Autor*innen von Dissertationen mit ihren Texten zwar ihre
786 Texten zwar ihre Beherrschung der fachtypischen Wissenschaftssprache 723 Beherrschung der fachtypischen Wissenschaftssprache nachweisen, durchlaufen
787 nachweisen, durchlaufen Zeitschriftenartikel in der Regel mehr Schritte der 724 Zeitschriftenartikel in der Regel mehr Schritte der Qualitätssicherung. Sie
788 Qualitätssicherung. Sie werden außerdem von der Fachgemeinschaft breiter 725 werden außerdem von der Fachgemeinschaft breiter rezipiert, sodass sie auch als
789 rezipiert, sodass sie auch als repräsentativer für die jeweilige 726 repräsentativer für die jeweilige fachspezifische Wissenschaftssprache gelten
790 fachspezifische Wissenschaftssprache gelten können. Zweitens wird die 727 können. Zweitens wird die Datengrundlage um die Philosophie als drittes
791 Datengrundlage um die Philosophie als drittes geisteswissenschaftliches Fach 728 geisteswissenschaftliches Fach erweitert. Dadurch werden Literaturwissenschaft
792 erweitert. Dadurch werden Literaturwissenschaft und Linguistik nochmals aus 729 und Linguistik nochmals aus einer neuen Perspektive beleuchtet, nämlich im
793 einer neuen Perspektive beleuchtet, nämlich im Kontrast zur Philosophie. 730 Kontrast zur Philosophie. Außerdem ist mit der Hinzunahme des dritten Faches
794 Außerdem ist mit der Hinzunahme des dritten Faches ein Schritt dahingehend 731 ein Schritt dahingehend getan, Aussagen über die Wissenschaftssprache der
795 getan, Aussagen über die Wissenschaftssprache der Geisteswissenschaften im 732 Geisteswissenschaften im Allgemeinen zu treffen.
796 Allgemeinen zu treffen.
797 [46]Das Korpus umfasst insgesamt 135 Zeitschriftenartikel, jeweils 45 pro Fach. 733 [46]Das Korpus umfasst insgesamt 135 Zeitschriftenartikel, jeweils 45 pro Fach.
798 Alle Texte werden automatisch mit Lemmata, Wortarten und syntaktischen 734 Alle Texte werden automatisch mit Lemmata, Wortarten und syntaktischen
799 Dependenzen annotiert. Für den XSample-Workflow werden die annotierten Texte im 735 Dependenzen annotiert. Für den XSample-Workflow werden die annotierten Texte im CoNLL-Format an der Universitätsbibliothek Stuttgart
800 CoNLL-2009-Format an der Universitätsbibliothek Stuttgart gespeichert. Die 736 gespeichert. Die Ursprungsdaten im PDF-Format werden gemeinsam mit den
801 Ursprungsdaten im PDF-Format werden gemeinsam mit den Annotationen im 737 Annotationen im Repositorium aufbewahrt. Um sicherzustellen, dass von den
802 Repositorium aufbewahrt. Um sicherzustellen, dass von den annotierten Daten 738 annotierten Daten wieder auf die PDF-Seiten der Ursprungsdaten geschlossen
803 wieder auf die PDF-Seiten der Ursprungsdaten geschlossen werden kann, müssen 739 werden kann, müssen hierbei Informationen zur Alignierung der beiden
804 hierbei Informationen zur Alignierung der beiden Dateiformate gespeichert 740 Dateiformate gespeichert werden. Im Falle dieses Nutzungsszenarios erfolgt dies
805 werden. Im Falle dieses Nutzungsszenarios erfolgt dies in Form einer einfachen 741 in Form einer einfachen Tabelle für jedes Dokument, die für jeden fortlaufend
806 Tabelle für jedes Dokument, die für jeden fortlaufend nummerierten Satz 742 nummerierten Satz verzeichnet, auf welcher Seite oder welchen Seiten im
807 verzeichnet, auf welcher Seite oder welchen Seiten im PDF-Dokument er zu finden 743 PDF-Dokument er zu finden ist.
808 ist. 744 [47]Im Fokus der Replikationsstudie stehen Einzelwörter und Wortartentags (Unigramme), während die vorausgehende Studie[31] einen besonderen Schwerpunkt auf
809 [47]Im Fokus der Replikationsstudie steht der Teil der vorausgehende Studie[40], 745 Sequenzen legt, die entlang der syntaktischen Dependenzen im Satz gebildet
810 der Einzelwörter und Wortartentags (Unigramme) 746 werden. Hiervon abgesehen orientiert sich die Replikationsstudie in
811 betrachtet.[41] 747 methodischer Hinsicht eng am Original: Im ersten Schritt werden die Merkmale
812 In methodischer Hinsicht orientiert sich die Replikationsstudie eng am 748 mit den größten Unterschieden zwischen den Teilkorpora auf datengeleitete Weise
813 Original: Im ersten Schritt werden die Merkmale mit den größten Unterschieden 749 ermittelt. Zu diesem Zweck wird mit dem maschinellen Lernverfahren der Support-Vector-Machine (SVM) ein Klassifikator trainiert,
814 zwischen den Teilkorpora auf datengeleitete Weise ermittelt. Zu diesem Zweck 750 der jeweils zwischen Texten aus zwei der drei Disziplinen unterscheiden soll.
815 wird mit dem maschinellen Lernverfahren der Support-Vector-Machine (SVM) ein Klassifikator trainiert, der 751 Die lineare SVM bietet die Möglichkeit, auf die Koeffizienten zuzugreifen, die
816 jeweils zwischen Texten aus zwei der drei Disziplinen unterscheiden soll. Die 752 für jedes Merkmal ausdrücken, wie hilfreich es für die Klassifikationsaufgabe
817 lineare SVM bietet die Möglichkeit, auf die Koeffizienten zuzugreifen, die für 753 war. Anhand dieser Koeffizienten wird ein Feature-Ranking wie in Tabelle 1 erstellt, das die
818 jedes Merkmal ausdrücken, wie hilfreich es für die Klassifikationsaufgabe war. 754 größten Unterschiede zwischen den Teilkorpora (im Sinne der SVM) darstellt. Der
819 Anhand dieser Koeffizienten wird ein Feature-Ranking wie in Tabelle 1 erstellt, das die größten Unterschiede 755 zweite Schritt der Analyse besteht dann in der Interpretation dieses
820 zwischen den Teilkorpora (im Sinne der SVM) darstellt. Der zweite Schritt der 756 Feature-Rankings. Welche sprachlichen Unterschiede verbergen sich hinter den
821 Analyse besteht dann in der Interpretation dieses Feature-Rankings. Welche 757 Merkmalen und (wie) können sie anhand wissenschaftstheoretischer Merkmale der
822 sprachlichen Unterschiede verbergen sich hinter den Merkmalen und (wie) können 758 Disziplinen erklärt werden? Während der erste Schritt rein datengeleitet
823 sie anhand wissenschaftstheoretischer Merkmale der Disziplinen erklärt werden? 759 arbeitet, muss für die Interpretation auf unterschiedliche Ressourcen
824 Während der erste Schritt rein datengeleitet arbeitet, muss für die 760 zurückgegriffen werden: Erstens ist der erneute Rückgriff auf das Korpus
825 Interpretation auf unterschiedliche Ressourcen zurückgegriffen werden: Erstens 761 notwendig, um verstehen zu können, wie das Merkmal in den Texten verwendet
826 ist der erneute Rückgriff auf das Korpus notwendig, um verstehen zu können, wie 762 wird. Zweitens muss Wissen über die wissenschaftstheoretischen Merkmale der
827 das Merkmal in den Texten verwendet wird. Zweitens muss Wissen über die 763 Disziplinen sowie bereits vorhandene empirische Erkenntnisse zu den
828 wissenschaftstheoretischen Merkmale der Disziplinen sowie bereits vorhandene 764 vorliegenden Phänomenen herangezogen werden, um die Daten in einen funktionalen
829 empirische Erkenntnisse zu den vorliegenden Phänomenen herangezogen werden, um 765 Zusammenhang setzen und gegebenenfalls erklären zu können.
830 die Daten in einen funktionalen Zusammenhang setzen und gegebenenfalls erklären
831 zu können.
832 766
931 865
932 Tab. 1: Die distinktivsten Wortarten 866 Tab. 1: Die distinktivsten
933 für die Unterscheidung von Philosophie und Literaturwissenschaft im Sinne 867 Wortarten für die Unterscheidung von Philosophie und Literaturwissenschaft
934 der SVM. Das verwendete Tagset ist das STTS (Schiller et al. 1999). [Andresen 868 im Sinne der SVM. Das verwendete Tagset ist das STTS (Schiller et al.
935 2022] 869 1999). [Andresen 2022]
936 [48]Diese Schritte werden im Folgenden am Beispiel der Analyse der Verwendung des 870 [48]Diese Schritte werden im Folgenden am Beispiel der Analyse der Verwendung des
939 Überprüfung und Re-Validierung der Analyseresultate vonnöten sind. 873 Überprüfung und Re-Validierung der Analyseresultate vonnöten sind.
940 [49]Tabelle 1 zeigt das Ranking der 15 874 [49]Tabelle 1 zeigt das Ranking
941 distinktivsten Wortarten für den Vergleich von Philosophie und 875 der 15 distinktivsten Wortarten für den Vergleich von Philosophie und
942 Literaturwissenschaft. Während sich aus diesen Ergebnissen zahlreiche relevante 876 Literaturwissenschaft. Während sich aus diesen Ergebnissen zahlreiche relevante
953 Stichprobe von 100 Sätzen, in denen wir verwendet 887 Stichprobe von 100 Sätzen, in denen wir verwendet
954 wird, nach dem Zufallsprinzip ausgewählt und manuell in Bezug auf ihre Funktion 888 wird, nach dem Zufallsprinzip ausgewählt und manuell klassifiziert. Dabei wurde
955 klassifiziert. Dabei wurde auf die Klassifikation von wir-Verwendungen im deutschsprachigen akademischen Diskurs von 889 auf die Klassifikation von wir-Verwendungen im
956 Kresta[42] zurückgegriffen. Kresta 890 deutschsprachigen akademischen Diskurs von Kresta[32]
957 unterscheidet vier Gebrauchsweisen von wir in 891 zurückgegriffen. Kresta unterscheidet vier Gebrauchsweisen von wir in deutschsprachigen akademischen Texten: Das
958 deutschsprachigen akademischen Texten: Das Pronomen wird verwendet, 892 Pronomen wird verwendet,
959 a.) um auf die tatsächlichen Verfasser*innen eines Textes zu verweisen 893 a.) um auf die tatsächlichen Verfasser*innen eines Textes zu verweisen
967 901
968 [50]Die Stichproben zeigen (vgl. Tabelle 902 [50]Die Stichproben zeigen (vgl. Tabelle 2) in den Texten fachspezifische Muster der wir-Verwendungen: So sind sich die
969 2) in den Texten fachspezifische Muster der wir-Verwendungen: So sind sich die literaturwissenschaftlichen und 903 literaturwissenschaftlichen und philosophischen Texte darin ähnlich, dass in
970 philosophischen Texte darin ähnlich, dass in beiden Gruppen die Verwendung des 904 beiden Gruppen die Verwendung des Gemeinschafts-wir
971 Gemeinschafts-wir dominiert, während in den 905 dominiert, während in den linguistischen Aufsätzen die Verwendung des
972 linguistischen Aufsätzen die Verwendung des Autor*innen-wir vorherrscht. Die Dominanz des Autor*innen-wir in der Linguistik lässt sich dadurch erklären, dass die Texte 906 Autor*innen-wir vorherrscht. Die Dominanz des
973 tatsächlich mehrheitlich von mehreren Autor*innen verfasst wurden (siehe 907 Autor*innen-wir in der Linguistik lässt sich
974 Beispiel 1). Diese Praxis scheint in der Linguistik weitaus üblicher zu sein 908 dadurch erklären, dass die Texte tatsächlich mehrheitlich von mehreren
975 als in den anderen beiden Fächern. Die Ähnlichkeit von Philosophie und 909 Autor*innen verfasst wurden (siehe Beispiel 1). Diese Praxis scheint in der
976 Literaturwissenschaft in ihrer Verwendung des Gemeinschafts-wir mag hingegen verwundern, da die beiden Fächer häufig ihre 910 Linguistik weitaus üblicher zu sein als in den anderen beiden Fächern. Die
977 formal-sprachlichen Unterschiede betonen. Insbesondere in der Philosophie dient 911 Ähnlichkeit von Philosophie und Literaturwissenschaft in ihrer Verwendung des
978 die Kennzeichnung eines philosophischen Ansatzes als ›literarisch‹ oft der 912 Gemeinschafts-wir mag hingegen verwundern, da die
979 Kritik am philosophischen Gehalt desselben.[43] Eine Auswertung der konkreten Belegstellen 913 beiden Fächer häufig ihre formal-sprachlichen Unterschiede betonen.
980 zeigt jedoch, dass es sich in den beiden Fächern um unterschiedlich geartete 914 Insbesondere in der Philosophie dient die Kennzeichnung eines philosophischen
981 Manifestationen des Gemeinschafts-wir handelt, die 915 Ansatzes als ›literarisch‹ oft der Kritik am philosophischen Gehalt
982 man wiederum mit landläufigen Kennzeichen der beiden Fächer in Verbindung 916 desselben.[33] Eine Auswertung der konkreten
983 bringen kann: So dominiert in der Stichprobe aus der Philosophie ein Gebrauch 917 Belegstellen zeigt jedoch, dass es sich in den beiden Fächern um
984 des Gemeinschafts-wir, der letztendlich auf die 918 unterschiedlich geartete Manifestationen des Gemeinschafts-wir handelt, die man wiederum mit landläufigen Kennzeichen der
985 grundlegenden Bedingungen des menschlichen Denkens und Handelns abzielt, wie 919 beiden Fächer in Verbindung bringen kann: So dominiert in der Stichprobe aus
986 das Beispiel 2 belegt. In der Stichprobe aus der Literaturwissenschaft, deren 920 der Philosophie ein Gebrauch des Gemeinschafts-wir
987 zentralen Tätigkeiten die Lektüre und Interpretation von Texten sind, wird in 921 der letztendlich auf die grundlegenden Bedingungen des menschlichen Denkens und
988 31 der 54 Verwendungen des Gemeinschafts-wir genau 922 Handelns abzielt, wie das Beispiel 2 belegt. In der Stichprobe aus der
989 auf jene Praxis verwiesen, indem eine Art ›ideale*r Leser*in‹ konstituiert wird 923 Literaturwissenschaft, deren zentralen Tätigkeiten die Lektüre und
990 (siehe Beispiel 3), weswegen in diesem Fall auch vom Leser*innen-wir gesprochen werden kann. 924 Interpretation von Texten sind, wird in 31 der 54 Verwendungen des
925 Gemeinschafts-wir genau auf jene Praxis
926 verwiesen, indem eine Art ›ideale*r Leser*in‹ konstituiert wird (siehe Beispiel
927 3), weswegen in diesem Fall auch vom Leser*innen-wir
928 gesprochen werden kann.
991 929
1036 974
1037 Tab. 2: Manuelle Kategorisierung der 975 Tab. 2: Manuelle Kategorisierung
1038 wir-Verwendung in einer Stichprobe von 100 976 der wir-Verwendung in einer Stichprobe von 100 Instanzen pro Disziplin. [Pichler 2022]
1039 Instanzen pro Disziplin. [Pichler 2022]
1040 [51]Folgende Textausschnitte sollen als Beispiele für die nach Fachrichtung 977 [51]Folgende Textausschnitte sollen als Beispiele für die nach Fachrichtung
1059 unterschiedlichen Phasen der Analyse verbunden sind: Für die datengeleitete 996 unterschiedlichen Phasen der Analyse verbunden sind: Für die datengeleitete
1060 Ermittlung distinktiver Merkmale ist es für Nachnutzer*innen oder 997 Ermittlung distinktiver Merkmale ist es ausreichend, wenn die Texte nur in Form
1061 Gutachter*innen ausreichend, wenn ihnen die Texte nur in Form von 998 von n-Gramm-Frequenzen, also in einem abgeleiteten Format, vorliegen. Auf der
1062 n-Gramm-Frequenzen, also in einem abgeleiteten Format, vorliegen. Auf der
1063 Grundlage von z. B. Wortartenfrequenzen kann dieser Teil der Analyse direkt 999 Grundlage von z. B. Wortartenfrequenzen kann dieser Teil der Analyse direkt
1064 reproduziert werden.[44] Außerdem ist es etwa 1000 reproduziert werden.[34] Außerdem ist es etwa
1065 möglich, die distinktiven Merkmale auf den gleichen Daten mithilfe anderer 1001 möglich, die distinktiven Merkmale auf den gleichen Daten mithilfe anderer
1071 Textformate gedeckt. 1007 Textformate gedeckt.
1072 [53]Geht es hingegen um eine Interpretation der Daten, welche auf semantische und 1008 [53]Geht es hingegen um die Interpretation der Daten, reichen Frequenzinformationen
1073 pragmatische Dimensionen abzielt, reichen Frequenzinformationen nicht mehr aus, 1009 nicht mehr aus. Um das Phänomen zu verstehen und gegebenenfalls erklären zu
1074 um das Vorgehen in der Studie im Rahmen eines Gutachten zu bewerten oder eigene 1010 können, ist es notwendig, konkrete Verwendungen im Korpus mitsamt ihrem Kontext
1075 Schlüsse aus den Daten zu ziehen. Um konkrete (semantische oder pragmatische) 1011 zu sichten. Die notwendige Kontextgröße hängt dabei von der Natur des
1076 Phänomene, wie zum Beispiel in Hinblick auf den Gebrauch von wir, zu verstehen 1012 untersuchten Phänomens ab. Für die wir-Analyse
1077 und gegebenenfalls erklären zu können, ist es notwendig, konkrete Verwendungen 1013 wurden pro Fach 100 zufällige Sätze untersucht. Ein zumindest
1078 im Korpus mitsamt ihrem Kontext zu sichten. Die notwendige Kontextgröße hängt 1014 stichprobenartiger Zugriff auf Volltextdaten, wie er durch den XSample-Ansatz
1079 dabei von der Natur des untersuchten Phänomens ab. Für die wir-Analyse wurden pro Fach 100 zufällige Sätze untersucht. Ein 1015 ermöglicht wird, ist zentral, um geisteswissenschaftlich fundierte Aussagen
1080 zumindest stichprobenartiger Zugriff auf Volltextdaten, wie er durch den 1016 treffen und nachvollziehbar machen zu können.
1081 XSample-Ansatz ermöglicht wird, ist zentral, um geisteswissenschaftlich
1082 fundierte Aussagen treffen und nachvollziehbar machen zu können.
1083 1017
1090 unzutreffende, zweifelhafte oder in relevanter Hinsicht unvollständige Aussagen 1024 unzutreffende, zweifelhafte oder in relevanter Hinsicht unvollständige Aussagen
1091 über die Fakten oder Ereignisse der erzählten Welt tätigt.[45] 1025 über die Fakten oder Ereignisse der erzählten Welt tätigt.[35]
1092 [55]Im Gegensatz zum ersten Anwendungsfall handelt es sich beim zweiten nicht um 1026 [55]Im Gegensatz zum ersten Anwendungsfall handelt es sich beim zweiten nicht um
1097 Erzählen gilt in der Literaturwissenschaft einerseits als stark 1031 Erzählen gilt in der Literaturwissenschaft einerseits als stark
1098 interpretationsabhängiges Phänomen,[46] andererseits listet die Forschung zahlreiche 1032 interpretationsabhängiges Phänomen,[36] andererseits listet die Forschung zahlreiche
1099 sprachliche Indikatoren, die auf unzuverlässiges Erzählen hinweisen 1033 sprachliche Indikatoren, die auf unzuverlässiges Erzählen hinweisen
1100 können.[47] Leser*innen können solche Merkmale – unter Rückgriff auf 1034 können.[37]
1101 allgemeines Weltwissen sowie literarische und literaturwissenschaftliche 1035 Leser*innen können solche Merkmale – unter Rückgriff auf allgemeines Weltwissen
1102 Kontexte – zum Anlass nehmen, der Erzählinstanz eines fiktionalen Textes 1036 sowie literarische und literaturwissenschaftliche Kontexte – zum Anlass nehmen,
1103 Unzuverlässigkeit zuzuschreiben. In diesem Rahmen entwickeln sie eine 1037 der Erzählinstanz eines fiktionalen Textes Unzuverlässigkeit zuzuschreiben. In
1104 inhaltsspezifizierende Interpretation[48] des Textes, d. h. sie bilden Annahmen darüber, was in der 1038 diesem Rahmen entwickeln sie eine inhaltsspezifizierende Interpretation[38] des Textes, d. h. sie
1105 fiktiven Welt des Textes wahr und was falsch ist. 1039 bilden Annahmen darüber, was in der fiktiven Welt des Textes wahr und was
1040 falsch ist.
1106 [56]Um die Schluss- und Argumentationsprozesse bei der Feststellung bzw. 1041 [56]Um die Schluss- und Argumentationsprozesse bei der Feststellung bzw.
1123 angewandt. Für die Teilfragen (1) und (2) werden automatische Verfahren zur 1058 angewandt. Für die Teilfragen (1) und (2) werden automatische Verfahren zur
1124 Erkennung von Named Entities[49] und Redewiedergabe[50] verwendet, zusätzlich wurden Koreferenzen 1059 Erkennung von Named Entities[39] und Redewiedergabe[40] verwendet, zusätzlich wurden Koreferenzen
1125 exemplarisch manuell annotiert. Für Fragen (3) und (4) muss – wie es bei der 1060 exemplarisch manuell annotiert. Für Fragen (3) und (4) muss – wie es bei der
1127 zunächst ein eigenes Annotationsschema entwickelt werden, das dann im Rahmen 1062 zunächst ein eigenes Annotationsschema entwickelt werden, das dann im Rahmen
1128 manueller Annotation auf die Texte angewandt wird.[51] Für Frage (5) 1063 manueller Annotation auf die Texte angewandt wird.[41] Für Frage (5)
1129 wird exemplarisch eine Indikatorengruppe aus der Unzuverlässigkeitsforschung in 1064 wird exemplarisch eine Indikatorengruppe aus der Unzuverlässigkeitsforschung in
1130 den Fokus genommen: die Verwendung emotionaler bzw. wertender Sprache, für 1065 den Fokus genommen: die Verwendung emotionaler bzw. wertender Sprache, für
1131 deren Erkennung eine Kombination aus automatischer Sentimentanalyse[52] und manueller Emotionsanalyse 1066 deren Erkennung eine Kombination aus automatischer Sentimentanalyse[42] und manueller Emotionsanalyse
1132 eingesetzt wird. 1067 eingesetzt wird.
1135 der Operationalisierung literaturwissenschaftlicher Forschungsfragen als auch 1070 der Operationalisierung literaturwissenschaftlicher Forschungsfragen als auch
1136 technisch im Hinblick auf die Anpassung oder Neuentwicklung von Tools.[53] Deswegen kann es bei der Auswertung der 1071 technisch im Hinblick auf die Anpassung oder Neuentwicklung von Tools.[43] Deswegen kann
1137 Pilotstudie noch nicht darum gehen, die übergeordnete Forschungsfrage zu den 1072 es bei der Auswertung der Pilotstudie noch nicht darum gehen, die übergeordnete
1138 Schluss- und Argumentationsprozessen bei der Feststellung unzuverlässigen 1073 Forschungsfrage zu den Schluss- und Argumentationsprozessen bei der
1139 Erzählens zu beantworten. Dennoch kann ein Einblick in die Daten bereits in 1074 Feststellung unzuverlässigen Erzählens zu beantworten. Dennoch kann ein
1140 diesem Zwischenstadium aufschlussreich sein. Generell ist Forschung im Bereich 1075 Einblick in die Daten bereits in diesem Zwischenstadium aufschlussreich sein.
1141 der Digital Humanities (und besonders im Bereich der Computational Literary Studies) stärker als in den traditionellen 1076 Generell ist Forschung im Bereich der Digital Humanities (und besonders im
1142 Geisteswissenschaften durch »Prozessualität, Vorläufigkeit und 1077 Bereich der Computational Literary Studies) stärker als
1143 ›Nichtwissen‹«[54] gekennzeichnet. Dies lässt sich durchaus als Stärke 1078 in den traditionellen Geisteswissenschaften durch »Prozessualität,
1144 dieser Ansätze verstehen, weil dadurch die Zwischenschritte der Forschung und 1079 Vorläufigkeit und ›Nichtwissen‹«[44] gekennzeichnet. Dies lässt sich
1145 Entwicklung dokumentiert (und damit durch Dritte einsehbar) werden, die in 1080 durchaus als Stärke dieser Ansätze verstehen, weil dadurch die Zwischenschritte
1146 nicht-digitalen literaturwissenschaftlichen Zugängen oft implizit bleiben. 1081 der Forschung und Entwicklung dokumentiert (und damit durch Dritte einsehbar)
1082 werden, die in nicht-digitalen literaturwissenschaftlichen Zugängen oft
1083 implizit bleiben.
1147 [59]Beim zweiten Nutzungsszenario dient eine Einsicht in die Daten durch Dritte 1084 [59]Beim zweiten Nutzungsszenario dient eine Einsicht in die Daten durch Dritte
1162 mittels abgeleiteter Textformate (z. B. bestimmter tokenbasierter 1099 mittels abgeleiteter Textformate (z. B. bestimmter tokenbasierter
1163 Formate[55]) 1100 Formate[45]) geprüft
1164 geprüft werden. Zusätzlich können Nachnutzer*nnen sich damit ebenfalls einen 1101 werden. Zusätzlich können Nachnutzer*innen sich damit ebenfalls einen ersten
1165 ersten Eindruck hinsichtlich der im jeweiligen Text auftretenden Figuren 1102 Eindruck hinsichtlich der im jeweiligen Text auftretenden Figuren
1166 verschaffen.[56] 1103 verschaffen.[46]
1167 Automatische Sentimentanalyse: Um zu beurteilen, ob 1104 Automatische Sentimentanalyse: Um zu beurteilen, ob
1195 Analyse sind oft langwierige Prozesse und benötigen im Rahmen von manueller 1132 Analyse sind oft langwierige Prozesse und benötigen im Rahmen von manueller
1196 (und meist kollaborativer) Annotation häufig mehrere Durchläufe.[57] Im Rahmen 1133 (und meist kollaborativer) Annotation häufig mehrere Durchläufe.[47] Im Rahmen
1197 des zweiten Nutzungsszenarios hat ein erster dieser Durchläufe 1134 des zweiten Nutzungsszenarios hat ein erster dieser Durchläufe
1232 eines generischen Tagsets für diese Annotationsaufgabe wünschenswert, in dem 1169 eines generischen Tagsets für diese Annotationsaufgabe wünschenswert, in dem
1233 beispielsweise Propositionen in Typen (z. B. in singular, particularized und general) unterteilt und verschiedene Rollen der 1170 beispielsweise Propositionen in Typen (z. B. in singular, particularized und general) unterteilt und verschiedene Rollen der Propositionen im Rahmen von Argumenten (Prämisse und
1234 Propositionen im Rahmen von Argumenten (Prämisse und Konklusion) 1171 Konklusion) unterschieden werden.
1235 unterschieden werden. Deshalb ist zu erwarten, dass sich die 1172 Deshalb ist zu erwarten, dass sich die Annotationskategorien und
1236 Annotationskategorien und Anwendungsrichtlinien noch erheblich verändern 1173 Anwendungsrichtlinien noch erheblich verändern werden. Aus diesem Grund kann
1237 werden. Aus diesem Grund kann der Nachvollzug der einzelnen 1174 der Nachvollzug der einzelnen Operationalisierungsschritte durch Dritte von
1238 Operationalisierungsschritte durch Dritte von besonderer Bedeutung sein. 1175 besonderer Bedeutung sein. Dieser wird wieder durch Zugriff auf
1239 Dieser wird wieder durch Zugriff auf Annotationskategorien / 1176 Annotationskategorien / Anwendungsrichtlinien im Manifest sowie (mindestens)
1240 Anwendungsrichtlinien im Manifest sowie (mindestens) zusammenhängende 1177 zusammenhängende Textabschnitte ermöglicht. An dieser Stelle tritt ein
1241 Textabschnitte ermöglicht. An dieser Stelle tritt ein weiterer Unterschied 1178 weiterer Unterschied zur manuellen Emotionsanalyse zutage: Während bei der
1242 zur manuellen Emotionsanalyse zutage: Während bei der Emotionsanalyse anhand 1179 Emotionsanalyse anhand sprachlicher Indikatoren vornehmlich einzelne Wörter
1243 sprachlicher Indikatoren vornehmlich einzelne Wörter annotiert werden, 1180 annotiert werden, betrifft die Annotation bei der Analyse in Frage stehender Propositionen mindestens Teilsätze. Tokenbasierte abgeleitete Textformate sind
1244 betrifft die Annotation bei der Analyse in Frage stehender Propositionen 1181 deswegen weder für den Nachvollzug der Kategorienentwicklung oder der
1245 mindestens Teilsätze. Tokenbasierte abgeleitete Textformate sind deswegen
1246 weder für den Nachvollzug der Kategorienentwicklung oder der
1247 Annotationsentscheidungen noch für einen ersten Einblick in die Ergebnisse 1182 Annotationsentscheidungen noch für einen ersten Einblick in die Ergebnisse
1268 Anwendungsfälle deutlich stärker annähert als abgeleitete Textformate und 1203 Anwendungsfälle deutlich stärker annähert als abgeleitete Textformate und
1269 Forschenden eine Möglichkeit bietet, (auch) an urheberrechtlich geschützten 1204 Forschenden eine Möglichkeit bietet, (auch) an urheberrechtlich geschützten Texten solch komplexe literarische
1270 Texten solch komplexe literarische Phänomene zu untersuchen. 1205 Phänomene zu untersuchen.
1271 1206
1294 die Nützlichkeit dieses Ansatzes für das individuelle Forschungsvorhaben zu 1229 die Nützlichkeit dieses Ansatzes für das individuelle Forschungsvorhaben zu
1295 maximieren, ermöglicht der XSample-Workflow den Nutzer*nnen, Textauszüge flexibel 1230 maximieren, ermöglicht der XSample-Workflow den Nutzer*innen, Textauszüge flexibel
1296 anhand von Suchanfragen an den Text und seine Annotationen auszuwählen. 1231 anhand von Suchanfragen an den Text und seine Annotationen auszuwählen.
1358 [1] 1293 [1]
1359 Die Namen der Autor*innen sind in 1294 Die Namen der Autor*innen sind in den
1360 den Verfasserangaben alphabetisch aufgelistet. Im Projekt befanden sich 1295 Verfasserangaben alphabetisch aufgelistet. Im Projekt befanden sich juristische
1361 juristische Fragestellungen im Arbeitsschwerpunkt von Felicitas Kleinkopf; 1296 Fragestellungen im Arbeitsschwerpunkt von Felicitas Kleinkopf; Markus Gärtner
1362 Markus Gärtner befasste sich mit der technischen Umsetzung der Infrastruktur; 1297 befasste sich mit der technischen Umsetzung der Infrastruktur; das erste
1363 das erste Nutzungsszenario wurde von Melanie Andresen und Axel Pichler, das 1298 Nutzungsszenario wurde von Melanie Andresen und Axel Pichler, das zweite von
1364 zweite von Janina Jacke und Nora Ketschik bearbeitet; Sibylle Hermann 1299 Janina Jacke und Nora Ketschik bearbeitet; Sibylle Hermann koordinierte die
1365 koordinierte die Projektarbeit und die Anbindung an die bibliothekarische 1300 Projektarbeit und die Anbindung an die bibliothekarische Infrastruktur; Jonas
1366 Infrastruktur; Jonas Kuhn war für konzeptionelle Fragen verantwortlich. Die 1301 Kuhn war für konzeptionelle Fragen verantwortlich. Die textuelle Darstellung in
1367 textuelle Darstellung in diesem Artikel wurde gemeinschaftlich von den 1302 diesem Artikel wurde gemeinschaftlich von den Projektbeteiligten des XSample-Projekts, auch über die Zuständigkeitsgrenzen
1368 Projektbeteiligten des XSample-Projekts, auch über 1303 im Projekt hinweg, erstellt.
1369 die Zuständigkeitsgrenzen im Projekt hinweg, erstellt.
1370 1304
1371 [2] 1305 [2]
1372 Ähnliche Restriktionen gibt es auch in anderen Rechtsordnungen, 1306 Die FAIR-Prinzipien formulieren vier
1373 das betrifft aufgrund derselben zugrunde liegenden EU-Urheberrechts-Richtlinien 1307 zentrale Anforderungen an Forschungsdaten: Sie sollten Findable, Accessible,
1374 insbesondere die EU-Mitgliedsstaaten, während insbesondere das US-amerikanische 1308 Interoperable und Reusable sein, siehe Wilkinson et al. 2016.
1375 Copyright-Law mit der sogenannten Fair-Use-Doktrin grundsätzlich anders
1376 ausgestaltet ist. Gegenstand dieser Darstellung ist allerdings allein das
1377 deutsche Urheberrecht inklusive seiner Grundlagen aus dem Unionsrecht.
1378 1309
1379 [3] 1310 [3]
1380 Die FAIR-Prinzipien 1311 Der Schutz
1381 formulieren vier zentrale Anforderungen an Forschungsdaten: Sie sollten 1312 von Texten durch das deutsche Urheberrecht endet siebzig Jahre nach Tod der
1382 Findable, Accessible, Interoperable und Reusable sein, siehe Wilkinson et al. 1313 Autor*innen, sodass kein direkter Zusammenhang zwischen Publikationsjahr und
1383 2016. 1314 dem Ende des urheberrechtlichen Schutzes besteht.
1384 1315
1385 [4] 1316 [4]
1386 Der Schutz von Texten durch das deutsche 1317 Vgl.
1387 Urheberrecht endet siebzig Jahre nach Tod der Autor*innen, sodass kein direkter 1318 Schöch et al. 2020.
1388 Zusammenhang zwischen Publikationsjahr und dem Ende des urheberrechtlichen
1389 Schutzes besteht.
1390 1319
1391 [5] 1320 [5]
1392 Vgl. 1321
1393 Schöch et al. 1322 Vgl. Jockers 2013.
1394 2020.
1395 1323
1396 [6] 1324 [6]
1397 Vgl. Jockers 2013.
1398
1399
1400 [7]
1401 Unter TDM versteht 1325 Unter TDM versteht
1403 digitalen oder digitalisierten Werken, um daraus Informationen insbesondere 1327 digitalen oder digitalisierten Werken, um daraus Informationen insbesondere
1404 über Muster, Trends und Korrelationen zu gewinnen« (§§ 44b Abs. 1328 über Muster, Trends und Korrelationen zu gewinnen« (§§ 44b Abs. 1,
1405 1, 60d Abs. 1 UrhG). Unterschieden wird rechtlich zwischen der 1329 60d Abs. 1 UrhG). Unterschieden wird rechtlich zwischen der eigentlichen
1406 eigentlichen automatisierten Analyse, die urheberrechtlich freigestellt ist, 1330 automatisierten Analyse, die urheberrechtlich freigestellt ist, und den dafür
1407 und den dafür notwendigen Vorbereitungsschritten, die wiederum urheberrechtlich 1331 notwendigen Vorbereitungsschritten, die wiederum urheberrechtlich relevant
1408 relevant sind. Unter das gesetzgeberische Verständnis von TDM kann ein Großteil 1332 sind. Unter das gesetzgeberische Verständnis von TDM kann ein Großteil
1409 textbasierter Forschung gefasst werden, auch wenn die Forscher*innen ihre 1333 textbasierter Forschung gefasst werden, auch wenn die Forscher*innen ihre
1412 1336
1413 [8] 1337 [7]
1414 1338
1415 Einen umfassenderen Überblick über die Detailfragen des Forschungsprozesses 1339 Einen umfassenderen Überblick über die Detailfragen des Forschungsprozesses
1416 bieten zum alten Recht Dreier / Schulze 2018, § 60d; Kleinkopf et al. 2021; vorwiegend auch 1340 bieten zum alten Recht Dreier / Schulze 2018, § 60d;
1417 Schöch et al. 1341 Kleinkopf et al. 2021;
1418 2020, Absatz 5–14; zu § 60d in seiner neuen Fassung, vgl. Dreier in Dreier / Schulze 1342 vorwiegend auch Schöch et al. 2020, Randnummer 5–14; zu § 60d in seiner neuen Fassung,
1419 2022, § 44b und § 60d; Raue 2021; Kleinkopf / Pflüger 2021, S. 645–647; 1343 vgl. Dreier in Dreier / Schulze 2022, § 44b und § 60d;
1420 eine Betrachtung auf EU-Ebene bieten Gärtner et al. 2021, S. 11–13. Vgl. 1344 Raue 2021;
1421 auch Kleinkopf 1345 Kleinkopf / Pflüger 2021, S. 645–647;
1422 2022. 1346 eine Betrachtung auf EU-Ebene bieten
1347 Gärtner et
1348 al. 2021, S. 11–13.
1423 1349
1424 [9] 1350 [8]
1425 Erlaubnisnormen werden im 1351 Erlaubnisnormen werden im
1428 1354
1355 [9]
1356 Bundesgesetzblatt Jahrgang
1357 2021 Teil I Nr. 27, ausgegeben zu Bonn am 4. Juni 2021.
1358
1429 [10] 1359 [10]
1430 Bundesgesetzblatt 1360 Vertraglich oder technisch darf das TDM im
1431 Jahrgang 2021 Teil I Nr. 27, ausgegeben zu Bonn am 4. Juni 2021. 1361 Rahmen wissenschaftlicher Zwecke (§ 60d UrhG) auch im Grundsatz nicht
1362 ausgeschlossen werden (§ 60g Abs. 1, 95b Abs. 1, 3 UrhG). Etwas anderes gilt
1363 für kommerzielles TDM im Rahmen des § 44b UrhG oder für die Sicherung der
1364 Funktionsfähigkeit technischer Systeme (§ 60d Abs. 6 UrhG).
1432 1365
1433 [11] 1366 [11]
1434 In diesen kommerziellen Kontexten dürfen 1367 Dreier in Dreier /
1435 für das TDM Werke vervielfältigt werden (§ 44b Abs. 2 S. 1 UrhG), diese 1368 Schulze 2022, § 15 Randnummer 38 mit Verweis auf den EuGH.
1436 müssen aber gelöscht werden, wenn sie für das TDM nicht mehr erforderlich
1437 sind (§ 44b Abs. 2 S. 2 UrhG). Zudem können Rechteinhaber*innen an ihren
1438 Werken (maschinenlesbare) Nutzungsvorbehalte anbringen, die von denjenigen,
1439 die auf Grundlage des § 44b UrhG TDM betreiben, ab dem Zeitpunkt ihrer
1440 Erklärung beachtet werden müssen (§ 44b Abs. 3 S. 1, 2 UrhG). Im Rahmen des
1441 § 44b UrhG ist nicht erlaubt, Werke oder Werkteile öffentlich zugänglich zu
1442 machen, auch nicht an bestimmt abgegrenzte Personenkreise. Aufgrund der
1443 Löschpflicht dürfen die erstellten Korpora auch nicht längerfristig
1444 aufbewahrt werden. Für wissenschaftliche Zwecke ist es deswegen unbedingt
1445 notwendig, sich auf § 60d UrhG berufen zu können.
1446 1369
1447 [12] 1370 [12]
1448 Vertraglich oder technisch darf das TDM im Rahmen 1371 Vgl. Raue 2021, S. 799.
1449 wissenschaftlicher Zwecke (§ 60d UrhG) auch im Grundsatz nicht
1450 ausgeschlossen werden (§§ 60g Abs.
1451 1, 95b Abs. 1, 3 UrhG). Etwas anderes gilt für kommerzielles TDM im
1452 Rahmen des § 44b UrhG oder für die Sicherung der Funktionsfähigkeit
1453 technischer Systeme (§ 60d Abs. 6 UrhG).
1454 1372
1455 [13] 1373 [13]
1456 Vgl. zum genauen Verständnis der 1374 Vgl. Leitlinien zur Sicherung der guten wissenschaftlichen Praxis,
1457 nicht-kommerziellen Zwecke die Ausführungen in Absatz 19. 1375 Deutsche Forschungsgemeinschaft 2019,
1376 Leitlinie 17.
1458 1377
1459 [14] 1378 [14]
1460 Dreier in Dreier / Schulze 1379 Vgl. Raue 2021, S. 799.
1461 2022, § 15 Randnummer 38 mit Verweis auf den EuGH.
1462 1380
1463 [15] 1381 [15]
1464 Vgl. Raue 2021, S. 799. 1382 Vgl. Kleinkopf / Pflüger 2021, S. 647.
1465 1383
1466 [16] 1384 [16]
1467 Vgl. Leitlinien zur Sicherung der guten 1385 Bundestagsdrucksache 19/27426, S. 97.
1468 wissenschaftlichen Praxis, Deutsche Forschungsgemeinschaft 2019,
1469 Leitlinie 17.
1470 1386
1471 [17] 1387 [17]
1472 Vgl. Raue 2021, S. 799.
1473
1474 [18]
1475 Vgl. Kleinkopf / Pflüger 2021, S.
1476 647.
1477
1478 [19]
1479 Bundestagsdrucksache 19/27426, S. 97.
1480
1481 [20]
1482 Etwas anderes kann gelten, wenn die Ursprungsdaten 1388 Etwas anderes kann gelten, wenn die Ursprungsdaten
1484 1390
1485 [21] 1391 [18]
1486 Vgl. Kleinkopf / Pflüger 1392 Vgl.
1487 2021, S. 647. 1393 Kleinkopf / Pflüger 2021, S. 647.
1488 1394
1489 [22] 1395 [19]
1490 Erwägungsgrund 15 S. 5 DSM-Richtlinie. 1396 Erwägungsgrund 15 S. 5 DSM-Richtlinie.
1491 1397
1492 [23] 1398 [20]
1493 Vgl. Schöch et al. 2020, Absatz 1399 Vgl. Schöch et al. 2020, Randnummer 4 f.
1494 4f.
1495 1400
1496 [24] 1401 [21]
1497 Der Terminus ›Anschlusskopie‹ meint, dass sich die 1402 Der Terminus ›Anschlusskopie‹ meint, dass sich die
1502 1407
1503 [25] 1408 [22]
1504 Unter ›geringem Umfang‹ werden gemeinhin 25 1409 Unter ›geringem Umfang‹ werden gemeinhin 25
1505 Seiten verstanden, vgl. Dreier in Dreier / Schulze 2022, § 60c Randnummer 1410 Seiten verstanden, vgl. Dreier in Dreier / Schulze 2022, § 60c Randnummer 15,
1506 15, § 60a Randnummer 22; Bundestagsdrucksache 18/12329, S. 35. 1411 § 60a Randnummer 22; Bundestagsdrucksache 18/12329, S. 35.
1507 1412
1508 [26] 1413 [23]
1509 Vgl. Schöch et al. 2020, Absatz 1414 Vgl. Schöch et al. 2020, Randnummer 5.
1510 5.
1511 1415
1512 [27] 1416 [24]
1513 Das entspräche einer Einstellung in ein 1417 Das entspräche einer Einstellung in ein
1514 Universitäts-Intranet, diese ist jedoch gerade nicht erlaubt, vgl. Dreier in 1418 Universitäts-Intranet, diese ist jedoch gerade nicht erlaubt, vgl. Dreier in
1515 Dreier / Schulze 1419 Dreier / Schulze 2022, § 60c Randnummer 9; Bundestagsdrucksache 15 / 837, S. 34.
1516 2022, § 60c Randnummer 9; Bundestagsdrucksache 15 / 837, S. 34.
1517 1420
1518 [28] 1421 [25]
1519 Vgl. Dreier in Dreier / Schulze
1520 2022, § 60c Randnummer 6 mit Verweis auf die Gesetzesbegründung,
1521 Bundestagsdrucksache 18/12329, S. 39.
1522
1523 [29]
1524 Vgl. Dreier in Dreier / Schulze
1525 2022, § 60a Randnummer 7.
1526
1527 [30]
1528 Nach 1422 Nach
1529 der DSM-Richtlinie ist es zulässig, weitere Nutzungen der TDM-Korpora 1423 der DSM-Richtlinie ist es zulässig, weitere Nutzungen der TDM-Korpora auf
1530 auf die ältere InfoSoc-Richtlinie zu stützen, das besagt zum einen 1424 die ältere InfoSoc-Richtlinie zu stützen, das besagt zum einen
1531 Erwägungsgrund 15 S. 5 und zum anderen Art. 24 Abs. 2, 25 DSM-Richtlinie. 1425 Erwägungsgrund 15 S. 5 und zum anderen Art. 24 Abs. 2, 25 DSM-RL. Auch die
1532 Auch die Rechtsprechung hat bereits in der Vergangenheit urheberrechtliche 1426 Rechtsprechung hat bereits in der Vergangenheit urheberrechtliche
1533 Erlaubnisnormen miteinander kombiniert, wenn ihre jeweiligen Voraussetzungen 1427 Erlaubnisnormen miteinander kombiniert, wenn ihre jeweiligen Voraussetzungen
1537 1431
1538 [31] 1432 [26]
1539 Leitlinien zur Sicherung der 1433 Leitlinien zur Sicherung
1540 guten wissenschaftlichen Praxis, Deutsche Forschungsgemeinschaft 2019, 1434 der guten wissenschaftlichen Praxis, Deutsche Forschungsgemeinschaft 2019, Leitlinie 17.
1541 Leitlinie 17.
1542 1435
1543 [32] 1436 [27]
1544 Den Einrichtungen werden auch beim Kopienversand keine
1545 weitergehenden Prüfpflichten auferlegt, es sei denn, es handelt sich um
1546 offensichtliche Missbrauchsfälle, vgl. Dreier in Dreier / Schulze 2022, § 60e Randnummer
1547 17, 27, 28; Stieper in Schricker / Loewenheim 2020,
1548 § 60e Randnummer 37.
1549
1550 [33]
1551 Metainformationen wie Seitenzahlen auf der Ebene von Sätzen 1437 Metainformationen wie Seitenzahlen auf der Ebene von Sätzen
1552 oder einzelnen Worten im Text sind in etablierten Annotationsschemata oder 1438 oder einzelnen Worten im Text sind in etablierten Annotationsschemata oder
1553 Formaten in der Regel nicht vorgesehen und erfordern somit zusätzlichen 1439 Formaten in der Regel nicht vorgesehen und erfordern somit zusätzlichen Aufwand, bzw.
1554 Aufwand, bzw. spezielle Anpassungen. 1440 spezielle Anpassungen.
1555 1441
1556 [34] 1442 [28]
1557 Vgl. Gärtner 1443 Vgl. Gärtner
1559 1445
1560 [35] 1446 [29]
1561 Sofern 1447 Sofern
1563 1449
1564 [36] 1450 [30]
1565 Vgl. Krause / Zeldes 2016.
1566
1567 [37]
1568 Vgl. Diewald et al. 2106.
1569
1570 [38]
1571 Bei der 1451 Bei der
1573 1453
1574 [39] 1454 [31]
1575 Es handelt sich dementsprechend um eine sogenannte
1576 ›approximative Replikation‹ (Porte 2012, S. 8).
1577
1578 [40]
1579 Vgl. Andresen 2022. 1455 Vgl. Andresen 2022.
1580 1456
1581 [41] 1457 [32]
1582 Die ursprüngliche Studie (Andresen 1458 Vgl.
1583 2022) legt zusätzlich einen besonderen Schwerpunkt auf Sequenzen, 1459 Kresta 1995, S. 130–147, vgl. auch
1584 die entlang der syntaktischen Dependenzen im Satz gebildet werden. 1460 Steinhoff 2007, S. 206f.
1585 1461
1586 [42] 1462 [33]
1587 Vgl. Kresta 1995, S.130–147, 1463 Vgl. zum Beispiel Jürgen Habermas’ Kritik
1588 vgl. auch Steinhoff 2007, S. 206f. 1464 an der Einebnung des Gattungsunterschiedes zwischen
1465 Philosophie und Literatur, Habermas 1988, S. 217.
1589 1466
1590 [43] 1467 [34]
1591 Vgl. zum
1592 Beispiel Jürgen Habermas’ Kritik an der Einebnung des Gattungsunterschiedes zwischen
1593 Philosophie und Literatur, Habermas
1594 1988, S. 217.
1595
1596 [44]
1597 Der Schritt von den Originaldaten zu 1468 Der Schritt von den Originaldaten zu
1603 1474
1604 [45] 1475 [35]
1605 Vgl. Martínez 1476 Vgl. Martínez / Scheffel 2009, S. 100;
1606 / Scheffel 2009, S. 100; Kindt 2008, S. 48. 1477 Kindt 2008, S. 48.
1607 1478
1608 [46] 1479 [36]
1609 Vgl. Yacobi 1981; 1480 Vgl. Yacobi 1981;
1610 Nünning 1481 Nünning 1999.
1611 1999.
1612 1482
1613 [47] 1483 [37]
1614 Vgl. Nünning 1998; Allrath 1484 Vgl. Nünning 1998;
1615 1998. 1485 Allrath 1998.
1616 1486
1617 [48] 1487 [38]
1618 Vgl. Folde 2015, 1488 Vgl. Folde 2015, S. 366.
1619 S. 366.
1620 1489
1621 [49] 1490 [39]
1622 Verwendet wurde hier der 1491 Verwendet wurde hier der
1623 Stanford 1492 Stanford Named Entity
1624 Named Entity Recognizer. 1493 Recognizer.
1625 1494
1626 [50] 1495 [40]
1627 Für die Erkennung von direkter Rede wurde ein simpler 1496 Für die Erkennung von direkter Rede wurde ein simpler
1628 Tagger entwickelt, der auf der Identifikation von Anführungszeichen basiert; 1497 Tagger entwickelt, der auf der Identifikation von Anführungszeichen basiert;
1629 indirekte Rede wurde mithilfe eines verfügbaren Taggers 1498 indirekte Rede wurde mithilfe eines verfügbaren Taggers annotiert
1630 annotiert. Alle erzeugten Annotationen wurden anschließend gesichtet und 1499 . Alle erzeugten Annotationen wurden anschließend gesichtet und
1631 gegebenenfalls korrigiert. 1500 gegebenenfalls korrigiert.
1632 1501
1633 [51] 1502 [41]
1634 Für 1503 Für
1636 1505
1637 [52] 1506 [42]
1638 Zum Einsatz kam hier SentText, vgl. Schmidt et al. 1507 Zum Einsatz kam hier SentText, vgl. Schmidt et al. 2021.
1639 2021.
1640 1508
1641 [53]
1642 Vgl. Gius 2019; Pichler /
1643 Reiter 2021.
1644 1509
1645 [54] 1510 [43]
1646 Schruhl 1511 Vgl. Gius 2019;
1647 2018. 1512 Pichler / Reiter 2021.
1648 1513
1649 [55] 1514 [44]
1515 Schruhl 2018.
1516
1517 [45]
1650 Vgl. Schöch et al. 2020. 1518 Vgl. Schöch et al. 2020.
1651 1519
1652 [56] 1520 [46]
1653 Tatsächlich ist (auch eine eigens 1521 Tatsächlich ist (auch eine eigens
1654 trainierte) Named Entity Recognition nur in eingeschränktem Maße für die 1522 trainierte) Named Entity Recognition nur in eingeschränktem Maße für die
1655 Identifikation der relevanten Akteur*innen / Instanzen geeignet, da 1523 Identifikation der relevanten Akteur*innen / Instanzen geeignet, da gerade in
1656 gerade in potenziell unzuverlässigen Erzählungen häufig homodiegetische 1524 potenziell unzuverlässigen Erzählungen häufig homodiegetische
1657 Erzähler*innen (›Ich-Erzähler*innen‹) auftreten, auf die nicht oder 1525 Erzähler*innen (›Ich-Erzähler*innen‹) auftreten, auf die nicht oder
1659 1527
1660 [57] 1528 [47]
1661 Vgl. Gius / Jacke 2017; Reiter 2020. 1529 Vgl. Gius / Jacke 2017;
1530 Reiter 2020.
1662 1531
1669 1538
1670 Gaby Allrath: »But why will you say that I am 1539 Gaby Allrath: »But why will you say that I am mad?« Textuelle Signale für
1671 mad?« Textuelle Signale für die Ermittlung von unreliable narration. In: 1540 die Ermittlung von unreliable narration. In: Unreliable Narration. Studien zur
1672 Unreliable Narration. Studien zur Theorie und Praxis unglaubwürdigen Erzählens 1541 Theorie und Praxis unglaubwürdigen Erzählens in der englischsprachigen
1673 in der englischsprachigen Erzählliteratur. Hg. von Ansgar Nünning / Carola 1542 Erzählliteratur. Hg. von Ansgar Nünning / Carola Surkamp / Bruno Zerweck. Trier
1674 Surkamp / Bruno Zerweck. Trier 1998, S. 59–80. [Nachweis im GVK] Melanie Andresen: Datengeleitete 1543 1998, S. 59–80. [Nachweis im GVK] Melanie Andresen: Datengeleitete Sprachbeschreibung mit syntaktischen
1675 Sprachbeschreibung mit syntaktischen Annotationen. Eine Korpusanalyse am 1544 Annotationen. Eine Korpusanalyse am Beispiel der germanistischen
1676 Beispiel der germanistischen Wissenschaftssprachen. Tübingen 2022. (= 1545 Wissenschaftssprachen. Tübingen 2022. (= Korpuslinguistik und interdisziplinäre
1677 Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache (CLIP), 10). 1546 Perspektiven auf Sprache (CLIP), 10). [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz,
1678 [Nachweis im GVK] Nils Diewald / Michael Hanl / Eliza Margaretha / 1547 Verwertungsgesellschaftengesetz, Kunsturhebergesetz. Kommentar. 6. Auflage.
1679 Joachim Bingel / Marc Kupietz / Piotr Bański / Andreas Witt: KorAP 1548 München 2018. [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz,
1680 Architecture. Diving in the Deep Sea of Corpus Data In: Proceedings of the 10th 1549 Urheberrechts-Diensteanbieter-Gesetz, Verwertungsgesellschaftengesetz,
1681 International Conference on Language Resources and Evaluation (LREC 2016). Hg. 1550 Nebenurheberrecht, Kunsturheberrecht. Kommentar. 7. Auflage. München 2022.
1682 von European Language Resources Association (ELRA). (LREC 2016: Portorož, 1551 [Nachweis im GVK] Christian Folde: Grounding Interpretation. In: British Journal of Aesthetics
1683 23.–28.05.2016). Paris 2016: European Language Resources Association (ELRA), S. 1552 55 (2015), H. 3, S. 361–374. [Nachweis im GVK] Deutsche Forschungsgemeinschaft: Leitlinien zur Sicherung der guten
1684 3586–3591. PDF. [online] [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – 1553 wissenschaftlichen Praxis, Kodex, 2019. DOI: 10.5281/zenodo.6472827Markus Gärtner: The Corpus Query Middleware of Tomorrow − A Proposal for a
1685 Urheberrechtsgesetz, Verwertungsgesellschaftengesetz, Kunsturhebergesetz. 1554 Hybrid Corpus Query Architecture. In: Proceedings of the 8th Workshop on
1686 Kommentar. 6. Auflage. München 2018. [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – 1555 Challenges in the Management of Large Corpora. Hg. von Piotr Bański / Adrien
1687 Urheberrechtsgesetz, Urheberrechts-Diensteanbieter-Gesetz, 1556 Barbaresi / Simon Clematide / Marc Kupietz / Harald Lüngen / Ines Pisetta.
1688 Verwertungsgesellschaftengesetz, Nebenurheberrecht, Kunsturheberrecht. 1557 (CMLC 8, Marseille, 11.–16.05.2020) Stroudsburg, PA 2020, S. 31–39. [online] Markus Gärtner / Felicitas Kleinkopf / Melanie Andresen / Sybille Hermann:
1689 Kommentar. 7. Auflage. München 2022. [Nachweis im GVK] Christian Folde: Grounding 1558 Corpus Reusability and Copyright – Challenges and Opportunities. In:
1690 Interpretation. In: British Journal of Aesthetics 55 (2015), H. 3, S. 361–374. 1559 Proceedings of the Workshop on Challenges in the Management of Large Corpor.
1691 [Nachweis im GVK] Deutsche Forschungsgemeinschaft: Leitlinien zur 1560 Hg. von Harald Lüngen / Marc Kupietz / Piotr Bański / Adrien Barbaresi / Simon
1692 Sicherung der guten wissenschaftlichen Praxis, Kodex, 2019. DOI: 10.5281/zenodo.6472827Markus Gärtner / Katrin Schweitzer / 1561 Clematide / Ines Pisetta. (CMLC 9, Limerick, 12.07.2021) Mannheim 2021, S.
1693 Kerstin Eckart / Jonas Kuhn: Multi-modal Visualization and Search for Text and 1562 10–19. DOI: 10.14618/ids-pub-10467 [Nachweis im GVK] Evelyn Gius: Computationelle Textanalysen als fünfdimensionales Problem: Ein
1694 Prosody Annotations. In: Proceedings of the 53rd Annual Meeting of the 1563 Modell zur Beschreibung von Komplexität. In: LitLab Pamphlet 8 (2019). [online] Evelyn Gius / Janina Jacke: The Hermeneutic Profit of Annotation: On
1695 Association for Computational Linguistics and the 7th International Joint 1564 Preventing and Fostering Disagreement in Literary Analysis. In: International
1696 Conference on Natural Language Processing of the Asian Federation of Natural 1565 Journal of Humanities and Arts Computing 11 (2017), H. 2, S. 233–254. DOI: 10.3366/ijhac.2017.0194 [Nachweis im GVK] Jürgen Habermas: Der philosophische Diskurs der Moderne. Zwölf Vorlesungen.
1697 Language Processing: System Demonstrations. Hg. von Association for 1566 Frankfurt / Main 1988. (= Suhrkamp-Taschenbuch Wissenschaft, 749).
1698 Computational Linguistics. (ACL 53: Beijing, 27.–29.07.2015). Red Hook, NY 1567 [Nachweis im GVK] Matthew Lee Jockers: Macroanalysis: Digital methods and literary history.
1699 2015, S. 25–30. PDF. DOI: 10.3115/v1/P15-4005Markus Gärtner / Jonas Kuhn: A Lightweight 1568 Urbana, IL u. a. 2013. [Nachweis im GVK] Tom Kindt: Unzuverlässiges Erzählen und literarische Moderne: eine
1700 Modeling Middleware for Corpus Processing. In: Proceedings of the Eleventh 1569 Untersuchung der Romane von Ernst Weiß. Tübingen 2008. (= Studien zur deutschen
1701 International Conference on Language Resources and Evaluation. Hg. von European 1570 Literatur, 184). [Nachweis im GVK] Felicitas Kleinkopf / Janina Jacke / Markus Gärtner: Text- und Data-Mining –
1702 Language Resources Association (ELRA). (LREC 2018: Miyazaki, Mai 2018), 1571 Urheberrechtliche Grenzen der Nachnutzung wissenschaftlicher Korpora bei
1703 Miyazaki 2018, S. 1087–1095. PDF. [online]Markus Gärtner: The Corpus Query Middleware of 1572 computergestützten Verfahren und digitalen Ressourcen. In: MMR. Zeitschrift für
1704 Tomorrow − A Proposal for a Hybrid Corpus Query Architecture. In: Proceedings 1573 IT-Recht und Recht der Digitalisierung 24 (2021), H. 3, S. 196–200. DOI: 10.18419/opus-11445 [Nachweis im GVK] Felicitas Kleinkopf / Thomas Pflüger: Digitale Bildung, Wissenschaft und
1705 of the 8th Workshop on Challenges in the Management of Large Corpora. Hg. von 1574 Kultur – Welcher urheberrechtliche Reformbedarf verbleibt nach Umsetzung der
1706 Piotr Bański / Adrien Barbaresi / Simon Clematide / Marc Kupietz / Harald 1575 DSM-RL durch das Gesetz zum Urheberrecht im digitalen Binnenmarkt? In:
1707 Lüngen / Ines Pisetta. (CMLC 8, Marseille, 11.–16.05.2020) Stroudsburg, PA 1576 Zeitschrift für Urheber- und Medienrecht 56 (2021), H. 8 / 9, S. 643–655.
1708 2020, S. 31–39. [online] Markus Gärtner / Felicitas Kleinkopf / Melanie 1577 [Nachweis im GVK] Ronald Kresta: Realisierungsformen der Interpersonalität in vier
1709 Andresen / Sybille Hermann: Corpus Reusability and Copyright – Challenges and 1578 linguistischen Fachtextsorten des Englischen und des Deutschen (= Theorie und
1710 Opportunities. In: Proceedings of the Workshop on Challenges in the Management 1579 Vermittlung der Sprache, 24). Frankfurt / Main u. a. 1995. [Nachweis im GVK] Matías Martínez / Michael Scheffel: Einführung in die Erzähltheorie. 8.
1711 of Large Corpor. Hg. von Harald Lüngen / Marc Kupietz / Piotr Bański / Adrien 1580 Aufage. (= C.-H.-Beck-Studium). München 2009. [Nachweis im GVK] Ansgar Nünning: »Unreliable Narration« zur Einführung. Grundzüge einer
1712 Barbaresi / Simon Clematide / Ines Pisetta. (CMLC 9, Limerick, 12.07.2021) 1581 kognitiv-narratologischen Theorie und Analyse unglaubwürdigen Erzählens. In:
1713 Mannheim 2021, S. 10–19. DOI: 10.14618/ids-pub-10467 [Nachweis im GVK] Evelyn Gius: Computationelle Textanalysen 1582 Unreliable Narration. Studien zur Theorie und Praxis unglaubwürdigen Erzählens.
1714 als fünfdimensionales Problem: Ein Modell zur Beschreibung von Komplexität. In: 1583 Hg. von Ansgar Nünning / Bruno Zerweck / Carola Surkamp. Trier 1998, S. 3–39.
1715 LitLab Pamphlet 8 (2019). [online] Evelyn Gius / Janina Jacke: The Hermeneutic Profit 1584 [Nachweis im GVK] Ansgar Nünning: Unreliable, Compared to What? Towards a Cognitive Theory of
1716 of Annotation: On Preventing and Fostering Disagreement in Literary Analysis. 1585 »Unreliable Narration«. Prolegomena and Hypotheses. In: Grenzüberschreitungen.
1717 In: International Journal of Humanities and Arts Computing 11 (2017), H. 2, S. 1586 Narratologie im Kontext / Transcending Boundaries. Narratology in Context. Hg.
1718 233–254. DOI: 10.3366/ijhac.2017.0194 [Nachweis im GVK] Jürgen Habermas: Der philosophische Diskurs 1587 von Walter Grünzweig / Andreas Solbach. Tübingen 1999, S. 53–73. [Nachweis im GVK] Axel Pichler / Nils Reiter: Zur Operationalisierung
1719 der Moderne. Zwölf Vorlesungen. Frankfurt / Main 1988. (= Suhrkamp-Taschenbuch 1588 literaturwissenschaftlicher Begriffe in der algorithmischen Textanalyse. Eine
1720 Wissenschaft, 749). [Nachweis im GVK] Matthew Lee Jockers: Macroanalysis: Digital 1589 Annäherung über Norbert Altenhofers hermeneutische Modellinterpretation von
1721 methods and literary history. Urbana, IL u. a. 2013. [Nachweis im GVK] Tom Kindt: Unzuverlässiges Erzählen und 1590 Kleists Das Erdbeben in Chili. In: Journal of Literary Theory 15 (2021), H. 1–2, S. 1–29. [online] [Nachweis im GVK] Benjamin Raue: Die Freistellung von Datenanalysen durch die neuen Text und
1722 literarische Moderne: eine Untersuchung der Romane von Ernst Weiß. Tübingen 1591 Data Mining-Schranken. In: Zeitschrift für Urheber- und Medienrecht 56 (2021),
1723 2008. (= Studien zur deutschen Literatur, 184). [Nachweis im GVK] Felicitas Kleinkopf: Text- und Data-Mining. Die 1592 H. 10, S. 793-802. [Nachweis im GVK] Nils Reiter: Anleitung zur Erstellung von Annotationsrichtlinien. In:
1724 Anforderungen digitaler Forschungsmethoden an ein innovations- und 1593 Reflektierte algorithmische Textanalyse. Hg. von Nils Reiter / Axel Pichler /
1725 wissenschaftsfreundliches Urheberrecht. (= Schriftenreihe des Archivs für 1594 Jonas Kuhn. Berlin u. a. 2020, S. 193–202. DOI: 10.1515/9783110693973-009 [Nachweis im GVK] Richtlinie (EU) 2019/790 des Europäischen Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der Richtlinien 96/9/EG und 2001/29/EG. [online]Anne Schiller / Simone Teufel / Christine Thielen / Christine Stöckert:
1726 Urheber- und Medienrecht, 300). Baden-Baden 2022. PDF. DOI: 10.5771/9783748935360Felicitas Kleinkopf / Janina Jacke / Markus 1595 Guidelines für das Tagging deutscher Textcorpora mit STTS (kleines und großes
1727 Gärtner: Text- und Data-Mining – Urheberrechtliche Grenzen der Nachnutzung 1596 Tagset). 1999. PDF. [online]
1728 wissenschaftlicher Korpora bei computergestützten Verfahren und digitalen 1597 Christof Schöch / Frédéric Döhl / Achim Rettinger / Evelyn Gius / Peer
1729 Ressourcen. In: MMR. Zeitschrift für IT-Recht und Recht der Digitalisierung 24 1598 Trilcke / Peter Leinen / Fotis Jannidis / Maria Hinzmann / Jörg Röpke:
1730 (2021), H. 3, S. 196–200. DOI: 10.18419/opus-11445 [Nachweis im GVK] Felicitas Kleinkopf / Thomas Pflüger: 1599 Abgeleitete Textformate: Text und Data Mining mit urheberrechtlich geschützten
1731 Digitale Bildung, Wissenschaft und Kultur – Welcher urheberrechtliche 1600 Textbeständen. In: Zeitschrift für digitale Geisteswissenschaften 5 (2020).
1732 Reformbedarf verbleibt nach Umsetzung der DSM-RL durch das Gesetz zum 1601 DOI: 10.17175/2020_006Friederike Schruhl: Objektumgangsnormen in der Literaturwissenschaft. In: Wie Digitalität
1733 Urheberrecht im digitalen Binnenmarkt? In: Zeitschrift für Urheber- und 1602 die Geisteswissenschaften verändert: Neue
1734 Medienrecht 56 (2021), H. 8 / 9, S. 643–655. [Nachweis im GVK] Thomas Krause / Amir Zeldes: ANNIS3. A New 1603 Forschungsgegenstände und Methoden. Hg. von Martin Huber / Sybille Krämer. Wolfenbüttel
1735 Architecture for Generic Corpus Query and Visualization. In: Digital 1604 2018. (=
1736 Scholarship in the Humanities 31 (2016). H. 1, S. 118–139. 24.10.2014. DOI: 1605 Sonderband der Zeitschrift für digitale Geisteswissenschaften, 3) DOI: 10.17175/sb003_012Thomas Schmidt / Johanna Dangel / Christian Wolff: SentText: A Tool for
1737 10.1093/llc/fqu057Ronald Kresta: Realisierungsformen 1606 Lexicon-based Sentiment Analysis in Digital Humanities. In: Information between
1738 der Interpersonalität in vier linguistischen Fachtextsorten des Englischen und 1607 Data and Knowledge. Information Science and its Neighbors from Data Science to
1739 des Deutschen (= Theorie und Vermittlung der Sprache, 24). Frankfurt / Main u. 1608 Digital Humanities. Proceedings of the 16th International Symposium of
1740 a. 1995. [Nachweis im GVK] Matías Martínez / Michael Scheffel: 1609 Information Science. Hg. von Christian Wolff / Thomas Schmidt. (ISI 16,
1741 Einführung in die Erzähltheorie. 8. Auflage. (= C.-H.-Beck-Studium). München 1610 Regensburg, 08–10.03.202) Glückstadt 2021, S. 156–172. DOI: 10.5283/epub.44943
1742 2009. [Nachweis im GVK] Ansgar Nünning: »Unreliable Narration« zur 1611 [Nachweis im GVK] Torsten Steinhoff: Wissenschaftliche Textkompetenz: Sprachgebrauch und
1743 Einführung. Grundzüge einer kognitiv-narratologischen Theorie und Analyse 1612 Schreibentwicklung in wissenschaftlichen Texten von Studenten und Experten.
1744 unglaubwürdigen Erzählens. In: Unreliable Narration. Studien zur Theorie und 1613 Tübingen 2007. (= Reihe Germanistische Linguistik, 280) [Nachweis im GVK] Mark D. Wilkinson / Michel Dumontier / IJsbrand Jan Aalbersberg / Gabrielle Appleton / Myles Axton / Arie Baak / Niklas Blomberg / Jan-Willem Boiten / Luiz Bonino da Silva Santos / Philip E. Bourne / Jildau Bouwman / Anthony J. Brookes / Tim Clark / Mercè Crosas / Ingrid Dillo / Olivier Dumon / Scott Edmunds / Chris T. Evelo / Richard Finkers / Alejandra Gonzalez-Beltran / Alasdair J.G. Gray / Paul Groth / Carole Goble / Jeffrey S. Grethe / Jaap Heringa / Peter A.C ’t Hoen / Rob Hooft / Tobias Kuhn / Ruben Kok / Joost Kok / Scott J. Lusher / Maryann E. Martone / Albert Mons / Abel L. Packer / Bengt Persson / Philippe Rocca-Serra / Marco Roos / Rene van Schaik / Susanna-Assunta Sansone / Erik Schultes / Thierry Sengstag / Ted Slater / George Strawn / Morris A. Swertz / Mark Thompson / Johan van der Lei / Erik van Mulligen / Jan Velterop / Andra Waagmeester / Peter Wittenburg / Katherine Wolstencroft / Jun Zhao / Barend Mons: The FAIR
1745 Praxis unglaubwürdigen Erzählens. Hg. von Ansgar Nünning / Bruno Zerweck / 1614 Guiding Principles for scientific data management and stewardship. In:
1746 Carola Surkamp. Trier 1998, S. 3–39. [Nachweis im GVK] Ansgar Nünning: Unreliable, Compared to 1615 Scientific Data 3 (2016), Artikelnummer 160018. DOI: 10.1038/sdata.2016.18 [Nachweis im GVK] Tamar Yacobi: Fictional reliability as a communicative problem. In: Poetics
1747 What? Towards a Cognitive Theory of »Unreliable Narration«. Prolegomena and 1616 Today 2 (1981), H. 2, S. 113–126. [Nachweis im GVK]
1748 Hypotheses. In: Grenzüberschreitungen. Narratologie im Kontext / Transcending
1749 Boundaries. Narratology in Context. Hg. von Walter Grünzweig / Andreas Solbach.
1750 Tübingen 1999, S. 53–73. [Nachweis im GVK] Axel Pichler / Nils Reiter: Zur
1751 Operationalisierung literaturwissenschaftlicher Begriffe in der algorithmischen
1752 Textanalyse. Eine Annäherung über Norbert Altenhofers hermeneutische
1753 Modellinterpretation von Kleists Das Erdbeben in Chili. In: Journal of Literary
1754 Theory 15 (2021), H. 1–2, S. 1–29. [online] [Nachweis im GVK] Graeme Porte: Introduction. In: Replication
1755 Research in Applied Linguistics. Hg. von Graeme Porte. (= Cambridge Applied
1756 Linguistics Series). Cambridge u. a. 2012, S. 1–17.Benjamin Raue: Die Freistellung von
1757 Datenanalysen durch die neuen Text und Data Mining-Schranken. In: Zeitschrift
1758 für Urheber- und Medienrecht 56 (2021), H. 10, S. 793-802. [Nachweis im GVK] Nils Reiter: Anleitung zur Erstellung von
1759 Annotationsrichtlinien. In: Reflektierte algorithmische Textanalyse. Hg. von
1760 Nils Reiter / Axel Pichler / Jonas Kuhn. Berlin u. a. 2020, S. 193–202. DOI:
1761 10.1515/9783110693973-009 [Nachweis im GVK] Richtlinie (EU) 2019/790 des Europäischen
1762 Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die
1763 verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der
1764 Richtlinien 96/9/EG und 2001/29/EG. [online]Anne Schiller / Simone Teufel / Christine
1765 Thielen / Christine Stöckert: Guidelines für das Tagging deutscher Textcorpora
1766 mit STTS (kleines und großes Tagset). 1999. PDF: [online] Christof Schöch / Frédéric Döhl / Achim
1767 Rettinger / Evelyn Gius / Peer Trilcke / Peter Leinen / Fotis Jannidis / Maria
1768 Hinzmann / Jörg Röpke: Abgeleitete Textformate: Text und Data Mining mit
1769 urheberrechtlich geschützten Textbeständen. In: Zeitschrift für digitale
1770 Geisteswissenschaften 5 (2020). DOI: 10.17175/2020_006Urheberrecht. UrhG, KUG, VGG.
1771 Kommentar. Hg. von Gerhard Schricker / Ulrich Loewenheim / Matthias Leistner.
1772 6. neu bearbeitete Auflage. München 2020. [Nachweis im GVK] Friederike Schruhl: Objektumgangsnormen
1773 in der Literaturwissenschaft. In: Wie Digitalität die Geisteswissenschaften
1774 verändert: Neue Forschungsgegenstände und Methoden. Hg. von Martin Huber /
1775 Sybille Krämer. Wolfenbüttel 2018. (= Sonderband der Zeitschrift für digitale
1776 Geisteswissenschaften, 3) DOI: 10.17175/sb003_012Thomas Schmidt / Johanna Dangel / Christian
1777 Wolff: SentText: A Tool for Lexicon-based Sentiment Analysis in Digital
1778 Humanities. In: Information between Data and Knowledge. Information Science and
1779 its Neighbors from Data Science to Digital Humanities. Proceedings of the 16th
1780 International Symposium of Information Science. Hg. von Christian Wolff /
1781 Thomas Schmidt. (ISI 16, Regensburg, 08–10.03.202) Glückstadt 2021, S. 156–172.
1782 DOI: 10.5283/epub.44943 [Nachweis im GVK] Torsten Steinhoff: Wissenschaftliche
1783 Textkompetenz: Sprachgebrauch und Schreibentwicklung in wissenschaftlichen
1784 Texten von Studenten und Experten. Tübingen 2007. (= Reihe Germanistische
1785 Linguistik, 280) [Nachweis im GVK] Mark D. Wilkinson / Michel Dumontier / IJsbrand
1786 Jan Aalbersberg / Gabrielle Appleton / Myles Axton / Arie Baak / Niklas
1787 Blomberg / Jan-Willem Boiten / Luiz Bonino da Silva Santos / Philip E. Bourne /
1788 Jildau Bouwman / Anthony J. Brookes / Tim Clark / Mercè Crosas / Ingrid Dillo /
1789 Olivier Dumon / Scott Edmunds / Chris T. Evelo / Richard Finkers / Alejandra
1790 Gonzalez-Beltran / Alasdair J.G. Gray / Paul Groth / Carole Goble / Jeffrey S.
1791 Grethe / Jaap Heringa / Peter A.C ’t Hoen / Rob Hooft / Tobias Kuhn / Ruben Kok
1792 / Joost Kok / Scott J. Lusher / Maryann E. Martone / Albert Mons / Abel L.
1793 Packer / Bengt Persson / Philippe Rocca-Serra / Marco Roos / Rene van Schaik /
1794 Susanna-Assunta Sansone / Erik Schultes / Thierry Sengstag / Ted Slater /
1795 George Strawn / Morris A. Swertz / Mark Thompson / Johan van der Lei / Erik van
1796 Mulligen / Jan Velterop / Andra Waagmeester / Peter Wittenburg / Katherine
1797 Wolstencroft / Jun Zhao / Barend Mons: The FAIR Guiding Principles for
1798 scientific data management and stewardship. In: Scientific Data 3 (2016),
1799 Artikelnummer 160018. DOI: 10.1038/sdata.2016.18 [Nachweis im GVK] Tamar Yacobi: Fictional reliability as a
1800 communicative problem. In: Poetics Today 2 (1981), H. 2, S. 113–126. [Nachweis im GVK]
1801 1617
1810 1626
1811 Abb. 2: Dataverse-Oberfläche für ein XSample-Manifest. 1627 Abb. 2: Dataverse-Oberfläche für ein XSample-Manifest. Rechts unten kann die
1812 Rechts unten kann die Weiterleitung auf den XSample-Server angestoßen werden. 1628 Weiterleitung auf den XSample-Server angestoßen werden. [Gärtner 2021]
1813 [Gärtner
1814 2021]
1815 1629
1816 1630
1817 Abb. 3: Startseite des XSample-Servers nach Weiterleitung 1631 Abb. 3: Startseite des XSample-Servers nach Weiterleitung aus dem zugehörigen
1818 aus dem zugehörigen Dataverse und Validierung der Manifest-Datei. [Gärtner 2021] 1632 Dataverse und Validierung der Manifest-Datei. [Gärtner 2021]
1819 1633
1820 1634
1821 Abb. 4: Grafische Oberfläche zur flexiblen Auswahl der 1635 Abb. 4: Grafische Oberfläche zur flexiblen Auswahl der Auszugsgrenzen. [Gärtner 2021]
1822 Auszugsgrenzen. [Gärtner
1823 2021]
1824 1636
1825 1637
1826 Abb. 5: Exemplarische Oberfläche zur Auszugsgenerierung 1638 Abb. 5: Exemplarische Oberfläche
1827 mittels Suchanfrage basierend auf enthaltenen Annotationen. Die Verteilung der 1639 zur Auszugsgenerierung mittels Suchanfrage basierend auf enthaltenen
1828 Suchergebnisse über das Korpus wird direkt visualisiert und Nutzer*innen 1640 Annotationen. Die Verteilung der Suchergebnisse über das Korpus wird
1829 anschließend die Möglichkeit gegeben, die für sie relevanten Segmente exakt 1641 direkt visualisiert und Nutzer*innen anschließend die Möglichkeit
1830 auszuwählen. [Gärtner 1642 gegeben, die für sie relevanten Segmente exakt auszuwählen. [Gärtner 2021]
1831 2021]
1832 1643
1835 distinktivsten Wortarten für die Unterscheidung von Philosophie und 1646 distinktivsten Wortarten für die Unterscheidung von Philosophie und
1836 Literaturwissenschaft im Sinne der SVM. Das verwendete Tagset ist das STTS (Schiller et al. 1647 Literaturwissenschaft im Sinne der SVM. Das verwendete Tagset ist das STTS
1837 1999). [Andresen 2022] 1648 (Schiller et al. 1999). [Andresen 2022]
1838 1649