Versionen vergleichen | ZfdG - Zeitschrift für digitale Geisteswissenschaften

Versionen vergleichen von : Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in den digitalen Geisteswissenschaften (nach-)nutzen

Alt		Neu
17	Felicitas Kleinkopf	17	Felicitas Kleinkopf
18	Kontakt: felicitas.kleinkopf@kit.eduInstitution: Karlsruher Institut für Technologie, Institut für	18	Kontakt: felicitas.kleinkopf@kit.eduInstitution: Karlsruher Institut für Technologie, Institut für Informations- und
19	Informations- und Wirtschaftsrecht, Zentrum für Angewandte	19	Wirtschaftsrecht, Zentrum für Angewandte Rechtswissenschaft GND: 1268974757ORCID: 0000-0001-8670-2668
20	Rechtswissenschaft GND: 1268974757ORCID: 0000-0001-8670-2668
21	Jonas Kuhn	20	Jonas Kuhn
29		28
30	DOI: 10.17175/2022_007~~_v2~~	29	DOI: 10.17175/2022_007
31	Nachweis im OPAC der Herzog August Bibliothek: ~~1845597966~~	30	Nachweis im OPAC der Herzog August Bibliothek: 1816418234
32	Erstveröffentlichung: 03.11.2022	31	Erstveröffentlichung: 03.11.2022
33	Version 2.0: 22.06.2023
34	Lizenz: Sofern nicht anders angegeben	32	Lizenz: Sofern nicht anders angegeben
36		34
37	Medienlizenzen: Medienrechte liegen bei den Autor*innen	35	Medienlizenzen: Medienrechte liegen bei den Autor*innen.
38	Letzte Überprüfung aller Verweise: 06.09.2022	36	Letzte Überprüfung aller Verweise: 22.09.2022
39	GND-Verschlagwortung: Urheberrecht \| Data Mining \| Infrastruktur \| Open Science \| Digital Humanities \| Forschungsdaten \|	37	GND-Verschlagwortung: Urheberrecht \| Data Mining \| Infrastruktur \| Open Science \| Digital Humanities \| Forschungsdaten \|
40	Empfohlene Zitierweise: Melanie Andresen, Markus Gärtner, Sibylle Hermann, Janina Jacke, Nora Ketschik, Felicitas Kleinkopf, Jonas Kuhn, Axel Pichler: Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in	38	Empfohlene Zitierweise: Melanie Andresen, Markus Gärtner, Sibylle Hermann, Janina Jacke, Nora Ketschik, Felicitas Kleinkopf, Jonas Kuhn: Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in
41	den digitalen Geisteswissenschaften (nach-)nutzen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 03.11.2022. Version 2.0 vom 22.06.2023. HTML / XML / PDF. DOI: 10.17175/2022_007_v2	39	den digitalen Geisteswissenschaften (nach-)nutzen. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2022. text/html Format. DOI: 10.17175/2022_007
		40
42		41
46	Abstract	45	Abstract
47
48	Um urheberrechtlichen Einschränkungen beim Austausch zu Forschungsergebnissen	46	Um urheberrechtlichen Einschränkungen beim Austausch zu Forschungsergebnissen
73		71
74
75	Version 2.0 (22.06.2023)
76	Korrekturen in Text und Fußnoten anhand der Monita in den Gutachten. Ergänzungen in
77	der Bibliografie.
78
79
80	1. Einleitung	72	1. Einleitung
94	5. Fazit	86	5. Fazit
95	~~Bibliografische~~ Angaben	87	Bibliographische Angaben
96	Abbildungs- und Tabellenverzeichnis	88	Abbildungs- und Tabellenverzeichnis
101	[1]Die korpusorientierte Forschung an Texten und anderen Materialien in den digitalen	93	[1]Die korpusorientierte Forschung an Texten und anderen Materialien in den digitalen
102	Geisteswissenschaften[1] ist durch das	94	Geisteswissenschaften ist durch das deutsche Urheberrecht eingeschränkt, das die
103	deutsche Urheberrecht eingeschränkt, das die Weitergabe von Forschungsdaten zu	95	Weitergabe von Forschungsdaten zu geschützten Werken und deren Archivierung nur in
104	geschützten Werken und deren Archivierung nur in engen Grenzen erlaubt.[2]	96	engen Grenzen erlaubt.[1] Die Restriktionen erschweren die
105	Die Restriktionen erschweren die Einhaltung der guten wissenschaftlichen Praxis	97	Einhaltung der guten wissenschaftlichen Praxis sowie der FAIR-Prinzipien für Forschungsdateninfrastrukturen.[2] In
106	sowie der FAIR-Prinzipien für	98	vielen Projekten wird deshalb aus pragmatischen Gründen gänzlich darauf
107	Forschungsdateninfrastrukturen.[3] In vielen Projekten wird deshalb aus pragmatischen	99	verzichtet, urheberrechtlich geschützte Texte einzubeziehen. Nicht selten bedeutet
108	Gründen gänzlich darauf verzichtet, urheberrechtlich geschützte Texte	100	dies, dass zeitgenössische Texte – und mit ihnen bestimmte Fragestellungen –
109	einzubeziehen. Nicht selten bedeutet dies, dass zeitgenössische Texte – und mit	101	nahezu vollständig ausgeblendet werden (müssen).[3] Eine so weitreichende
110	ihnen bestimmte Fragestellungen – nahezu vollständig ausgeblendet werden	102	Beschneidung des Gegenstandsbereichs führt jedoch nicht nur zu Verzerrungen der
111	(müssen).[4] Eine so weitreichende Beschneidung des
112	Gegenstandsbereichs führt jedoch nicht nur zu Verzerrungen der
113	Forschungslandschaft, die aus geisteswissenschaftlich-fachlichen Gründen	103	Forschungslandschaft, die aus geisteswissenschaftlich-fachlichen Gründen
114	problematisch sind, sie hat häufig auch zur Folge, dass sich die Entwicklung	104	problematisch sind, sie hat häufig auch zur Folge, dass sich die Entwicklung
115	algorithmischer Verfahren mit sehr kleinen Datensätzen und / oder einer	105	algorithmischer Verfahren mit sehr kleinen Datensätzen und / oder einer heterogenen
116	~~heterogenen~~ Kombination von Quellen behelfen muss.	106	Kombination von Quellen behelfen muss.
117	[2]Selbstverständlich besteht für Forscher*innen die Möglichkeit, für die Forschung	107	[2]Selbstverständlich besteht für Forscher*innen die Möglichkeit, für die Forschung
138	Reihe von digitalen Analyseverfahren geeignet sind, die den Text jedoch aus	128	Reihe von digitalen Analyseverfahren geeignet sind, die den Text jedoch aus
139	urheberrechtlicher Perspektive hinreichend verfremden.[5] Diese abgeleiteten Textformate halten beispielsweise ~~für~~	129	urheberrechtlicher Perspektive hinreichend verfremden.[4] Diese abgeleiteten Textformate halten beispielsweise
140	Textsegmente wie Kapitel oder Abschnitte lediglich die Häufigkeit der ~~enthaltenen~~	130	für Textsegmente wie Kapitel oder Abschnitte lediglich die Häufigkeit der
141	Einzelwörter oder n-Gramme (also kurzen ~~Wortsequenzen)~~	131	enthaltenen Einzelwörter oder n-Gramme (also kurzen
142	fest. Gängige Verfahren der Makroanalyse,[6] die etwa lexikalische Indikatoren für die Dynamik ~~des Textverlaufs~~	132	Wortsequenzen) fest. Gängige Verfahren der Makroanalyse,[5] die etwa lexikalische Indikatoren für die Dynamik
143	heranziehen, können auf dieser Basis zur Anwendung kommen. Der ~~Urheberrechtsschutz~~	133	des Textverlaufs heranziehen, können auf dieser Basis zur Anwendung kommen. Der
144	wird dabei durch den Aufbruch der Textstruktur aufgehoben, ~~sodass Restriktionen~~	134	Urheberrechtsschutz wird dabei durch den Aufbruch der Textstruktur aufgehoben,
145	zur Archivierung, Weitergabe und Veröffentlichung der ~~Datensätze nicht mehr zum~~	135	sodass Restriktionen zur Archivierung, Weitergabe und Veröffentlichung der
146	Tragen kommen. Das Konzept der abgeleiteten Textformate ~~leistet somit einen großen~~	136	Datensätze nicht mehr zum Tragen kommen. Das Konzept der abgeleiteten Textformate
147	Beitrag zur Replizierbarkeit von Forschung und ~~Nachnutzbarkeit von~~	137	leistet somit einen großen Beitrag zur Replizierbarkeit von Forschung und
148	Forschungsdaten.	138	Nachnutzbarkeit von Forschungsdaten.
149	[5]Allerdings stößt das Konzept der abgeleiteten Formate dort an seine Grenzen, wo	139	[5]Allerdings stößt das Konzept der abgeleiteten Formate dort an seine Grenzen, wo
158	der komplementär zum Konzept der abgeleiteten Textformate eingesetzt werden kann	148	der komplementär zum Konzept der abgeleiteten Textformate eingesetzt werden kann
159	(vgl. Abbildung 1).	149	(vgl. Abbildung 1). Dieser
160	~~Dieser~~ Ansatz nutzt das bestehende Recht zur Weitergabe von prozentual begrenzten	150	Ansatz nutzt das bestehende Recht zur Weitergabe von prozentual begrenzten
161	Auszügen geschützter Werke zu Zwecken der wissenschaftlichen Forschung (§ 60c ~~UrhG)~~	151	Auszügen geschützter Werke zu Zwecken der wissenschaftlichen Forschung (§ 60c
162	und überträgt dies auf die Herausgabe von Korpusauszügen. Der erlaubte ~~Umfang~~	152	UrhG) und überträgt dies auf die Herausgabe von Korpusauszügen. Der erlaubte
163	dieser Auszüge beträgt zwar in der Regel nur 15 Prozent eines Werks, der	153	Umfang dieser Auszüge beträgt zwar in der Regel nur 15 Prozent eines Werks, der
164	XSample-Ansatz ermöglicht jedoch eine dynamische, auf das individuelle	154	XSample-Ansatz ermöglicht jedoch eine dynamische, auf das individuelle
167	vorhandenen Annotationen genau spezifizieren, welche Teile des Korpus für sie	157	vorhandenen Annotationen genau spezifizieren, welche Teile des Korpus für sie
168	relevant sind. Dabei stellt der XSample-Ansatz sicher, dass die geschützten	158	relevant sind. Auf diese Weise werden die rechtlichen Möglichkeiten in einer
169	Primärdaten bei der Modellierung der Suchanfrage für die Nachnutzer*innen nicht
170	einsehbar sind. Auf diese Weise werden die rechtlichen Möglichkeiten in einer
171	zielführenden Art und Weise ausgeschöpft und nachhaltige Forschung mit	159	zielführenden Art und Weise ausgeschöpft und nachhaltige Forschung mit
190	[7]Der vorliegende Beitrag geht in Kapitel 2	178	[7]Der vorliegende Beitrag geht in Kapitel 2
191	zunächst auf die rechtlichen Grundlagen ein, die für Verfahren des Text- und Data-Mining (TDM)[7] gelten und die Rahmenbedingungen für das hier präsentierte	179	zunächst auf die rechtlichen Grundlagen ein, die für Verfahren des Text- und Data-Mining (TDM)[6] gelten und die Rahmenbedingungen für das hier präsentierte
192	Auszugskonzept schaffen. Kapitel 3 stellt	180	Auszugskonzept schaffen. Kapitel 3 stellt
194	innerhalb des rechtlichen Rahmens technisch umgesetzt werden kann. Dabei werden	182	innerhalb des rechtlichen Rahmens technisch umgesetzt werden kann. Dabei werden
195	insbesondere die unterschiedlichen Akteur*innen in den Blick genommen sowie	183	insbesondere die unterschiedlichen Akteur*innen in den Blick genommen sowie Schritte
196	Schritte der Datenvorbereitung und verschiedene Möglichkeiten der	184	der Datenvorbereitung und verschiedene Möglichkeiten der Auszugsgenerierung
197	Auszugsgenerierung vorgestellt. Anschließend werden in Kapitel 4 zwei Nutzungsszenarien präsentiert, die im	185	vorgestellt. Anschließend werden in Kapitel
198	Kontext konkreter Forschungsfragen ausführen, inwieweit abgeleitete Textformate	186	4 zwei Nutzungsszenarien präsentiert, die im Kontext konkreter
199	und / oder das Auszugskonzeptkonzept für die Reproduktion ihrer Forschung und die	187	Forschungsfragen ausführen, inwieweit abgeleitete Textformate und / oder das
200	Nachnutzung ihrer Daten praktikabel sind. Das erste Nutzungsszenario widmet sich	188	Auszugskonzeptkonzept für die Reproduktion ihrer Forschung und die Nachnutzung
201	der Wissenschaftssprache der geisteswissenschaftlichen Fächer	189	ihrer Daten praktikabel sind. Das erste Nutzungsszenario widmet sich der
202	Literaturwissenschaft, Linguistik und Philosophie und erstellt dazu ein Korpus aus	190	Wissenschaftssprache der geisteswissenschaftlichen Fächer Literaturwissenschaft,
203	insgesamt 135 urheberrechtlich geschützten Zeitschriftenartikeln. Das zweite	191	Linguistik und Philosophie und erstellt dazu ein Korpus aus insgesamt 135
204	Nutzungsszenario beschäftigt sich mit dem Phänomen des unzuverlässigen Erzählens,	192	urheberrechtlich geschützten Zeitschriftenartikeln. Das zweite Nutzungsszenario
205	das in einem ersten Zugang anhand eines Korpus aus acht deutschsprachigen	193	beschäftigt sich mit dem Phänomen des unzuverlässigen Erzählens, das in einem
206	fiktionalen Erzählungen aus dem 19. bis zum 21. Jahrhundert untersucht wird, die	194	ersten Zugang anhand eines Korpus aus acht deutschsprachigen fiktionalen
207	teilweise dem Urheberrecht unterliegen. Nach Abschluss der Forschung sollen die	195	Erzählungen aus dem 19. bis zum 21. Jahrhundert untersucht wird, die teilweise dem
208	Daten für die Überprüfung der Ergebnisse und zur Nachnutzung in weiteren Projekten	196	Urheberrecht unterliegen. Nach Abschluss der Forschung sollen die Daten für die
209	zur Verfügung gestellt werden. Das Fazit in Kapitel 5 fasst die Ergebnisse zusammen und leitet praktische	197	Überprüfung der Ergebnisse und zur Nachnutzung in weiteren Projekten zur Verfügung
210	Handlungsempfehlungen und Desiderate ab.	198	gestellt werden. Das Fazit in Kapitel 5
		199	fasst die Ergebnisse zusammen und leitet praktische Handlungsempfehlungen und
		200	Desiderate ab.
211		201
220	im Juni 2021, als die Richtlinie zum Urheberrecht im digitalen	210	im Juni 2021, als die Richtlinie zum Urheberrecht im digitalen
221	Binnenmarkt (Digital Single Market-, kurz DSM-Richtlinie) im Urheberrechtsgesetz (UrhG) umgesetzt wurde. Um einen kurzen	211	Binnenmarkt (Digital Single Market-, kurz DSM-Richtlinie) im Urheberrechtsgesetz (UrhG) umgesetzt wurde. Um einen kurzen Überblick
222	Überblick über die Entwicklung der Gesetzeslage zu geben, wird nachfolgend (Kapitel 2.1) skizziert, in welchem Umfang	212	über die Entwicklung der Gesetzeslage zu geben, wird nachfolgend (Kapitel 2.1) skizziert, in welchem Umfang
223	Vervielfältigungen (§ 16 UrhG) und	213	Vervielfältigungen (§ 16 UrhG) und öffentliche Zugänglichmachungen (§ 19a UrhG)
224	öffentliche Zugänglichmachungen (§ 19a UrhG)
225	für die Erstellung und (gemeinsame) Beforschung von Korpora im Kontext von TDM in	214	für die Erstellung und (gemeinsame) Beforschung von Korpora im Kontext von TDM in
226	den verschiedenen Gesetzesfassungen erlaubt waren bzw. sind.[8] Daran anschließend werden Fragen nach der	215	den verschiedenen Gesetzesfassungen erlaubt waren bzw. sind.[7] Daran anschließend werden Fragen nach der
227	Zugänglichmachung und Nachnutzbarkeit von Korpora sowie mögliche Lösungsansätze	216	Zugänglichmachung und Nachnutzbarkeit von Korpora sowie mögliche Lösungsansätze
241	enthalten, sein Werk zu vervielfältigen und es öffentlich zugänglich zu machen.	230	enthalten, sein Werk zu vervielfältigen und es öffentlich zugänglich zu machen.
242	Eine ausdrückliche Erlaubnis[9] dieser Handlungen	231	Eine ausdrückliche Erlaubnis[8] dieser Handlungen
243	wurde im Jahr 2018 durch das Gesetz zur Angleichung des Urheberrechts an die	232	wurde im Jahr 2018 durch das Gesetz zur Angleichung des Urheberrechts an die
255	[10]Aufgrund des Gesetzes zum Urheberrecht im digitalen	244	[10]Aufgrund des Gesetzes zum Urheberrecht im digitalen
256	Binnenmarkt vom 7. Juni 2021[10] hat	245	Binnenmarkt vom 7. Juni 2021[9] hat sich der
257	sich der Rechtsrahmen ein weiteres Mal verändert. Seitdem darf Forschung mit	246	Rechtsrahmen ein weiteres Mal verändert. Seitdem darf Forschung mit TDM auch zu
258	TDM auch zu anderen Zwecken als zur nicht-kommerziellen wissenschaftlichen	247	anderen Zwecken als zur nicht-kommerziellen wissenschaftlichen Forschung (diese
259	Forschung (diese ist weiterhin in § 60d UrhG geregelt), z. B. in Unternehmen	248	ist weiterhin in § 60d UrhG geregelt), z. B. in Unternehmen oder in der Presse,
260	oder in der Presse, praktiziert werden, wenn auch in eingeschränktem Umfang	249	praktiziert werden, wenn auch in eingeschränktem Umfang (§ 44b UrhG). Die
261	(§ 44b	250	Erlaubnis ist dabei nach wie vor an den rechtmäßigen Zugang gebunden. Dieser
262	UrhG).[11] Die Erlaubnis ist	251	rechtmäßige Zugang liegt dann vor, wenn die genutzten Texte in Buchform
263	dabei nach wie vor an den rechtmäßigen Zugang gebunden. Dieser rechtmäßige	252	vorliegen, im Internet frei abrufbar sind oder als E-Books lizenziert
264	Zugang liegt dann vor, wenn die genutzten Texte in Buchform vorliegen, im	253	wurden.[10] § 60d
265	Internet frei abrufbar sind oder als E-Books lizenziert wurden.[12] Neu ist auch, dass	254	UrhG wurde außerdem um Befugnisse zugunsten von sogenannten
266	jedenfalls für Vervielfältigungen im Rahmen von TDM nunmehr keine Vergütung	255	Kulturerbe-Einrichtungen erweitert. Neu ist auch, dass jedenfalls für
267	mehr anfällt (§ 60h Abs. 2 Nr. 3 UrhG). Diese war zuvor durch die jeweiligen	256	Vervielfältigungen im Rahmen von TDM nunmehr keine Vergütung mehr anfällt
268	Einrichtungen zu tragen.	257	(§ 60h Abs. 2 Nr. 3 UrhG). Diese war zuvor durch die jeweiligen Einrichtungen
		258	zu tragen.
269		259
271		261
272	[11]§ 60d UrhG in seiner aktuellen Fassung erlaubt t es bestimmten privilegierten	262	[11]§ 60d UrhG in seiner aktuellen Fassung erlaubt es u. a. Forschungs- und
273	Personenkreisen und Einrichtungen, vollständige Werke zu Zwecken des TDM zu	263	sogenannten Kulturerbe-Einrichtungen, dazu zählen auch die in diesem Aufsatz
274	vervielfältigen (Abs. 1 bis 3) und die Vervielfältigungen (d. h. nicht die	264	adressierten Forschungsinfrastruktureinrichtungen, vollständige Werke zu
275	unveränderten Ursprungsmaterialien) für die gemeinsame wissenschaftliche	265	Zwecken des TDM zu vervielfältigen (Abs. 1 bis 3) und die Vervielfältigungen
276	Forschung bestimmt abgegrenzten Personenkreisen sowie einzelnen Dritten zur	266	(d. h. nicht die unveränderten Ursprungsmaterialien) für die gemeinsame
277	Überprüfung der wissenschaftlichen Forschung öffentlich zugänglich zu machen	267	wissenschaftliche Forschung bestimmt abgegrenzten Personenkreisen sowie
278	(Abs. 4 S. 1). Im Gegensatz zu seiner Vorgängernorm knüpft § 60d UrhG in seiner	268	einzelnen Dritten zur Überprüfung der wissenschaftlichen Forschung öffentlich
279	neuen Fassung nicht allgemein an nicht-kommerzielle wissenschaftliche	269	zugänglich zu machen (Abs. 4 S. 1). Die Zugänglichmachung ist jeweils zu
280	Zwecke[13] an, sondern	270	beenden, wenn die gemeinsame Forschung oder die Überprüfung abgeschlossen ist
281	berechtigt Forschungsorganisationen (Hochschulen, Forschungsinstitute und	271	(Abs. 4 S. 2).
282	sonstige Einrichtungen, die wissenschaftliche Forschung betreiben, hierzu
283	zählen auch die in diesem Beitrag adressierten
284	Forschungsinfrastruktureinrichtungen), sofern diese 1. nicht kommerzielle
285	Zwecke verfolgen, 2. sämtliche Gewinne in die Forschung reinvestieren oder 3.
286	im Rahmen eines staatlich anerkannten Auftrags im öffentlichen Interesse tätig
287	sind. Public-Private-Partnerships, d. h. Kooperationen mit privaten
288	Unternehmen, sind nur dann erfasst, wenn letztere keinen bestimmenden Einfluss
289	auf die Forschungsorganisation haben und keinen bevorzugten Zugang zu den
290	Forschungsergebnissen erhalten (§ 60d Abs. 2 S. 3 UrhG). § 60d Abs. 3 Nr. 1
291	UrhG benennt nunmehr auch ausdrücklich sogenannte Kulturerbe-Einrichtungen wie
292	Bibliotheken, Museen, Archive und Einrichtungen im Bereich des Ton- und
293	Filmerbes, wobei hier nicht an nicht-kommerzielle Zwecke, sondern an ihre
294	öffentliche Zugänglichkeit angeknüpft wird. Individualforscher*innen sind
295	weiterhin unter der Voraussetzung, dass sie nicht-kommerzielle Zwecke
296	verfolgen, erfasst (§ 60d Abs. 3 Nr. 2 UrhG). Die öffentliche Zugänglichmachung
297	steht unter der Voraussetzung der nicht-kommerziellen Zwecke, sodass auch die
298	öffentlich zugänglichen Kulturerbe-Einrichtungen diese letztlich beachten
299	müssen, um vom vollen Umfang der Erlaubnisse des § 60d UrhG zu profitieren. Die
300	Zugänglichmachung ist jeweils zu beenden, wenn die gemeinsame Forschung oder
301	die Überprüfung abgeschlossen ist (Abs. 4 S. 2).
302	[12]Die Befugnis zur Weitergabe der Korpora während der Forschungsarbeiten ist also	272	[12]Die Befugnis zur Weitergabe der Korpora während der Forschungsarbeiten ist also
308	Öffentlichkeit angehören, d. h. zu denen keine persönliche Beziehung existiert,	278	Öffentlichkeit angehören, d. h. zu denen keine persönliche Beziehung existiert,
309	vgl. § 15 Abs.	279	vgl. § 15 Abs. 3 UrhG, und die einer »unbestimmten Zahl potentieller
310	3 UrhG, und die einer »unbestimmten Zahl potentieller
311	Adressaten« und einer »ziemlich großen Zahl von	280	Adressaten« und einer »ziemlich großen Zahl von
312	Personen« angehören.[14] Die	281	Personen« angehören.[11] Die Erlaubnis,
313	~~Erlaubnis,~~ Korpora während der TDM-Forschungsarbeiten weiterzugeben (§ 60d Abs.	282	Korpora während der TDM-Forschungsarbeiten weiterzugeben (§ 60d Abs. 4 S. 1
314	~~4 S. 1~~ UrhG), bezieht sich hingegen nur auf bestimmt abgegrenzte, d. h. weiter	283	UrhG), bezieht sich hingegen nur auf bestimmt abgegrenzte, d. h. weiter
315	eingegrenzte Personenkreise, die der Öffentlichkeit angehören. Bei	284	eingegrenzte Personenkreise, die der Öffentlichkeit angehören. Bei
316	Forschungsgruppen handelt es sich in der Regel nicht um eine	285	Forschungsgruppen handelt es sich in der Regel nicht um eine
317	Öffentlichkeit,[15] ~~weswegen~~	286	Öffentlichkeit,[12]
318	es auf diese Erlaubnis in den meisten Fällen nicht ankommt.	287	weswegen es auf diese Erlaubnis in den meisten Fällen nicht ankommt.
319	[13]Die TDM-Korpora dürfen gemäß § 60d UrhG so lange aufbewahrt werden, wie es für	288	[13]Die TDM-Korpora dürfen gemäß § 60d UrhG so lange aufbewahrt werden, wie es für
321	im Regelfall die von der guten wissenschaftlichen Praxis geforderten zehn	290	im Regelfall die von der guten wissenschaftlichen Praxis geforderten zehn
322	Jahre,[16] sie kann im Einzelfall aber auch kürzer oder länger	291	Jahre,[13] sie kann im Einzelfall aber auch kürzer oder länger bemessen
323	bemessen sein. Aufgrund der Wissenschaftsfreiheit unterliegt die Einschätzung	292	sein. Aufgrund der Wissenschaftsfreiheit unterliegt die Einschätzung der
324	der Aufbewahrungsdauer den Forschenden und ist nur eingeschränkt	293	Aufbewahrungsdauer den Forschenden und ist nur eingeschränkt überprüfbar.[14]
325	überprüfbar.[17]
326	[14]Eine Erlaubnis, die Korpora zur Aufbewahrung an	294	[14]Eine Erlaubnis, die Korpora zur Aufbewahrung an
329	Auslegung aus der Gesetzesbegründung abgeleitet werden, denn diese scheint von	297	Auslegung aus der Gesetzesbegründung abgeleitet werden, denn diese scheint von
330	einer Aufbewahrung durch Kulturerbe-Einrichtungen auszugehen:[18] »Hiernach kann auch eine dauerhafte Speicherung erforderlich und folglich	298	einer Aufbewahrung durch Kulturerbe-Einrichtungen auszugehen:[15] »Hiernach kann auch eine dauerhafte Speicherung erforderlich und folglich
331	zulässig sein, insbesondere, wenn sie durch Kulturerbe-Einrichtungen und	299	zulässig sein, insbesondere, wenn sie durch Kulturerbe-Einrichtungen und
332	nicht durch die Forschungseinrichtung selbst erfolgt«.[19] Möglich ist aber in	300	nicht durch die Forschungseinrichtung selbst erfolgt«.[16] Möglich ist aber in jedem
333	jedem Fall, die TDM-Projekte gleich von Beginn an auf zentralen	301	Fall, die TDM-Projekte gleich von Beginn an auf zentralen Bibliotheksservern
334	Bibliotheksservern bzw. einrichtungsübergreifenden Servern anzusiedeln, sodass	302	bzw. einrichtungsübergreifenden Servern anzusiedeln, sodass dort die
335	dort die Archivierung ohne eine gesonderte Übermittlung erfolgen kann. Dann	303	Archivierung ohne eine gesonderte Übermittlung erfolgen kann. Dann bewegt man
336	bewegt man sich im Rahmen dessen, was die Gesetzesbegründung ausdrücklich	304	sich im Rahmen dessen, was die Gesetzesbegründung ausdrücklich enthält, und
337	enthält, und vermeidet gleichzeitig, das Korpus erneut zu vervielfältigen (§ 16	305	vermeidet gleichzeitig, das Korpus erneut zu vervielfältigen (§ 16 UrhG).
338	UrhG).
339	[15]Unklar ist aber weiterhin, ob zu Zwecken von Anschlussforschungen auf die	306	[15]Unklar ist aber weiterhin, ob zu Zwecken von Anschlussforschungen auf die
340	Korpora zugegriffen werden kann. Gemäß § 60d Abs. 5 UrhG dürfen die Korpora	307	Korpora zugegriffen werden kann. Gemäß § 60d Abs. 5 UrhG dürfen die Korpora
341	(nach dem Gesetz jedoch nicht die unveränderten Ursprungsdaten)[20] so lange aufbewahrt ~~werden, wie~~	308	(nach dem Gesetz jedoch nicht die unveränderten Ursprungsdaten)[17] so lange aufbewahrt
342	es für Zwecke der Überprüfung der Qualität der wissenschaftlichen ~~Forschung~~	309	werden, wie es für Zwecke der Überprüfung der Qualität der wissenschaftlichen
343	oder für die Forschung selbst erforderlich ist. Das impliziert, dass ~~es auch~~	310	Forschung oder für die Forschung selbst erforderlich ist. Das impliziert, dass
344	abseits der Überprüfung wissenschaftliches Interesse an den Korpora ~~geben kann.~~	311	es auch abseits der Überprüfung wissenschaftliches Interesse an den Korpora
345	Auch die DSM-Richtlinie setzt voraus, dass nach Abschluss der	312	geben kann. Auch die DSM-Richtlinie setzt voraus, dass nach Abschluss der
346	Forschungsarbeiten bzw. während der Langzeitarchivierung noch Interesse an	313	Forschungsarbeiten bzw. während der Langzeitarchivierung noch Interesse an
347	weiterer Beforschung der Korpora bestehen kann:[21] »Die Nutzung zum Zwecke der wissenschaftlichen Forschung außerhalb des	314	weiterer Beforschung der Korpora bestehen kann:[18] »Die Nutzung zum Zwecke der wissenschaftlichen
348	Text und Data Mining, etwa die Begutachtung unter wissenschaftlichen	315	Forschung außerhalb des Text und Data Mining, etwa die Begutachtung unter
349	Fachkollegen und gemeinsame Forschungsarbeiten, sollte nach wie vor unter	316	wissenschaftlichen Fachkollegen und gemeinsame Forschungsarbeiten, sollte
350	die Ausnahme oder Beschränkung im Sinne von Artikel 5 Absatz 3 Buchstabe a	317	nach wie vor unter die Ausnahme oder Beschränkung im Sinne von Artikel 5
351	der Richtlinie 2001/29/EG fallen, sofern diese Bestimmung anwendbar	318	Absatz 3 Buchstabe a der Richtlinie 2001/29/EG fallen, sofern diese
352	ist.«[22] Für eine	319	Bestimmung anwendbar ist.«[19]
		320	[16]Für eine
353	Nachnutzung der Korpora kommen neben den von Schöch et al. vorgestellten	321	Nachnutzung der Korpora kommen neben den von Schöch et al. vorgestellten
354	abgeleiteten Textformaten sogenannte Closed-Room-Zugänge[23] (§§ 60e Abs. 4, ~~60f UrhG)~~	322	abgeleiteten Textformaten sogenannte Closed-Room-Zugänge[20] (§§ 60e Abs. 4,
355	und die Erlaubnis der auszugsweisen Nutzung zu Zwecken der ~~wissenschaftlichen~~	323	60f UrhG) und die Erlaubnis der auszugsweisen Nutzung zu Zwecken der
356	Forschung (§ 60c UrhG) in Betracht. Nachfolgend werden diese ~~beiden Optionen~~	324	wissenschaftlichen Forschung (§ 60c UrhG) in Betracht. Nachfolgend werden diese
357	dargestellt und gegeneinander abgewogen.	325	beiden Optionen dargestellt und gegeneinander abgewogen.
358	[16]§§ 60e Abs. 4, 60f UrhG erlauben es Bibliotheken und anderen	326	[17]§§ 60e Abs. 4, 60f UrhG erlauben es Bibliotheken und anderen
359	Kulturerbe-Einrichtungen wie öffentlich zugänglichen Museen, ihren Nutzer*innen	327	Kulturerbe-Einrichtungen wie öffentlich zugänglichen Museen, ihren Nutzer*innen
360	Werke aus ihrem Bestand an Terminals in ihren Räumen für deren Forschung oder	328	Werke aus ihrem Bestand an Terminals in ihren Räumen für deren Forschung oder
361	private Studien zugänglich zu machen (sogenannte Terminal-Schranke). Die Nutzer*innen dürfen sogenannte Anschlusskopien[24] im Umfang von zehn Prozent erstellen. Einzelne Werke geringen	329	private Studien zugänglich zu machen (sogenannte Terminal-Schranke). Die Nutzer*innen dürfen sogenannte Anschlusskopien[21] im Umfang von zehn Prozent erstellen. Einzelne Werke geringen
362	Umfangs[25] wie Beiträge aus	330	Umfangs[22] wie Beiträge aus
363	wissenschaftlichen Zeitschriften dürfen hingegen vollständig genutzt werden.	331	wissenschaftlichen Zeitschriften dürfen hingegen vollständig genutzt werden.
367	UrhG ist gleichwohl, dass jedenfalls der erste Zugriff auf die Werke nur an	335	UrhG ist gleichwohl, dass jedenfalls der erste Zugriff auf die Werke nur an
368	Terminals vor Ort erfolgen kann (sogenannte Closed-~~Room~~-Zugänge).[26]	336	Terminals vor Ort erfolgen kann (sogenannte Closed-room-Zugänge).[23]
369	[17]Anders verhält es sich mit § 60c UrhG, der Erlaubnisnorm für Zwecke der	337	[18]Anders verhält es sich mit § 60c UrhG, der Erlaubnisnorm für Zwecke der
370	nicht-kommerziellen wissenschaftlichen Forschung, auf den sich das hier	338	nicht-kommerziellen wissenschaftlichen Forschung, auf den sich das hier
378	gerechtfertigt ist« vorzusehen.	346	gerechtfertigt ist« vorzusehen.
379	[18]§ 60c Abs. 1 Nr. 1 UrhG erlaubt es, zu Zwecken der nicht-kommerziellen	347	[19]§ 60c Abs. 1 Nr. 1 UrhG erlaubt es, zu Zwecken der nicht-kommerziellen
380	wissenschaftlichen Forschung bis zu 15 Prozent von Werken und auch vollständige	348	wissenschaftlichen Forschung bis zu 15 Prozent von Werken und auch vollständige
386	erlaubt ist allerdings, Werke für eine gesamte Einrichtung frei abrufbar zu	354	erlaubt ist allerdings, Werke für eine gesamte Einrichtung frei abrufbar zu
387	machen.[27] Die	355	stellen.[24]
388	nicht-kommerziellen Zwecke können auch bei Drittmittelforschung sowie dann	356	[20]Wenn Forschende also nach § 60c UrhG Texte auszugsweise zur Nachnutzung
389	vorliegen, wenn Forschende ihre Ergebnisse in einem Verlag veröffentlichen und
390	Honorare erhalten, kommerzielle Zwecke sind aber jedenfalls dann anzunehmen,
391	wenn Forschung betrieben wird, um Waren oder Dienstleistungen zu entwickeln und
392	diese zu vermarkten.[28] Entscheidend ist bei der
393	Bestimmung der nicht-kommerziellen Zwecke nicht die organisatorische
394	Einrichtung oder Finanzierung, sondern, ob die jeweilige Nutzung auf
395	Gewinnerzielung ausgerichtet ist.[29]
396	[19]Wenn Forschende also nach § 60c UrhG Texte auszugsweise zur Nachnutzung
397	erhalten und diese anschließend für TDM im Sinne des § 60d UrhG nutzen, werden	357	erhalten und diese anschließend für TDM im Sinne des § 60d UrhG nutzen, werden
399	einerseits der InfoSoc-Richtlinie und andererseits der DSM-Richtlinie),	359	einerseits der InfoSoc-Richtlinie und andererseits der DSM-Richtlinie),
400	miteinander kombiniert. Das ist rechtlich möglich.[30]	360	miteinander kombiniert. Das ist rechtlich möglich.[25]
401	[20]Daneben entspricht die Nachnutzbarkeit auf Grundlage des § 60c UrhG auch den	361	[21]Daneben entspricht die Nachnutzbarkeit auf Grundlage des § 60c UrhG auch den
402	Interessen der Urheber*innen, das gilt insbesondere deswegen, weil § 60c UrhG	362	Interessen der Urheber*innen, das gilt insbesondere deswegen, weil § 60c UrhG
403	vergütungspflichtig ist (§ 60h UrhG) und dadurch ein finanzieller Ausgleich für	363	vergütungspflichtig ist (§ 60h UrhG) und dadurch ein finanzieller Ausgleich für
404	die Rechteinhaber*innen hergestellt wird, schließlich ist für eine Nutzung	364	die Rechteinhaber*innen hergestellt wird, schließlich ist für eine Nutzung gemäß
405	~~gemäß~~ § 60d UrhG ein rechtmäßiger Zugang erforderlich, der zumeist einen	365	§ 60d UrhG ein rechtmäßiger Zugang erforderlich, der zumeist einen finanziellen
406	~~finanziellen~~ Ausgleich für dendie Urheberin enthält. § 60c UrhG setzt diesen	366	Ausgleich für dendie Urheberin enthält. § 60c UrhG setzt diesen rechtmäßigen Zugang
407	~~rechtmäßigen Zugang~~ allerdings nicht voraus. Die Vergütung stellt also einen	367	allerdings nicht voraus. Die Vergütung stellt also einen Ausgleich der
408	~~Ausgleich der~~ urheberrechtlichen Interessen her. Insgesamt ermöglicht § 60c	368	urheberrechtlichen Interessen her. Insgesamt ermöglicht § 60c UrhG insofern
409	~~UrhG insofern~~ eine flexiblere Korpus-Nachnutzung als §§ 60e Abs. 4, 60f UrhG,	369	eine flexiblere Korpus-Nachnutzung als §§ 60e Abs. 4, 60f UrhG, weswegen sich
410	~~weswegen sich~~ das in XSample entwickelte Konzept auf § 60c UrhG stützt.	370	das in XSample entwickelte Konzept auf § 60c UrhG stützt.
411		371
413		373
414	[21]Zusammenfassend orientiert sich das hier vorgestellte Auszugskonzept an	374	[22]Zusammenfassend orientiert sich das hier vorgestellte Auszugskonzept an
415	folgenden rechtlichen Einschränkungen, die von	375	folgenden rechtlichen Einschränkungen, die von
416	Forschungsinfrastruktureinrichtungen, die Korpora mit geschützten Texten	376	Forschungsinfrastruktureinrichtungen, die Korpora mit geschützten Texten bereitstellen möchten, zu prüfen sind:
417	bereitstellen möchten, zu prüfen sind:	377	[23]Einbeziehung der Forschungsinfrastruktureinrichtungen:
418	[22]Einbeziehung der Forschungsinfrastruktureinrichtungen:
419	Forschungsinfrastruktureinrichtungen, die die Korpora aufbewahren und	378	Forschungsinfrastruktureinrichtungen, die die Korpora aufbewahren und
421	integriert werden.	380	integriert werden.
422	[23]Aufbewahrungsdauer: Forscher*innen, die die Korpora	381	[24]Aufbewahrungsdauer: Forscher*innen, die die Korpora
423	bereitstellen möchten, sollten eine der Forschung angemessenen	382	bereitstellen möchten, sollten eine der Forschung angemessenen
424	Aufbewahrungsdauer für die Korpora vorschlagen. Wenn diese von den von der DFG	383	Aufbewahrungsdauer für die Korpora vorschlagen. Wenn diese von den von der DFG
425	vorgeschlagenen zehn Jahren[31] abweicht, ~~sollte eine explizite Begründung~~	384	vorgeschlagenen zehn Jahren[26] abweicht,
426	erfolgen.	385	sollte eine explizite Begründung erfolgen.
427	[24]Inhalt der Korpora: Die gespeicherten und gegebenenfalls	386	[25]Inhalt der Korpora: Die gespeicherten und gegebenenfalls
428	bereitgestellten Korpora dürfen nicht die unveränderten Ursprungsdaten	387	bereitgestellten Korpora dürfen nicht die unveränderten Ursprungsdaten
430	Lizenzen erworben.	389	Lizenzen erworben.
431	[25]Nachnutzung: Nachnutzer*innen müssen nicht-kommerzielle,	390	[26]Nachnutzung: Nachnutzer*innen müssen nicht-kommerzielle,
432	wissenschaftliche Zwecke verfolgen. Die Verifizierung kann dadurch erfolgen,	391	wissenschaftliche Zwecke verfolgen. Die Korpusauszüge dürfen nur bestimmt
433	dass Interessierte sich in Bezug auf die Zugehörigkeit zu einer
434	Forschungseinrichtung verifizieren und zudem versichern, die Daten nur für die
435	nicht-kommerzielle wissenschaftliche Forschung zu verwenden.[32] Die Korpusauszüge dürfen nur bestimmt
436	abgegrenzten Personenkreisen zugänglich gemacht werden, d. h. auf individuelle	392	abgegrenzten Personenkreisen zugänglich gemacht werden, d. h. auf individuelle
437	Anfrage.	393	Anfrage.
438	[26]Umfang der Korpusauszüge: Korpusauszüge dürfen maximal	394	[27]Umfang der Korpusauszüge: Korpusauszüge dürfen maximal
439	15 Prozent ganzer Werke betragen, kurze Werke wie z. B. Aufsätze aus	395	15 Prozent ganzer Werke betragen, kurze Werke wie z. B. Aufsätze aus
445		401
446	[27]Wie im vorigen Kapitel beschrieben, bedient	402	[28]Wie im vorigen Kapitel beschrieben, bedient
447	sich der in XSample verfolgte Ansatz der rechtlichen Erlaubnis, Auszüge bis zu	403	sich der in XSample verfolgte Ansatz der rechtlichen Erlaubnis, Auszüge bis zu
452	umrissen. Hierfür werden zunächst die Workflow-Akteur*innen (Kapitel 3.1) und die im Workflow eingesetzten	408	umrissen. Hierfür werden zunächst die Workflow-Akteur*innen (Kapitel 3.1) und die im Workflow eingesetzten
453	Serverkomponenten (Kapitel 3.2)	409	Serverkomponenten (Kapitel 3.2) vorgestellt.
454	vorgestellt. Im Anschluss werden die Vorbereitungsschritte für die Erstellung	410	Im Anschluss werden die Vorbereitungsschritte für die Erstellung eines Auszugs
455	eines Auszugs (Kapitel 3.3) sowie	411	(Kapitel 3.3) sowie verschiedene
456	verschiedene Möglichkeiten der Auszugsgenerierung (Kapitel 3.4) erläutert. Für letztere liegt der Fokus auf	412	Möglichkeiten der Auszugsgenerierung (Kapitel
457	der Verwendung im Korpus enthaltener Annotationen, um mittels Suchanfragen Auszüge	413	3.4) erläutert. Für letztere liegt der Fokus auf der Verwendung im Korpus
458	zu erhalten, die optimal auf die Bedürfnisse der Nachnutzer*innen zugeschnitten	414	enthaltener Annotationen, um mittels Suchanfragen Auszüge zu erhalten, die optimal
459	sind. Abschließend wird die Nachhaltigkeit und Nachnutzbarkeit der hier	415	auf die Bedürfnisse der Nachnutzer*innen zugeschnitten sind. Abschließend wird die
460	vorgestellten Infrastruktur thematisiert (Kapitel 3.5).	416	Nachhaltigkeit und Nachnutzbarkeit der hier vorgestellten Infrastruktur
		417	thematisiert (Kapitel 3.5).
461	3.1 Workflow-Akteur*innen	418	3.1 Workflow-Akteur*innen
462		419
463	[28]XSample unterscheidet zwischen drei Akteur*nnen im Workflow: Erstens den	420	[29]XSample unterscheidet zwischen drei Akteur*innen im Workflow: Erstens den
464	Infrastrukturbetreiberinnen, zweitens den Datenanbieterinnen /	421	Infrastrukturbetreiberinnen, zweitens den Datenanbieterinnen / -lieferant*innen und
465	-lieferantinnen und drittens den Nachnutzerinnen.	422	drittens den Nachnutzerinnen. Infrastrukturbetreiberinnen gehören zu den oben
466	Infrastrukturbetreiber*innen gehören zu den oben adressierten	423	adressierten Forschungsinfrastruktureinrichtungen und bieten die
467	Forschungsinfrastruktureinrichtungen und bieten die infrastrukturelle	424	infrastrukturelle Komponente zur Ablage und Verwaltung der verschiedenen im
468	Komponente zur Ablage und Verwaltung der verschiedenen im Workflow anfallenden	425	Workflow anfallenden Daten. Eine zentrale Bedeutung kommt hierbei der
469	Daten. Eine zentrale Bedeutung kommt hierbei der Authentifizierung von	426	Authentifizierung von Nutzer*innen und einem feingranularen Rechtemanagement
470	Nutzer*innen und einem feingranularen Rechtemanagement zu, um die beschriebenen	427	zu, um die beschriebenen rechtlichen Bedingungen (z. B. Zugriffsbeschränkung
471	rechtlichen Bedingungen (z. B. Zugriffsbeschränkung für bestimmt abgegrenzte	428	für bestimmt abgegrenzte Personenkreise) erfüllen zu können. Neben der reinen
472	Personenkreise) erfüllen zu können. Neben der reinen Datenablage dient das	429	Datenablage dient das zugrundeliegende Repositorium mit seiner Weboberfläche
473	zugrundeliegende Repositorium mit seiner Weboberfläche gleichzeitig als	430	gleichzeitig als zentraler Einstiegspunkt für die weiteren beteiligten
474	zentraler Einstiegspunkt für die weiteren beteiligten Akteur*innen. Als	431	Akteurinnen. Als Datenlieferantinnen werden im XSample-Kontext sämtliche
475	Datenlieferant*innen werden im XSample-Kontext sämtliche Personen oder	432	Personen oder Personenkreise bezeichnet, welche (gemäß § 60d UrhG) TDM auf
476	Personenkreise bezeichnet, welche (gemäß § 60d UrhG) TDM auf geschützten Werken	433	geschützten Werken zum Zwecke nicht-kommerzieller Forschung durchführen und die
477	zum Zwecke nicht-kommerzieller Forschung durchführen und die dabei erzeugten	434	dabei erzeugten Korpora zur Nachnutzung durch XSample verfügbar machen möchten.
478	Korpora zur Nachnutzung durch XSample verfügbar machen möchten. Die Gruppe der	435	Die Gruppe der Nachnutzer*innen schließlich beinhaltet die nach § 60c UrhG
479	Nachnutzer*innen schließlich beinhaltet die nach § 60c UrhG bestimmt	436	bestimmt abgegrenzten Personenkreise, denen auszugsweise Zugang zu geschützten
480	abgegrenzten Personenkreise, denen auszugsweise Zugang zu geschützten Werken	437	Werken zum Zwecke nicht-kommerzieller Forschung gewährt werden darf.
481	zum Zwecke nicht-kommerzieller Forschung gewährt werden darf.
482		438
484		440
485	[29]Innerhalb des XSample-Workflows kommen zwei getrennte Serverkomponenten zum	441	[30]Innerhalb des XSample-Workflows kommen zwei getrennte Serverkomponenten zum
486	Einsatz: das Repositorium und die Auszugsgenerierung. Beide stehen unter der	442	Einsatz: das Repositorium und die Auszugsgenerierung. Beide stehen unter der
488	Weboberflächen.	444	Weboberflächen.
489	[30]Das Repositorium dient vorwiegend der Ablage und Verwaltung der Korpus- und	445	[31]Das Repositorium dient vorwiegend der Ablage und Verwaltung der Korpus- und
490	eventuell Ursprungsdaten und wird innerhalb des Prototyps durch eine	446	eventuell Ursprungsdaten und wird innerhalb des Prototyps durch eine
508	Zugriff abgeschirmt sind.	464	Zugriff abgeschirmt sind.
509	[31]Neben dem Repositorium stellt die Auszugsgenerierung als eigener Server die	465	[32]Neben dem Repositorium stellt die Auszugsgenerierung als eigener Server die
510	zweite Komponente im XSample-Workflow dar. Sie leitet Nutzer*innen auf einer	466	zweite Komponente im XSample-Workflow dar. Sie leitet Nutzer*innen auf einer
532		488
533	[32]Bevor Auszüge aus einem Korpus generiert werden können, sind mehrere	489	[33]Bevor Auszüge aus einem Korpus generiert werden können, sind mehrere
534	Vorbereitungsschritte notwendig:	490	Vorbereitungsschritte notwendig:
535	~~[33]~~Zulässige Formate: Alle für die Auszüge zu verwendenden	491	Zulässige Formate: Alle für die Auszüge zu verwendenden
536	Dateien des Korpus müssen in einem nicht öffentlich zugreifbaren Bereich	492	Dateien des Korpus müssen in einem nicht öffentlich zugreifbaren Bereich
538	Prototypenimplementierung ist bisher nur eine begrenzte Anzahl von Formaten für	494	Prototypenimplementierung ist bisher nur eine begrenzte Anzahl von Formaten für
539	Ursprungsdaten (PDF, EPUB oder TXT) und Annotationen (TEI-Subset und CoNLL-ähnliche tabellarische Formate) vorgesehen. Während	495	Ursprungsdaten (PDF, EPUB oder TXT) und Annotationen (TEI-Subset und
540	der Konzeptphase lag hierbei der Fokus auf EPUB und TXT	496	CoNLL-ähnliche tabellarische Formate) vorgesehen. Werden unveränderte
541	Primärdaten, sowie Annotationen in einem Subset des weit verbreiteten TEI-Formats aus dem zweiten	497	Ursprungsdaten eingegliedert, ist von Seiten der Infrastrukturbetreiber*innen
542	Nutzungsszenario (Kapitel 4.2). Bedingt durch zeitliche Überschneidungen	498	und Datenanbieter*innen auch zu prüfen, ob für die verwendeten Werke
543	verschob sich dieser Fokus im Verlauf der Implementierungsphase auf Daten des
544	ersten Nutzungsszenarios (Kapitel 4.1), konkret auf PDF-Dateien und das
545	tabellarische Format des CoNLL-2009-Shared-Tasks. Werden unveränderte Ursprungsdaten
546	eingegliedert, ist von Seiten der Infrastrukturbetreiber*innen und
547	Datenanbieter*innen auch zu prüfen, ob für die verwendeten Werke
548	Archivierungsrechte oder Lizenzen mit äquivalenten Berechtigungen vorliegen,	499	Archivierungsrechte oder Lizenzen mit äquivalenten Berechtigungen vorliegen,
564	große Hürde darstellen. Dies sollte schon frühzeitig im Projekt eingeplant	515	große Hürde darstellen. Dies sollte schon frühzeitig im Projekt eingeplant
565	werden, damit die notwendigen und nicht selten ›format-fremden‹[33] Informationen nicht im	516	werden, damit die notwendigen und nicht selten ›format-fremden‹[27] Informationen nicht im Forschungsprozess
566	~~Forschungsprozess~~ verloren gehen und entweder durch manuellen Zusatzaufwand	517	verloren gehen und entweder durch manuellen Zusatzaufwand oder Anpassung
567	~~oder Anpassung~~ automatischer Verarbeitungsschritte wiederhergestellt werden	518	automatischer Verarbeitungsschritte wiederhergestellt werden müssen. Die Ablage
568	~~müssen. Die Ablage~~ der Alignierungsinformationen erfolgt analog zu obigen	519	der Alignierungsinformationen erfolgt analog zu obigen Ursprungs- und
569	~~Ursprungs- und~~ Annotationsdateien in einem nicht-öffentlichen Bereich.	520	Annotationsdateien in einem nicht-öffentlichen Bereich.
570	[35]Erzeugung eines Manifests: Als letztes muss ein	521	[35]Erzeugung eines Manifests: Als letztes muss ein
598	[36]Beim folgenden Beispiel handelt es sich um ein Manifest mit Informationen zu	549	[36]Beim folgenden Beispiel handelt es sich um ein Manifest mit Informationen zu
599	Primärdaten im Repositorium, Rechteinhaber*innen und voreingestellten Werten	550	Primärdaten im Repositorium, Rechteinhaber*innen und voreingestellten Werten für die
600	~~für die~~ statische Auszugsgenerierung. Das beschriebene Beispielkorpus ist eine	551	statische Auszugsgenerierung. Das beschriebene Beispielkorpus ist eine
601	100-seitige PDF-Datei (verlinkt im	552	100-seitige PDF-Datei (verlinkt im
643	[38]Sind alle Vorbereitungsschritte abgeschlossen, können Nachnutzer*innen über die	594	[38]Sind alle Vorbereitungsschritte abgeschlossen, können Nachnutzer*innen über die
644	Dataverse-Oberfläche (Abbildung 2) eine Zugriffsanfrage auf die XSample-Manifeste stellen.	595	Dataverse-Oberfläche (Abbildung
645	Wenn diese durch die Infrastrukturbetreiber*innen akzeptiert wird, dürfen die	596	2) eine Zugriffsanfrage auf die XSample-Manifeste stellen. Wenn diese
646	Nachnutzer*innen auf den XSample-Server (Abbildung 3) weitergeleitet werden, wo	597	durch die Infrastrukturbetreiber*innen akzeptiert wird, dürfen die
647	die eigentliche Konfiguration und Erstellung der Auszüge erfolgt. Da einzelnen	598	Nachnutzer*innen auf den XSample-Server (Abbildung 3) weitergeleitet werden, wo die
		599	eigentliche Konfiguration und Erstellung der Auszüge erfolgt. Da einzelnen
648	Nutzer*innen nach § 60c UrhG jeweils nur maximal 15 Prozent eines geschützten	600	Nutzer*innen nach § 60c UrhG jeweils nur maximal 15 Prozent eines geschützten
673	(Korpus-)Ressourcen. Anschließend haben Nutzer*innen die Möglichkeit, zwischen	625	(Korpus-)Ressourcen. Anschließend haben Nutzer*innen die Möglichkeit, zwischen
674	drei Arten der Auszugsgenerierung (vgl. Abbildung 3, unten links) auszuwählen:	626	drei Arten der Auszugsgenerierung (vgl. Abbildung 3, unten links) auszuwählen: Als
675	~~Als~~ simpelste Lösung kann ein statisch definierter Auszug (beispielsweise die	627	simpelste Lösung kann ein statisch definierter Auszug (beispielsweise die
676	ersten 10 Prozent oder ein anderer im Manifest definierter Abschnitt) gewählt	628	ersten 10 Prozent oder ein anderer im Manifest definierter Abschnitt) gewählt
677	werden. Wird mehr Kontrolle über die Zusammensetzung des Auszugs gewünscht,	629	werden. Wird mehr Kontrolle über die Zusammensetzung des Auszugs gewünscht,
678	bietet die zweite Alternative (vgl. Abbildung 4) die Möglichkeit, die	630	bietet die zweite Alternative (vgl. Abbildung 4) die Möglichkeit, die Auszugsgrenzen innerhalb der
679	Auszugsgrenzen innerhalb der Ursprungsdaten frei zu definieren (z. B. die	631	Ursprungsdaten frei zu definieren (z. B. die Seiten 20 bis 33). Auch hier wird
680	Seiten 20 bis 33). Auch hier wird eine zusammenhängende Sequenz an Seiten /	632	eine zusammenhängende Sequenz an Seiten / Segmenten geliefert.
681	Segmenten geliefert. In jedem Falle stehen die Auszugsdaten am Ende des
682	Workflows direkt als zip-Datei zum Download zur Verfügung, zusammen mit
683	bibliografischen Informationen zu den Auszügen und den Rechteinhaber*innen.
684		633
693	oder Passagen interessieren. Um dem gerecht zu werden, wird als dritte	642	oder Passagen interessieren. Um dem gerecht zu werden, wird als dritte
694	Alternative eine Korpusanfrageschnittstelle[34] integriert, die Suchanfragen auf Basis der im Korpus	643	Alternative eine Korpusanfrageschnittstelle[28] integriert, die Suchanfragen auf Basis der im Korpus
695	enthaltenen Annotationen ermöglicht. Dadurch lassen sich beispielsweise gezielt	644	enthaltenen Annotationen ermöglicht. Dadurch lassen sich beispielsweise gezielt
696	bestimmte syntaktische Konstruktionen finden[35], die dann als Kandidaten für	645	bestimmte syntaktische Konstruktionen finden[29], die dann als Kandidaten für
697	die Auszugserstellung genutzt werden (vgl. Abbildung 5). Basierend auf diesen	646	die Auszugserstellung genutzt werden (vgl. Abbildung 5). Basierend auf diesen
700	sicherstellen, dass die Auszüge optimal auf die individuellen Bedürfnisse der	649	sicherstellen, dass die Auszüge optimal auf die individuellen Bedürfnisse der
701	Nutzerinnen zugeschnitten sind. Da Nutzerinnen zu diesem Zeitpunkt der	650	Nutzer*innen zugeschnitten sind.
702	Auszugsgenerierung noch kein Zugriff auf die geschützten Daten gewährt werden
703	kann, wird lediglich eine visuelle Verteilung der Treffer und möglicher
704	Auszugssegmente angeboten. Etablierte Such- und Visualisierungswerkzeuge wie
705	ANNIS[36] oder
706	KorAP[37] stellen
707	zwar umfangreiche Such- und Exportmöglichkeiten zur Verfügung, bieten aber
708	nicht diese notwendige Abschirmung der Daten bis zur finalen Auszugserstellung.
709	Die den beiden erwähnten und anderen bestehenden Suchwerkzeugen zugrunde
710	liegenden Anfragesprachen und -Schnittstellen könnten allerdings als
711	Alternativen zu den im Prototypen integrierten Optionen für ICARUS und ICARUS2
712	dienen.
713		651
718	direkt visualisiert und Nutzer*innen anschließend die Möglichkeit	656	direkt visualisiert und Nutzer*innen anschließend die Möglichkeit
719	gegeben, die für sie relevanten Segmente exakt auszuwählen. [Gärtner	657	gegeben, die für sie relevanten Segmente exakt auszuwählen. [Gärtner 2021]
720	2021]
721		658
744	können, werden nur diejenigen weiterhin angeboten, die sich bewährt haben.	681	können, werden nur diejenigen weiterhin angeboten, die sich bewährt haben.
745	[42]Die Software für den Prototypen	682	[42]Die Software für den Prototypen ist open-source öffentlich verfügbar und kann
746	~~ist open-source öffentlich verfügbar und kann~~ somit auch von anderen	683	somit auch von anderen Einrichtungen genutzt werden, um eine eigene Instanz des
747	~~Einrichtungen genutzt werden, um eine eigene Instanz des~~ XSample-Servers zu	684	XSample-Servers zu betreiben. Neben einem laufenden Dataverse-Server wird
748	~~betreiben. Neben einem laufenden Dataverse-Server wird~~ lediglich eine	685	lediglich eine SQL-basierte Datenbank benötigt, um den XSample-Server in
749	~~SQL-basierte Datenbank benötigt, um den XSample-Server in~~ bestehende	686	bestehende Infrastruktur integrieren zu können. Die Anforderungen an
750	~~Infrastruktur integrieren zu können. Die Anforderungen an~~ Rechenleistung und	687	Rechenleistung und Speicherplatz für den Prototypen sind hierbei
751	~~Speicherplatz für den Prototypen sind hierbei~~ überschaubar.	688	überschaubar.
752	[43]Zwar ist der aktuelle Prototyp auf die Schnittstelle zu Dataverse beschränkt,	689	[43]Zwar ist der aktuelle Prototyp auf die Schnittstelle zu Dataverse beschränkt,
774	Disziplinen Literaturwissenschaft, Linguistik und Philosophie. Es handelt sich	711	Disziplinen Literaturwissenschaft, Linguistik und Philosophie. Es handelt sich
775	dabei um die Replikation einer Studie[38]	712	dabei um die Replikation einer Studie[30] zur Frage, wie sich
776	zur Frage, wie sich die Wissenschaftssprachen von Linguistik und	713	die Wissenschaftssprachen von Linguistik und Literaturwissenschaft voneinander
777	Literaturwissenschaft voneinander unterscheiden. Als Datengrundlage der	714	unterscheiden. Als Datengrundlage der Originalstudie dienen jeweils 30
778	Originalstudie dienen jeweils 30 Dissertationen aus den beiden Fächern. Die	715	Dissertationen aus den beiden Fächern. Die Unterschiede zwischen den beiden
779	Unterschiede zwischen den beiden Teilkorpora werden in einem datengeleiteten	716	Teilkorpora werden in einem datengeleiteten Verfahren mithilfe von maschinellem
780	Verfahren mithilfe von maschinellem Lernen ermittelt. Daran anschließend	717	Lernen ermittelt. Daran anschließend erfolgt eine Interpretation der
781	erfolgt eine Interpretation der deutlichsten Unterschiede vor dem Hintergrund	718	deutlichsten Unterschiede vor dem Hintergrund wissenschaftstheoretischer
782	wissenschaftstheoretischer Merkmale der beiden Disziplinen. In der	719	Merkmale der beiden Disziplinen. In der Replikationsstudie werden im
783	Replikationsstudie werden im Wesentlichen zwei Modifikationen vorgenommen:[39] Erstens	720	Wesentlichen zwei Modifikationen vorgenommen: Erstens erfolgt eine Veränderung
784	erfolgt eine Veränderung der Variable ›Textsorte‹ von Dissertationen hin zu	721	der Variable ›Textsorte‹ von Dissertationen hin zu Zeitschriftenartikeln.
785	Zeitschriftenartikeln. Während die Autor*innen von Dissertationen mit ihren	722	Während die Autor*innen von Dissertationen mit ihren Texten zwar ihre
786	Texten zwar ihre Beherrschung der fachtypischen Wissenschaftssprache	723	Beherrschung der fachtypischen Wissenschaftssprache nachweisen, durchlaufen
787	nachweisen, durchlaufen Zeitschriftenartikel in der Regel mehr Schritte der	724	Zeitschriftenartikel in der Regel mehr Schritte der Qualitätssicherung. Sie
788	Qualitätssicherung. Sie werden außerdem von der Fachgemeinschaft breiter	725	werden außerdem von der Fachgemeinschaft breiter rezipiert, sodass sie auch als
789	rezipiert, sodass sie auch als repräsentativer für die jeweilige	726	repräsentativer für die jeweilige fachspezifische Wissenschaftssprache gelten
790	fachspezifische Wissenschaftssprache gelten können. Zweitens wird die	727	können. Zweitens wird die Datengrundlage um die Philosophie als drittes
791	Datengrundlage um die Philosophie als drittes geisteswissenschaftliches Fach	728	geisteswissenschaftliches Fach erweitert. Dadurch werden Literaturwissenschaft
792	erweitert. Dadurch werden Literaturwissenschaft und Linguistik nochmals aus	729	und Linguistik nochmals aus einer neuen Perspektive beleuchtet, nämlich im
793	einer neuen Perspektive beleuchtet, nämlich im Kontrast zur Philosophie.	730	Kontrast zur Philosophie. Außerdem ist mit der Hinzunahme des dritten Faches
794	Außerdem ist mit der Hinzunahme des dritten Faches ein Schritt dahingehend	731	ein Schritt dahingehend getan, Aussagen über die Wissenschaftssprache der
795	getan, Aussagen über die Wissenschaftssprache der Geisteswissenschaften im	732	Geisteswissenschaften im Allgemeinen zu treffen.
796	Allgemeinen zu treffen.
797	[46]Das Korpus umfasst insgesamt 135 Zeitschriftenartikel, jeweils 45 pro Fach.	733	[46]Das Korpus umfasst insgesamt 135 Zeitschriftenartikel, jeweils 45 pro Fach.
798	Alle Texte werden automatisch mit Lemmata, Wortarten und syntaktischen	734	Alle Texte werden automatisch mit Lemmata, Wortarten und syntaktischen
799	Dependenzen annotiert. Für den XSample-Workflow werden die annotierten Texte im	735	Dependenzen annotiert. Für den XSample-Workflow werden die annotierten Texte im CoNLL-Format an der Universitätsbibliothek Stuttgart
800	CoNLL-2009-Format an der Universitätsbibliothek Stuttgart gespeichert. Die	736	gespeichert. Die Ursprungsdaten im PDF-Format werden gemeinsam mit den
801	Ursprungsdaten im PDF-Format werden gemeinsam mit den Annotationen im	737	Annotationen im Repositorium aufbewahrt. Um sicherzustellen, dass von den
802	Repositorium aufbewahrt. Um sicherzustellen, dass von den annotierten Daten	738	annotierten Daten wieder auf die PDF-Seiten der Ursprungsdaten geschlossen
803	wieder auf die PDF-Seiten der Ursprungsdaten geschlossen werden kann, müssen	739	werden kann, müssen hierbei Informationen zur Alignierung der beiden
804	hierbei Informationen zur Alignierung der beiden Dateiformate gespeichert	740	Dateiformate gespeichert werden. Im Falle dieses Nutzungsszenarios erfolgt dies
805	werden. Im Falle dieses Nutzungsszenarios erfolgt dies in Form einer einfachen	741	in Form einer einfachen Tabelle für jedes Dokument, die für jeden fortlaufend
806	Tabelle für jedes Dokument, die für jeden fortlaufend nummerierten Satz	742	nummerierten Satz verzeichnet, auf welcher Seite oder welchen Seiten im
807	verzeichnet, auf welcher Seite oder welchen Seiten im PDF-Dokument er zu finden	743	PDF-Dokument er zu finden ist.
808	ist.	744	[47]Im Fokus der Replikationsstudie stehen Einzelwörter und Wortartentags (Unigramme), während die vorausgehende Studie[31] einen besonderen Schwerpunkt auf
809	[47]Im Fokus der Replikationsstudie steht der Teil der vorausgehende Studie[40],	745	Sequenzen legt, die entlang der syntaktischen Dependenzen im Satz gebildet
810	der Einzelwörter und Wortartentags (Unigramme)	746	werden. Hiervon abgesehen orientiert sich die Replikationsstudie in
811	betrachtet.[41]	747	methodischer Hinsicht eng am Original: Im ersten Schritt werden die Merkmale
812	In methodischer Hinsicht orientiert sich die Replikationsstudie eng am	748	mit den größten Unterschieden zwischen den Teilkorpora auf datengeleitete Weise
813	Original: Im ersten Schritt werden die Merkmale mit den größten Unterschieden	749	ermittelt. Zu diesem Zweck wird mit dem maschinellen Lernverfahren der Support-Vector-Machine (SVM) ein Klassifikator trainiert,
814	zwischen den Teilkorpora auf datengeleitete Weise ermittelt. Zu diesem Zweck	750	der jeweils zwischen Texten aus zwei der drei Disziplinen unterscheiden soll.
815	wird mit dem maschinellen Lernverfahren der Support-Vector-Machine (SVM) ein Klassifikator trainiert, der	751	Die lineare SVM bietet die Möglichkeit, auf die Koeffizienten zuzugreifen, die
816	jeweils zwischen Texten aus zwei der drei Disziplinen unterscheiden soll. Die	752	für jedes Merkmal ausdrücken, wie hilfreich es für die Klassifikationsaufgabe
817	lineare SVM bietet die Möglichkeit, auf die Koeffizienten zuzugreifen, die für	753	war. Anhand dieser Koeffizienten wird ein Feature-Ranking wie in Tabelle 1 erstellt, das die
818	jedes Merkmal ausdrücken, wie hilfreich es für die Klassifikationsaufgabe war.	754	größten Unterschiede zwischen den Teilkorpora (im Sinne der SVM) darstellt. Der
819	Anhand dieser Koeffizienten wird ein Feature-Ranking wie in Tabelle 1 erstellt, das die größten Unterschiede	755	zweite Schritt der Analyse besteht dann in der Interpretation dieses
820	zwischen den Teilkorpora (im Sinne der SVM) darstellt. Der zweite Schritt der	756	Feature-Rankings. Welche sprachlichen Unterschiede verbergen sich hinter den
821	Analyse besteht dann in der Interpretation dieses Feature-Rankings. Welche	757	Merkmalen und (wie) können sie anhand wissenschaftstheoretischer Merkmale der
822	sprachlichen Unterschiede verbergen sich hinter den Merkmalen und (wie) können	758	Disziplinen erklärt werden? Während der erste Schritt rein datengeleitet
823	sie anhand wissenschaftstheoretischer Merkmale der Disziplinen erklärt werden?	759	arbeitet, muss für die Interpretation auf unterschiedliche Ressourcen
824	Während der erste Schritt rein datengeleitet arbeitet, muss für die	760	zurückgegriffen werden: Erstens ist der erneute Rückgriff auf das Korpus
825	Interpretation auf unterschiedliche Ressourcen zurückgegriffen werden: Erstens	761	notwendig, um verstehen zu können, wie das Merkmal in den Texten verwendet
826	ist der erneute Rückgriff auf das Korpus notwendig, um verstehen zu können, wie	762	wird. Zweitens muss Wissen über die wissenschaftstheoretischen Merkmale der
827	das Merkmal in den Texten verwendet wird. Zweitens muss Wissen über die	763	Disziplinen sowie bereits vorhandene empirische Erkenntnisse zu den
828	wissenschaftstheoretischen Merkmale der Disziplinen sowie bereits vorhandene	764	vorliegenden Phänomenen herangezogen werden, um die Daten in einen funktionalen
829	empirische Erkenntnisse zu den vorliegenden Phänomenen herangezogen werden, um	765	Zusammenhang setzen und gegebenenfalls erklären zu können.
830	die Daten in einen funktionalen Zusammenhang setzen und gegebenenfalls erklären
831	zu können.
832		766
931		865
932	Tab. 1: Die distinktivsten ~~Wortarten~~	866	Tab. 1: Die distinktivsten
933	für die Unterscheidung von Philosophie und Literaturwissenschaft ~~im Sinne~~	867	Wortarten für die Unterscheidung von Philosophie und Literaturwissenschaft
934	der SVM. Das verwendete Tagset ist das STTS (Schiller et al. ~~1999). [Andresen~~	868	im Sinne der SVM. Das verwendete Tagset ist das STTS (Schiller et al.
935	2022]	869	1999). [Andresen 2022]
936	[48]Diese Schritte werden im Folgenden am Beispiel der Analyse der Verwendung des	870	[48]Diese Schritte werden im Folgenden am Beispiel der Analyse der Verwendung des
939	Überprüfung und Re-Validierung der Analyseresultate vonnöten sind.	873	Überprüfung und Re-Validierung der Analyseresultate vonnöten sind.
940	[49]Tabelle 1 zeigt das Ranking ~~der 15~~	874	[49]Tabelle 1 zeigt das Ranking
941	distinktivsten Wortarten für den Vergleich von Philosophie und	875	der 15 distinktivsten Wortarten für den Vergleich von Philosophie und
942	Literaturwissenschaft. Während sich aus diesen Ergebnissen zahlreiche relevante	876	Literaturwissenschaft. Während sich aus diesen Ergebnissen zahlreiche relevante
953	Stichprobe von 100 Sätzen, in denen wir verwendet	887	Stichprobe von 100 Sätzen, in denen wir verwendet
954	wird, nach dem Zufallsprinzip ausgewählt und manuell ~~in Bezug auf ihre Funktion~~	888	wird, nach dem Zufallsprinzip ausgewählt und manuell klassifiziert. Dabei wurde
955	~~klassifiziert. Dabei wurde~~ auf die Klassifikation von wir-Verwendungen im ~~deutschsprachigen akademischen Diskurs von~~	889	auf die Klassifikation von wir-Verwendungen im
956	Kresta[42] ~~zurückgegriffen. Kresta~~	890	deutschsprachigen akademischen Diskurs von Kresta[32]
957	unterscheidet vier Gebrauchsweisen von wir in	891	zurückgegriffen. Kresta unterscheidet vier Gebrauchsweisen von wir in deutschsprachigen akademischen Texten: Das
958	~~deutschsprachigen akademischen Texten: Das~~ Pronomen wird verwendet,	892	Pronomen wird verwendet,
959	a.) um auf die tatsächlichen Verfasser*innen eines Textes zu verweisen	893	a.) um auf die tatsächlichen Verfasser*innen eines Textes zu verweisen
967		901
968	[50]Die Stichproben zeigen (vgl. Tabelle	902	[50]Die Stichproben zeigen (vgl. Tabelle 2) in den Texten fachspezifische Muster der wir-Verwendungen: So sind sich die
969	2) in den Texten fachspezifische Muster der wir-Verwendungen: So sind sich die literaturwissenschaftlichen und	903	literaturwissenschaftlichen und philosophischen Texte darin ähnlich, dass in
970	philosophischen Texte darin ähnlich, dass in beiden Gruppen die Verwendung des	904	beiden Gruppen die Verwendung des Gemeinschafts-wir
971	Gemeinschafts-wir dominiert, während in den	905	dominiert, während in den linguistischen Aufsätzen die Verwendung des
972	linguistischen Aufsätzen die Verwendung des Autorinnen-wir vorherrscht. Die Dominanz des Autorinnen-wir in der Linguistik lässt sich dadurch erklären, dass die Texte	906	Autor*innen-wir vorherrscht. Die Dominanz des
973	tatsächlich mehrheitlich von mehreren Autor*innen verfasst wurden (siehe	907	Autor*innen-wir in der Linguistik lässt sich
974	Beispiel 1). Diese Praxis scheint in der Linguistik weitaus üblicher zu sein	908	dadurch erklären, dass die Texte tatsächlich mehrheitlich von mehreren
975	als in den anderen beiden Fächern. Die Ähnlichkeit von Philosophie und	909	Autor*innen verfasst wurden (siehe Beispiel 1). Diese Praxis scheint in der
976	Literaturwissenschaft in ihrer Verwendung des Gemeinschafts-wir mag hingegen verwundern, da die beiden Fächer häufig ihre	910	Linguistik weitaus üblicher zu sein als in den anderen beiden Fächern. Die
977	formal-sprachlichen Unterschiede betonen. Insbesondere in der Philosophie dient	911	Ähnlichkeit von Philosophie und Literaturwissenschaft in ihrer Verwendung des
978	die Kennzeichnung eines philosophischen Ansatzes als ›literarisch‹ oft der	912	Gemeinschafts-wir mag hingegen verwundern, da die
979	Kritik am philosophischen Gehalt desselben.[43] Eine Auswertung der konkreten Belegstellen	913	beiden Fächer häufig ihre formal-sprachlichen Unterschiede betonen.
980	zeigt jedoch, dass es sich in den beiden Fächern um unterschiedlich geartete	914	Insbesondere in der Philosophie dient die Kennzeichnung eines philosophischen
981	Manifestationen des Gemeinschafts-wir handelt, die	915	Ansatzes als ›literarisch‹ oft der Kritik am philosophischen Gehalt
982	man wiederum mit landläufigen Kennzeichen der beiden Fächer in Verbindung	916	desselben.[33] Eine Auswertung der konkreten
983	bringen kann: So dominiert in der Stichprobe aus der Philosophie ein Gebrauch	917	Belegstellen zeigt jedoch, dass es sich in den beiden Fächern um
984	des Gemeinschafts-wir, der letztendlich auf die	918	unterschiedlich geartete Manifestationen des Gemeinschafts-wir handelt, die man wiederum mit landläufigen Kennzeichen der
985	grundlegenden Bedingungen des menschlichen Denkens und Handelns abzielt, wie	919	beiden Fächer in Verbindung bringen kann: So dominiert in der Stichprobe aus
986	das Beispiel 2 belegt. In der Stichprobe aus der Literaturwissenschaft, deren	920	der Philosophie ein Gebrauch des Gemeinschafts-wir
987	zentralen Tätigkeiten die Lektüre und Interpretation von Texten sind, wird in	921	der letztendlich auf die grundlegenden Bedingungen des menschlichen Denkens und
988	31 der 54 Verwendungen des Gemeinschafts-wir genau	922	Handelns abzielt, wie das Beispiel 2 belegt. In der Stichprobe aus der
989	auf jene Praxis verwiesen, indem eine Art ›idealer Leserin‹ konstituiert wird	923	Literaturwissenschaft, deren zentralen Tätigkeiten die Lektüre und
990	(siehe Beispiel 3), weswegen in diesem Fall auch vom Leser*innen-wir gesprochen werden kann.	924	Interpretation von Texten sind, wird in 31 der 54 Verwendungen des
		925	Gemeinschafts-wir genau auf jene Praxis
		926	verwiesen, indem eine Art ›idealer Leserin‹ konstituiert wird (siehe Beispiel
		927	3), weswegen in diesem Fall auch vom Leser*innen-wir
		928	gesprochen werden kann.
991		929
1036		974
1037	Tab. 2: Manuelle Kategorisierung der	975	Tab. 2: Manuelle Kategorisierung
1038	wir-Verwendung in einer Stichprobe von 100	976	der wir-Verwendung in einer Stichprobe von 100 Instanzen pro Disziplin. [Pichler 2022]
1039	Instanzen pro Disziplin. [Pichler 2022]
1040	[51]Folgende Textausschnitte sollen als Beispiele für die nach Fachrichtung	977	[51]Folgende Textausschnitte sollen als Beispiele für die nach Fachrichtung
1059	unterschiedlichen Phasen der Analyse verbunden sind: Für die datengeleitete	996	unterschiedlichen Phasen der Analyse verbunden sind: Für die datengeleitete
1060	Ermittlung distinktiver Merkmale ist es für Nachnutzer*innen oder	997	Ermittlung distinktiver Merkmale ist es ausreichend, wenn die Texte nur in Form
1061	Gutachter*innen ausreichend, wenn ihnen die Texte nur in Form von	998	von n-Gramm-Frequenzen, also in einem abgeleiteten Format, vorliegen. Auf der
1062	n-Gramm-Frequenzen, also in einem abgeleiteten Format, vorliegen. Auf der
1063	Grundlage von z. B. Wortartenfrequenzen kann dieser Teil der Analyse direkt	999	Grundlage von z. B. Wortartenfrequenzen kann dieser Teil der Analyse direkt
1064	reproduziert werden.[44] Außerdem ist es etwa	1000	reproduziert werden.[34] Außerdem ist es etwa
1065	möglich, die distinktiven Merkmale auf den gleichen Daten mithilfe anderer	1001	möglich, die distinktiven Merkmale auf den gleichen Daten mithilfe anderer
1071	Textformate gedeckt.	1007	Textformate gedeckt.
1072	[53]Geht es hingegen um eine Interpretation der Daten, welche auf semantische und	1008	[53]Geht es hingegen um die Interpretation der Daten, reichen Frequenzinformationen
1073	pragmatische Dimensionen abzielt, reichen Frequenzinformationen nicht mehr aus,	1009	nicht mehr aus. Um das Phänomen zu verstehen und gegebenenfalls erklären zu
1074	um das Vorgehen in der Studie im Rahmen eines Gutachten zu bewerten oder eigene	1010	können, ist es notwendig, konkrete Verwendungen im Korpus mitsamt ihrem Kontext
1075	Schlüsse aus den Daten zu ziehen. Um konkrete (semantische oder pragmatische)	1011	zu sichten. Die notwendige Kontextgröße hängt dabei von der Natur des
1076	Phänomene, wie zum Beispiel in Hinblick auf den Gebrauch von wir, zu verstehen	1012	untersuchten Phänomens ab. Für die wir-Analyse
1077	und gegebenenfalls erklären zu können, ist es notwendig, konkrete Verwendungen	1013	wurden pro Fach 100 zufällige Sätze untersucht. Ein zumindest
1078	im Korpus mitsamt ihrem Kontext zu sichten. Die notwendige Kontextgröße hängt	1014	stichprobenartiger Zugriff auf Volltextdaten, wie er durch den XSample-Ansatz
1079	dabei von der Natur des untersuchten Phänomens ab. Für die wir-Analyse wurden pro Fach 100 zufällige Sätze untersucht. Ein	1015	ermöglicht wird, ist zentral, um geisteswissenschaftlich fundierte Aussagen
1080	zumindest stichprobenartiger Zugriff auf Volltextdaten, wie er durch den	1016	treffen und nachvollziehbar machen zu können.
1081	XSample-Ansatz ermöglicht wird, ist zentral, um geisteswissenschaftlich
1082	fundierte Aussagen treffen und nachvollziehbar machen zu können.
1083		1017
1090	unzutreffende, zweifelhafte oder in relevanter Hinsicht unvollständige Aussagen	1024	unzutreffende, zweifelhafte oder in relevanter Hinsicht unvollständige Aussagen
1091	über die Fakten oder Ereignisse der erzählten Welt tätigt.[45]	1025	über die Fakten oder Ereignisse der erzählten Welt tätigt.[35]
1092	[55]Im Gegensatz zum ersten Anwendungsfall handelt es sich beim zweiten nicht um	1026	[55]Im Gegensatz zum ersten Anwendungsfall handelt es sich beim zweiten nicht um
1097	Erzählen gilt in der Literaturwissenschaft einerseits als stark	1031	Erzählen gilt in der Literaturwissenschaft einerseits als stark
1098	interpretationsabhängiges Phänomen,[46] andererseits listet die Forschung zahlreiche	1032	interpretationsabhängiges Phänomen,[36] andererseits listet die Forschung zahlreiche
1099	sprachliche Indikatoren, die auf unzuverlässiges Erzählen hinweisen	1033	sprachliche Indikatoren, die auf unzuverlässiges Erzählen hinweisen
1100	können.[47] Leser*innen können solche Merkmale – unter Rückgriff auf	1034	können.[37]
1101	allgemeines Weltwissen sowie literarische und literaturwissenschaftliche	1035	Leser*innen können solche Merkmale – unter Rückgriff auf allgemeines Weltwissen
1102	Kontexte – zum Anlass nehmen, der Erzählinstanz eines fiktionalen Textes	1036	sowie literarische und literaturwissenschaftliche Kontexte – zum Anlass nehmen,
1103	Unzuverlässigkeit zuzuschreiben. In diesem Rahmen entwickeln sie eine	1037	der Erzählinstanz eines fiktionalen Textes Unzuverlässigkeit zuzuschreiben. In
1104	inhaltsspezifizierende Interpretation[48] des Textes, d. h. sie bilden Annahmen darüber, was in der	1038	diesem Rahmen entwickeln sie eine inhaltsspezifizierende Interpretation[38] des Textes, d. h. sie
1105	fiktiven Welt des Textes wahr und was falsch ist.	1039	bilden Annahmen darüber, was in der fiktiven Welt des Textes wahr und was
		1040	falsch ist.
1106	[56]Um die Schluss- und Argumentationsprozesse bei der Feststellung bzw.	1041	[56]Um die Schluss- und Argumentationsprozesse bei der Feststellung bzw.
1123	angewandt. Für die Teilfragen (1) und (2) werden automatische Verfahren zur	1058	angewandt. Für die Teilfragen (1) und (2) werden automatische Verfahren zur
1124	Erkennung von Named Entities[49] und Redewiedergabe[50] verwendet, zusätzlich wurden Koreferenzen	1059	Erkennung von Named Entities[39] und Redewiedergabe[40] verwendet, zusätzlich wurden Koreferenzen
1125	exemplarisch manuell annotiert. Für Fragen (3) und (4) muss – wie es bei der	1060	exemplarisch manuell annotiert. Für Fragen (3) und (4) muss – wie es bei der
1127	zunächst ein eigenes Annotationsschema entwickelt werden, das dann im Rahmen	1062	zunächst ein eigenes Annotationsschema entwickelt werden, das dann im Rahmen
1128	manueller Annotation auf die Texte angewandt wird.[51] Für Frage (5)	1063	manueller Annotation auf die Texte angewandt wird.[41] Für Frage (5)
1129	wird exemplarisch eine Indikatorengruppe aus der Unzuverlässigkeitsforschung in	1064	wird exemplarisch eine Indikatorengruppe aus der Unzuverlässigkeitsforschung in
1130	den Fokus genommen: die Verwendung emotionaler bzw. wertender Sprache, für	1065	den Fokus genommen: die Verwendung emotionaler bzw. wertender Sprache, für
1131	deren Erkennung eine Kombination aus automatischer Sentimentanalyse[52] und manueller Emotionsanalyse	1066	deren Erkennung eine Kombination aus automatischer Sentimentanalyse[42] und manueller Emotionsanalyse
1132	eingesetzt wird.	1067	eingesetzt wird.
1135	der Operationalisierung literaturwissenschaftlicher Forschungsfragen als auch	1070	der Operationalisierung literaturwissenschaftlicher Forschungsfragen als auch
1136	technisch im Hinblick auf die Anpassung oder Neuentwicklung von Tools.[53] Deswegen kann es bei der Auswertung der	1071	technisch im Hinblick auf die Anpassung oder Neuentwicklung von Tools.[43] Deswegen kann
1137	Pilotstudie noch nicht darum gehen, die übergeordnete Forschungsfrage zu den	1072	es bei der Auswertung der Pilotstudie noch nicht darum gehen, die übergeordnete
1138	Schluss- und Argumentationsprozessen bei der Feststellung unzuverlässigen	1073	Forschungsfrage zu den Schluss- und Argumentationsprozessen bei der
1139	Erzählens zu beantworten. Dennoch kann ein Einblick in die Daten bereits in	1074	Feststellung unzuverlässigen Erzählens zu beantworten. Dennoch kann ein
1140	diesem Zwischenstadium aufschlussreich sein. Generell ist Forschung im Bereich	1075	Einblick in die Daten bereits in diesem Zwischenstadium aufschlussreich sein.
1141	der Digital Humanities (und besonders im Bereich der Computational Literary Studies) stärker als in den traditionellen	1076	Generell ist Forschung im Bereich der Digital Humanities (und besonders im
1142	Geisteswissenschaften durch »Prozessualität, Vorläufigkeit und	1077	Bereich der Computational Literary Studies) stärker als
1143	›Nichtwissen‹«[54] gekennzeichnet. Dies lässt sich durchaus als Stärke	1078	in den traditionellen Geisteswissenschaften durch »Prozessualität,
1144	dieser Ansätze verstehen, weil dadurch die Zwischenschritte der Forschung und	1079	Vorläufigkeit und ›Nichtwissen‹«[44] gekennzeichnet. Dies lässt sich
1145	Entwicklung dokumentiert (und damit durch Dritte einsehbar) werden, die in	1080	durchaus als Stärke dieser Ansätze verstehen, weil dadurch die Zwischenschritte
1146	nicht-digitalen literaturwissenschaftlichen Zugängen oft implizit bleiben.	1081	der Forschung und Entwicklung dokumentiert (und damit durch Dritte einsehbar)
		1082	werden, die in nicht-digitalen literaturwissenschaftlichen Zugängen oft
		1083	implizit bleiben.
1147	[59]Beim zweiten Nutzungsszenario dient eine Einsicht in die Daten durch Dritte	1084	[59]Beim zweiten Nutzungsszenario dient eine Einsicht in die Daten durch Dritte
1162	mittels abgeleiteter Textformate (z. B. bestimmter tokenbasierter	1099	mittels abgeleiteter Textformate (z. B. bestimmter tokenbasierter
1163	Formate[55])	1100	Formate[45]) geprüft
1164	~~geprüft~~ werden. Zusätzlich können Nachnutzer*~~nnen~~ sich damit ebenfalls einen	1101	werden. Zusätzlich können Nachnutzer*innen sich damit ebenfalls einen ersten
1165	~~ersten~~ Eindruck hinsichtlich der im jeweiligen Text auftretenden Figuren	1102	Eindruck hinsichtlich der im jeweiligen Text auftretenden Figuren
1166	verschaffen.[56]	1103	verschaffen.[46]
1167	Automatische Sentimentanalyse: Um zu beurteilen, ob	1104	Automatische Sentimentanalyse: Um zu beurteilen, ob
1195	Analyse sind oft langwierige Prozesse und benötigen im Rahmen von manueller	1132	Analyse sind oft langwierige Prozesse und benötigen im Rahmen von manueller
1196	(und meist kollaborativer) Annotation häufig mehrere Durchläufe.[57] Im Rahmen	1133	(und meist kollaborativer) Annotation häufig mehrere Durchläufe.[47] Im Rahmen
1197	des zweiten Nutzungsszenarios hat ein erster dieser Durchläufe	1134	des zweiten Nutzungsszenarios hat ein erster dieser Durchläufe
1232	eines generischen Tagsets für diese Annotationsaufgabe wünschenswert, in dem	1169	eines generischen Tagsets für diese Annotationsaufgabe wünschenswert, in dem
1233	beispielsweise Propositionen in Typen (z. B. in singular, particularized und general) unterteilt und verschiedene Rollen der	1170	beispielsweise Propositionen in Typen (z. B. in singular, particularized und general) unterteilt und verschiedene Rollen der Propositionen im Rahmen von Argumenten (Prämisse und
1234	Propositionen im Rahmen von Argumenten (Prämisse und Konklusion)	1171	Konklusion) unterschieden werden.
1235	unterschieden werden. Deshalb ist zu erwarten, dass sich die	1172	Deshalb ist zu erwarten, dass sich die Annotationskategorien und
1236	Annotationskategorien und Anwendungsrichtlinien noch erheblich verändern	1173	Anwendungsrichtlinien noch erheblich verändern werden. Aus diesem Grund kann
1237	werden. Aus diesem Grund kann der Nachvollzug der einzelnen	1174	der Nachvollzug der einzelnen Operationalisierungsschritte durch Dritte von
1238	Operationalisierungsschritte durch Dritte von besonderer Bedeutung sein.	1175	besonderer Bedeutung sein. Dieser wird wieder durch Zugriff auf
1239	Dieser wird wieder durch Zugriff auf Annotationskategorien /	1176	Annotationskategorien / Anwendungsrichtlinien im Manifest sowie (mindestens)
1240	Anwendungsrichtlinien im Manifest sowie (mindestens) zusammenhängende	1177	zusammenhängende Textabschnitte ermöglicht. An dieser Stelle tritt ein
1241	Textabschnitte ermöglicht. An dieser Stelle tritt ein weiterer Unterschied	1178	weiterer Unterschied zur manuellen Emotionsanalyse zutage: Während bei der
1242	zur manuellen Emotionsanalyse zutage: Während bei der Emotionsanalyse anhand	1179	Emotionsanalyse anhand sprachlicher Indikatoren vornehmlich einzelne Wörter
1243	sprachlicher Indikatoren vornehmlich einzelne Wörter annotiert werden,	1180	annotiert werden, betrifft die Annotation bei der Analyse in Frage stehender Propositionen mindestens Teilsätze. Tokenbasierte abgeleitete Textformate sind
1244	betrifft die Annotation bei der Analyse in Frage stehender Propositionen	1181	deswegen weder für den Nachvollzug der Kategorienentwicklung oder der
1245	mindestens Teilsätze. Tokenbasierte abgeleitete Textformate sind deswegen
1246	weder für den Nachvollzug der Kategorienentwicklung oder der
1247	Annotationsentscheidungen noch für einen ersten Einblick in die Ergebnisse	1182	Annotationsentscheidungen noch für einen ersten Einblick in die Ergebnisse
1268	Anwendungsfälle deutlich stärker annähert als abgeleitete Textformate und	1203	Anwendungsfälle deutlich stärker annähert als abgeleitete Textformate und
1269	Forschenden eine Möglichkeit bietet, (auch) an urheberrechtlich geschützten	1204	Forschenden eine Möglichkeit bietet, (auch) an urheberrechtlich geschützten Texten solch komplexe literarische
1270	~~Texten solch komplexe literarische~~ Phänomene zu untersuchen.	1205	Phänomene zu untersuchen.
1271		1206
1294	die Nützlichkeit dieses Ansatzes für das individuelle Forschungsvorhaben zu	1229	die Nützlichkeit dieses Ansatzes für das individuelle Forschungsvorhaben zu
1295	maximieren, ermöglicht der XSample-Workflow den Nutzer*~~nnen~~, Textauszüge flexibel	1230	maximieren, ermöglicht der XSample-Workflow den Nutzer*innen, Textauszüge flexibel
1296	anhand von Suchanfragen an den Text und seine Annotationen auszuwählen.	1231	anhand von Suchanfragen an den Text und seine Annotationen auszuwählen.
1358	[1]	1293	[1]
1359	Die Namen der Autor*innen sind in	1294	Die Namen der Autor*innen sind in den
1360	den Verfasserangaben alphabetisch aufgelistet. Im Projekt befanden sich	1295	Verfasserangaben alphabetisch aufgelistet. Im Projekt befanden sich juristische
1361	juristische Fragestellungen im Arbeitsschwerpunkt von Felicitas Kleinkopf;	1296	Fragestellungen im Arbeitsschwerpunkt von Felicitas Kleinkopf; Markus Gärtner
1362	Markus Gärtner befasste sich mit der technischen Umsetzung der Infrastruktur;	1297	befasste sich mit der technischen Umsetzung der Infrastruktur; das erste
1363	das erste Nutzungsszenario wurde von Melanie Andresen und Axel Pichler, das	1298	Nutzungsszenario wurde von Melanie Andresen und Axel Pichler, das zweite von
1364	zweite von Janina Jacke und Nora Ketschik bearbeitet; Sibylle Hermann	1299	Janina Jacke und Nora Ketschik bearbeitet; Sibylle Hermann koordinierte die
1365	koordinierte die Projektarbeit und die Anbindung an die bibliothekarische	1300	Projektarbeit und die Anbindung an die bibliothekarische Infrastruktur; Jonas
1366	Infrastruktur; Jonas Kuhn war für konzeptionelle Fragen verantwortlich. Die	1301	Kuhn war für konzeptionelle Fragen verantwortlich. Die textuelle Darstellung in
1367	textuelle Darstellung in diesem Artikel wurde gemeinschaftlich von den	1302	diesem Artikel wurde gemeinschaftlich von den Projektbeteiligten des XSample-Projekts, auch über die Zuständigkeitsgrenzen
1368	Projektbeteiligten des XSample-Projekts, auch über	1303	im Projekt hinweg, erstellt.
1369	die Zuständigkeitsgrenzen im Projekt hinweg, erstellt.
1370		1304
1371	[2]	1305	[2]
1372	Ähnliche Restriktionen gibt es auch in anderen Rechtsordnungen,	1306	Die FAIR-Prinzipien formulieren vier
1373	das betrifft aufgrund derselben zugrunde liegenden EU-Urheberrechts-Richtlinien	1307	zentrale Anforderungen an Forschungsdaten: Sie sollten Findable, Accessible,
1374	insbesondere die EU-Mitgliedsstaaten, während insbesondere das US-amerikanische	1308	Interoperable und Reusable sein, siehe Wilkinson et al. 2016.
1375	Copyright-Law mit der sogenannten Fair-Use-Doktrin grundsätzlich anders
1376	ausgestaltet ist. Gegenstand dieser Darstellung ist allerdings allein das
1377	deutsche Urheberrecht inklusive seiner Grundlagen aus dem Unionsrecht.
1378		1309
1379	[3]	1310	[3]
1380	~~Die FAIR-Prinzipien~~	1311	Der Schutz
1381	~~formulieren vier zentrale Anforderungen an Forschungsdaten:~~ ~~Sie sollten~~	1312	von Texten durch das deutsche Urheberrecht endet siebzig Jahre nach Tod der
1382	~~Findable~~, ~~Accessible, Interoperable~~ und ~~Reusable sein, siehe Wilkinson et al.~~	1313	Autor*innen, sodass kein direkter Zusammenhang zwischen Publikationsjahr und
1383	~~2016.~~	1314	dem Ende des urheberrechtlichen Schutzes besteht.
1384		1315
1385	[4]	1316	[4]
1386	Der Schutz von Texten durch das deutsche	1317	Vgl.
1387	Urheberrecht endet siebzig Jahre nach Tod der Autor*innen, sodass kein direkter	1318	Schöch et al. 2020.
1388	Zusammenhang zwischen Publikationsjahr und dem Ende des urheberrechtlichen
1389	Schutzes besteht.
1390		1319
1391	[5]	1320	[5]
1392	Vgl.	1321
1393	Schöch et al.	1322	Vgl. Jockers 2013.
1394	2020.
1395		1323
1396	[6]	1324	[6]
1397	Vgl. Jockers 2013.
1398
1399
1400	[7]
1401	Unter TDM versteht	1325	Unter TDM versteht
1403	digitalen oder digitalisierten Werken, um daraus Informationen insbesondere	1327	digitalen oder digitalisierten Werken, um daraus Informationen insbesondere
1404	über Muster, Trends und Korrelationen zu gewinnen« (§§ 44b Abs.	1328	über Muster, Trends und Korrelationen zu gewinnen« (§§ 44b Abs. 1,
1405	1, 60d Abs. 1 UrhG). Unterschieden wird rechtlich zwischen der	1329	60d Abs. 1 UrhG). Unterschieden wird rechtlich zwischen der eigentlichen
1406	~~eigentlichen~~ automatisierten Analyse, die urheberrechtlich freigestellt ist,	1330	automatisierten Analyse, die urheberrechtlich freigestellt ist, und den dafür
1407	~~und den dafür~~ notwendigen Vorbereitungsschritten, die wiederum urheberrechtlich	1331	notwendigen Vorbereitungsschritten, die wiederum urheberrechtlich relevant
1408	~~relevant~~ sind. Unter das gesetzgeberische Verständnis von TDM kann ein Großteil	1332	sind. Unter das gesetzgeberische Verständnis von TDM kann ein Großteil
1409	textbasierter Forschung gefasst werden, auch wenn die Forscher*innen ihre	1333	textbasierter Forschung gefasst werden, auch wenn die Forscher*innen ihre
1412		1336
1413	[8]	1337	[7]
1414		1338
1415	Einen umfassenderen Überblick über die Detailfragen des Forschungsprozesses	1339	Einen umfassenderen Überblick über die Detailfragen des Forschungsprozesses
1416	bieten zum alten Recht Dreier / Schulze 2018, § 60d; Kleinkopf et al. 2021; vorwiegend auch	1340	bieten zum alten Recht Dreier / Schulze 2018, § 60d;
1417	Schöch et al.	1341	Kleinkopf et al. 2021;
1418	2020, Absatz 5–14; zu § 60d in seiner neuen Fassung, vgl. Dreier in Dreier / Schulze	1342	vorwiegend auch Schöch et al. 2020, Randnummer 5–14; zu § 60d in seiner neuen Fassung,
1419	2022, § 44b und § 60d; Raue 2021; Kleinkopf / Pflüger 2021, S. 645–647;	1343	vgl. Dreier in Dreier / Schulze 2022, § 44b und § 60d;
1420	eine Betrachtung auf EU-Ebene bieten Gärtner et al. 2021, S. 11–13. Vgl.	1344	Raue 2021;
1421	auch Kleinkopf	1345	Kleinkopf / Pflüger 2021, S. 645–647;
1422	2022.	1346	eine Betrachtung auf EU-Ebene bieten
		1347	Gärtner et
		1348	al. 2021, S. 11–13.
1423		1349
1424	[9]	1350	[8]
1425	Erlaubnisnormen werden im	1351	Erlaubnisnormen werden im
1428		1354
		1355	[9]
		1356	Bundesgesetzblatt Jahrgang
		1357	2021 Teil I Nr. 27, ausgegeben zu Bonn am 4. Juni 2021.
		1358
1429	[10]	1359	[10]
1430	Bundesgesetzblatt	1360	Vertraglich oder technisch darf das TDM im
1431	Jahrgang 2021 Teil I Nr. 27, ausgegeben zu Bonn am 4. Juni 2021.	1361	Rahmen wissenschaftlicher Zwecke (§ 60d UrhG) auch im Grundsatz nicht
		1362	ausgeschlossen werden (§ 60g Abs. 1, 95b Abs. 1, 3 UrhG). Etwas anderes gilt
		1363	für kommerzielles TDM im Rahmen des § 44b UrhG oder für die Sicherung der
		1364	Funktionsfähigkeit technischer Systeme (§ 60d Abs. 6 UrhG).
1432		1365
1433	[11]	1366	[11]
1434	In diesen kommerziellen Kontexten dürfen	1367	Dreier in Dreier /
1435	für das TDM Werke vervielfältigt werden (§ 44b Abs. 2 S. 1 UrhG), diese	1368	Schulze 2022, § 15 Randnummer 38 mit Verweis auf den EuGH.
1436	müssen aber gelöscht werden, wenn sie für das TDM nicht mehr erforderlich
1437	sind (§ 44b Abs. 2 S. 2 UrhG). Zudem können Rechteinhaber*innen an ihren
1438	Werken (maschinenlesbare) Nutzungsvorbehalte anbringen, die von denjenigen,
1439	die auf Grundlage des § 44b UrhG TDM betreiben, ab dem Zeitpunkt ihrer
1440	Erklärung beachtet werden müssen (§ 44b Abs. 3 S. 1, 2 UrhG). Im Rahmen des
1441	§ 44b UrhG ist nicht erlaubt, Werke oder Werkteile öffentlich zugänglich zu
1442	machen, auch nicht an bestimmt abgegrenzte Personenkreise. Aufgrund der
1443	Löschpflicht dürfen die erstellten Korpora auch nicht längerfristig
1444	aufbewahrt werden. Für wissenschaftliche Zwecke ist es deswegen unbedingt
1445	notwendig, sich auf § 60d UrhG berufen zu können.
1446		1369
1447	[12]	1370	[12]
1448	Vertraglich oder technisch darf das TDM im Rahmen	1371	Vgl. Raue 2021, S. 799.
1449	wissenschaftlicher Zwecke (§ 60d UrhG) auch im Grundsatz nicht
1450	ausgeschlossen werden (§§ 60g Abs.
1451	1, 95b Abs. 1, 3 UrhG). Etwas anderes gilt für kommerzielles TDM im
1452	Rahmen des § 44b UrhG oder für die Sicherung der Funktionsfähigkeit
1453	technischer Systeme (§ 60d Abs. 6 UrhG).
1454		1372
1455	[13]	1373	[13]
1456	Vgl. zum genauen Verständnis der	1374	Vgl. Leitlinien zur Sicherung der guten wissenschaftlichen Praxis,
1457	nicht-kommerziellen Zwecke die Ausführungen in Absatz 19.	1375	Deutsche Forschungsgemeinschaft 2019,
		1376	Leitlinie 17.
1458		1377
1459	[14]	1378	[14]
1460	Dreier in Dreier / Schulze	1379	Vgl. Raue 2021, S. 799.
1461	2022, § 15 Randnummer 38 mit Verweis auf den EuGH.
1462		1380
1463	[15]	1381	[15]
1464	Vgl. ~~Raue~~ 2021, S. ~~799~~.	1382	Vgl. Kleinkopf / Pflüger 2021, S. 647.
1465		1383
1466	[16]	1384	[16]
1467	Vgl. Leitlinien zur Sicherung der guten	1385	Bundestagsdrucksache 19/27426, S. 97.
1468	wissenschaftlichen Praxis, Deutsche Forschungsgemeinschaft 2019,
1469	Leitlinie 17.
1470		1386
1471	[17]	1387	[17]
1472	Vgl. Raue 2021, S. 799.
1473
1474	[18]
1475	Vgl. Kleinkopf / Pflüger 2021, S.
1476	647.
1477
1478	[19]
1479	Bundestagsdrucksache 19/27426, S. 97.
1480
1481	[20]
1482	Etwas anderes kann gelten, wenn die Ursprungsdaten	1388	Etwas anderes kann gelten, wenn die Ursprungsdaten
1484		1390
1485	[21]	1391	[18]
1486	Vgl. ~~Kleinkopf / Pflüger~~	1392	Vgl.
1487	2021, S. 647.	1393	Kleinkopf / Pflüger 2021, S. 647.
1488		1394
1489	[22]	1395	[19]
1490	Erwägungsgrund 15 S. 5 DSM-Richtlinie.	1396	Erwägungsgrund 15 S. 5 DSM-Richtlinie.
1491		1397
1492	[23]	1398	[20]
1493	Vgl. Schöch et al. 2020, Absatz	1399	Vgl. Schöch et al. 2020, Randnummer 4 f.
1494	4f.
1495		1400
1496	[24]	1401	[21]
1497	Der Terminus ›Anschlusskopie‹ meint, dass sich die	1402	Der Terminus ›Anschlusskopie‹ meint, dass sich die
1502		1407
1503	[25]	1408	[22]
1504	Unter ›geringem Umfang‹ werden gemeinhin 25	1409	Unter ›geringem Umfang‹ werden gemeinhin 25
1505	Seiten verstanden, vgl. Dreier in Dreier / Schulze 2022, § 60c Randnummer	1410	Seiten verstanden, vgl. Dreier in Dreier / Schulze 2022, § 60c Randnummer 15,
1506	~~15,~~ § 60a Randnummer 22; Bundestagsdrucksache 18/12329, S. 35.	1411	§ 60a Randnummer 22; Bundestagsdrucksache 18/12329, S. 35.
1507		1412
1508	[26]	1413	[23]
1509	Vgl. Schöch et al. 2020, Absatz	1414	Vgl. Schöch et al. 2020, Randnummer 5.
1510	5.
1511		1415
1512	[27]	1416	[24]
1513	Das entspräche einer Einstellung in ein	1417	Das entspräche einer Einstellung in ein
1514	Universitäts-Intranet, diese ist jedoch gerade nicht erlaubt, vgl. Dreier in	1418	Universitäts-Intranet, diese ist jedoch gerade nicht erlaubt, vgl. Dreier in
1515	Dreier / Schulze	1419	Dreier / Schulze 2022, § 60c Randnummer 9; Bundestagsdrucksache 15 / 837, S. 34.
1516	2022, § 60c Randnummer 9; Bundestagsdrucksache 15 / 837, S. 34.
1517		1420
1518	[28]	1421	[25]
1519	Vgl. Dreier in Dreier / Schulze
1520	2022, § 60c Randnummer 6 mit Verweis auf die Gesetzesbegründung,
1521	Bundestagsdrucksache 18/12329, S. 39.
1522
1523	[29]
1524	Vgl. Dreier in Dreier / Schulze
1525	2022, § 60a Randnummer 7.
1526
1527	[30]
1528	Nach	1422	Nach
1529	der DSM-Richtlinie ist es zulässig, weitere Nutzungen der TDM-Korpora	1423	der DSM-Richtlinie ist es zulässig, weitere Nutzungen der TDM-Korpora auf
1530	~~auf~~ die ältere InfoSoc-Richtlinie zu stützen, das besagt zum einen	1424	die ältere InfoSoc-Richtlinie zu stützen, das besagt zum einen
1531	Erwägungsgrund 15 S. 5 und zum anderen Art. 24 Abs. 2, 25 DSM-~~Richtlinie~~.	1425	Erwägungsgrund 15 S. 5 und zum anderen Art. 24 Abs. 2, 25 DSM-RL. Auch die
1532	~~Auch die~~ Rechtsprechung hat bereits in der Vergangenheit urheberrechtliche	1426	Rechtsprechung hat bereits in der Vergangenheit urheberrechtliche
1533	Erlaubnisnormen miteinander kombiniert, wenn ihre jeweiligen Voraussetzungen	1427	Erlaubnisnormen miteinander kombiniert, wenn ihre jeweiligen Voraussetzungen
1537		1431
1538	[31]	1432	[26]
1539	Leitlinien zur Sicherung der	1433	Leitlinien zur Sicherung
1540	guten wissenschaftlichen Praxis, Deutsche Forschungsgemeinschaft 2019,	1434	der guten wissenschaftlichen Praxis, Deutsche Forschungsgemeinschaft 2019, Leitlinie 17.
1541	Leitlinie 17.
1542		1435
1543	[32]	1436	[27]
1544	Den Einrichtungen werden auch beim Kopienversand keine
1545	weitergehenden Prüfpflichten auferlegt, es sei denn, es handelt sich um
1546	offensichtliche Missbrauchsfälle, vgl. Dreier in Dreier / Schulze 2022, § 60e Randnummer
1547	17, 27, 28; Stieper in Schricker / Loewenheim 2020,
1548	§ 60e Randnummer 37.
1549
1550	[33]
1551	Metainformationen wie Seitenzahlen auf der Ebene von Sätzen	1437	Metainformationen wie Seitenzahlen auf der Ebene von Sätzen
1552	oder einzelnen Worten im Text sind in etablierten Annotationsschemata oder	1438	oder einzelnen Worten im Text sind in etablierten Annotationsschemata oder
1553	Formaten in der Regel nicht vorgesehen und erfordern somit zusätzlichen	1439	Formaten in der Regel nicht vorgesehen und erfordern somit zusätzlichen Aufwand, bzw.
1554	~~Aufwand, bzw.~~ spezielle Anpassungen.	1440	spezielle Anpassungen.
1555		1441
1556	[34]	1442	[28]
1557	Vgl. Gärtner	1443	Vgl. Gärtner
1559		1445
1560	[35]	1446	[29]
1561	Sofern	1447	Sofern
1563		1449
1564	[36]	1450	[30]
1565	Vgl. Krause / Zeldes 2016.
1566
1567	[37]
1568	Vgl. Diewald et al. 2106.
1569
1570	[38]
1571	Bei der	1451	Bei der
1573		1453
1574	[39]	1454	[31]
1575	Es handelt sich dementsprechend um eine sogenannte
1576	›approximative Replikation‹ (Porte 2012, S. 8).
1577
1578	[40]
1579	Vgl. Andresen 2022.	1455	Vgl. Andresen 2022.
1580		1456
1581	[41]	1457	[32]
1582	~~Die ursprüngliche Studie (Andresen~~	1458	Vgl.
1583	~~2022) legt zusätzlich einen besonderen Schwerpunkt auf Sequenzen,~~	1459	Kresta 1995, S. 130–147, vgl. auch
1584	~~die entlang der syntaktischen Dependenzen im Satz gebildet werden~~.	1460	Steinhoff 2007, S. 206f.
1585		1461
1586	[42]	1462	[33]
1587	Vgl. Kresta 1995, S.130–147,	1463	Vgl. zum Beispiel Jürgen Habermas’ Kritik
1588	vgl. auch Steinhoff 2007, S. 206f.	1464	an der Einebnung des Gattungsunterschiedes zwischen
		1465	Philosophie und Literatur, Habermas 1988, S. 217.
1589		1466
1590	[43]	1467	[34]
1591	Vgl. zum
1592	Beispiel Jürgen Habermas’ Kritik an der Einebnung des Gattungsunterschiedes zwischen
1593	Philosophie und Literatur, Habermas
1594	1988, S. 217.
1595
1596	[44]
1597	Der Schritt von den Originaldaten zu	1468	Der Schritt von den Originaldaten zu
1603		1474
1604	[45]	1475	[35]
1605	Vgl. Martínez	1476	Vgl. Martínez / Scheffel 2009, S. 100;
1606	~~/ Scheffel 2009, S. 100;~~ Kindt 2008, S. 48.	1477	Kindt 2008, S. 48.
1607		1478
1608	[46]	1479	[36]
1609	Vgl. Yacobi 1981;	1480	Vgl. Yacobi 1981;
1610	Nünning	1481	Nünning 1999.
1611	1999.
1612		1482
1613	[47]	1483	[37]
1614	Vgl. Nünning 1998; ~~Allrath~~	1484	Vgl. Nünning 1998;
1615	1998.	1485	Allrath 1998.
1616		1486
1617	[48]	1487	[38]
1618	Vgl. Folde 2015,	1488	Vgl. Folde 2015, S. 366.
1619	S. 366.
1620		1489
1621	[49]	1490	[39]
1622	Verwendet wurde hier der	1491	Verwendet wurde hier der
1623	Stanford	1492	Stanford Named Entity
1624	~~Named Entity~~ Recognizer.	1493	Recognizer.
1625		1494
1626	[50]	1495	[40]
1627	Für die Erkennung von direkter Rede wurde ein simpler	1496	Für die Erkennung von direkter Rede wurde ein simpler
1628	Tagger entwickelt, der auf der Identifikation von Anführungszeichen basiert;	1497	Tagger entwickelt, der auf der Identifikation von Anführungszeichen basiert;
1629	indirekte Rede wurde mithilfe eines verfügbaren Taggers	1498	indirekte Rede wurde mithilfe eines verfügbaren Taggers annotiert
1630	~~annotiert~~. Alle erzeugten Annotationen wurden anschließend gesichtet und	1499	. Alle erzeugten Annotationen wurden anschließend gesichtet und
1631	gegebenenfalls korrigiert.	1500	gegebenenfalls korrigiert.
1632		1501
1633	[51]	1502	[41]
1634	Für	1503	Für
1636		1505
1637	[52]	1506	[42]
1638	Zum Einsatz kam hier SentText, vgl. Schmidt et al.	1507	Zum Einsatz kam hier SentText, vgl. Schmidt et al. 2021.
1639	2021.
1640		1508
1641	[53]
1642	Vgl. Gius 2019; Pichler /
1643	Reiter 2021.
1644		1509
1645	[54]	1510	[43]
1646	~~Schruhl~~	1511	Vgl. Gius 2019;
1647	~~2018~~.	1512	Pichler / Reiter 2021.
1648		1513
1649	[55]	1514	[44]
		1515	Schruhl 2018.
		1516
		1517	[45]
1650	Vgl. Schöch et al. 2020.	1518	Vgl. Schöch et al. 2020.
1651		1519
1652	[56]	1520	[46]
1653	Tatsächlich ist (auch eine eigens	1521	Tatsächlich ist (auch eine eigens
1654	trainierte) Named Entity Recognition nur in eingeschränktem Maße für die	1522	trainierte) Named Entity Recognition nur in eingeschränktem Maße für die
1655	Identifikation der relevanten Akteur*innen / Instanzen geeignet, da	1523	Identifikation der relevanten Akteur*innen / Instanzen geeignet, da gerade in
1656	~~gerade in~~ potenziell unzuverlässigen Erzählungen häufig homodiegetische	1524	potenziell unzuverlässigen Erzählungen häufig homodiegetische
1657	Erzählerinnen (›Ich-Erzählerinnen‹) auftreten, auf die nicht oder	1525	Erzählerinnen (›Ich-Erzählerinnen‹) auftreten, auf die nicht oder
1659		1527
1660	[57]	1528	[47]
1661	Vgl. Gius / Jacke 2017; Reiter 2020.	1529	Vgl. Gius / Jacke 2017;
		1530	Reiter 2020.
1662		1531
1669		1538
1670	Gaby Allrath: »But why will you say that I am	1539	Gaby Allrath: »But why will you say that I am mad?« Textuelle Signale für
1671	mad?« Textuelle Signale für die Ermittlung von unreliable narration. In:	1540	die Ermittlung von unreliable narration. In: Unreliable Narration. Studien zur
1672	Unreliable Narration. Studien zur Theorie und Praxis unglaubwürdigen Erzählens	1541	Theorie und Praxis unglaubwürdigen Erzählens in der englischsprachigen
1673	in der englischsprachigen Erzählliteratur. Hg. von Ansgar Nünning / Carola	1542	Erzählliteratur. Hg. von Ansgar Nünning / Carola Surkamp / Bruno Zerweck. Trier
1674	Surkamp / Bruno Zerweck. Trier 1998, S. 59–80. [Nachweis im GVK] Melanie Andresen: Datengeleitete	1543	1998, S. 59–80. [Nachweis im GVK] Melanie Andresen: Datengeleitete Sprachbeschreibung mit syntaktischen
1675	Sprachbeschreibung mit syntaktischen Annotationen. Eine Korpusanalyse am	1544	Annotationen. Eine Korpusanalyse am Beispiel der germanistischen
1676	Beispiel der germanistischen Wissenschaftssprachen. Tübingen 2022. (=	1545	Wissenschaftssprachen. Tübingen 2022. (= Korpuslinguistik und interdisziplinäre
1677	Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache (CLIP), 10).	1546	Perspektiven auf Sprache (CLIP), 10). [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz,
1678	[Nachweis im GVK] Nils Diewald / Michael Hanl / Eliza Margaretha /	1547	Verwertungsgesellschaftengesetz, Kunsturhebergesetz. Kommentar. 6. Auflage.
1679	Joachim Bingel / Marc Kupietz / Piotr Bański / Andreas Witt: KorAP	1548	München 2018. [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG – Urheberrechtsgesetz,
1680	Architecture. Diving in the Deep Sea of Corpus Data In: Proceedings of the 10th	1549	Urheberrechts-Diensteanbieter-Gesetz, Verwertungsgesellschaftengesetz,
1681	International Conference on Language Resources and Evaluation (LREC 2016). Hg.	1550	Nebenurheberrecht, Kunsturheberrecht. Kommentar. 7. Auflage. München 2022.
1682	von European Language Resources Association (ELRA). (LREC 2016: Portorož,	1551	[Nachweis im GVK] Christian Folde: Grounding Interpretation. In: British Journal of Aesthetics
1683	23.–28.05.2016). Paris 2016: European Language Resources Association (ELRA), S.	1552	55 (2015), H. 3, S. 361–374. [Nachweis im GVK] Deutsche Forschungsgemeinschaft: Leitlinien zur Sicherung der guten
1684	3586–3591. PDF. [online] [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG –	1553	wissenschaftlichen Praxis, Kodex, 2019. DOI: 10.5281/zenodo.6472827Markus Gärtner: The Corpus Query Middleware of Tomorrow − A Proposal for a
1685	Urheberrechtsgesetz, Verwertungsgesellschaftengesetz, Kunsturhebergesetz.	1554	Hybrid Corpus Query Architecture. In: Proceedings of the 8th Workshop on
1686	Kommentar. 6. Auflage. München 2018. [Nachweis im GVK] Thomas Dreier / Gernot Schulze: UrhG –	1555	Challenges in the Management of Large Corpora. Hg. von Piotr Bański / Adrien
1687	Urheberrechtsgesetz, Urheberrechts-Diensteanbieter-Gesetz,	1556	Barbaresi / Simon Clematide / Marc Kupietz / Harald Lüngen / Ines Pisetta.
1688	Verwertungsgesellschaftengesetz, Nebenurheberrecht, Kunsturheberrecht.	1557	(CMLC 8, Marseille, 11.–16.05.2020) Stroudsburg, PA 2020, S. 31–39. [online] Markus Gärtner / Felicitas Kleinkopf / Melanie Andresen / Sybille Hermann:
1689	Kommentar. 7. Auflage. München 2022. [Nachweis im GVK] Christian Folde: Grounding	1558	Corpus Reusability and Copyright – Challenges and Opportunities. In:
1690	Interpretation. In: British Journal of Aesthetics 55 (2015), H. 3, S. 361–374.	1559	Proceedings of the Workshop on Challenges in the Management of Large Corpor.
1691	[Nachweis im GVK] Deutsche Forschungsgemeinschaft: Leitlinien zur	1560	Hg. von Harald Lüngen / Marc Kupietz / Piotr Bański / Adrien Barbaresi / Simon
1692	Sicherung der guten wissenschaftlichen Praxis, Kodex, 2019. DOI: 10.5281/zenodo.6472827Markus Gärtner / Katrin Schweitzer /	1561	Clematide / Ines Pisetta. (CMLC 9, Limerick, 12.07.2021) Mannheim 2021, S.
1693	Kerstin Eckart / Jonas Kuhn: Multi-modal Visualization and Search for Text and	1562	10–19. DOI: 10.14618/ids-pub-10467 [Nachweis im GVK] Evelyn Gius: Computationelle Textanalysen als fünfdimensionales Problem: Ein
1694	Prosody Annotations. In: Proceedings of the 53rd Annual Meeting of the	1563	Modell zur Beschreibung von Komplexität. In: LitLab Pamphlet 8 (2019). [online] Evelyn Gius / Janina Jacke: The Hermeneutic Profit of Annotation: On
1695	Association for Computational Linguistics and the 7th International Joint	1564	Preventing and Fostering Disagreement in Literary Analysis. In: International
1696	Conference on Natural Language Processing of the Asian Federation of Natural	1565	Journal of Humanities and Arts Computing 11 (2017), H. 2, S. 233–254. DOI: 10.3366/ijhac.2017.0194 [Nachweis im GVK] Jürgen Habermas: Der philosophische Diskurs der Moderne. Zwölf Vorlesungen.
1697	Language Processing: System Demonstrations. Hg. von Association for	1566	Frankfurt / Main 1988. (= Suhrkamp-Taschenbuch Wissenschaft, 749).
1698	Computational Linguistics. (ACL 53: Beijing, 27.–29.07.2015). Red Hook, NY	1567	[Nachweis im GVK] Matthew Lee Jockers: Macroanalysis: Digital methods and literary history.
1699	2015, S. 25–30. PDF. DOI: 10.3115/v1/P15-4005Markus Gärtner / Jonas Kuhn: A Lightweight	1568	Urbana, IL u. a. 2013. [Nachweis im GVK] Tom Kindt: Unzuverlässiges Erzählen und literarische Moderne: eine
1700	Modeling Middleware for Corpus Processing. In: Proceedings of the Eleventh	1569	Untersuchung der Romane von Ernst Weiß. Tübingen 2008. (= Studien zur deutschen
1701	International Conference on Language Resources and Evaluation. Hg. von European	1570	Literatur, 184). [Nachweis im GVK] Felicitas Kleinkopf / Janina Jacke / Markus Gärtner: Text- und Data-Mining –
1702	Language Resources Association (ELRA). (LREC 2018: Miyazaki, Mai 2018),	1571	Urheberrechtliche Grenzen der Nachnutzung wissenschaftlicher Korpora bei
1703	Miyazaki 2018, S. 1087–1095. PDF. [online]Markus Gärtner: The Corpus Query Middleware of	1572	computergestützten Verfahren und digitalen Ressourcen. In: MMR. Zeitschrift für
1704	Tomorrow − A Proposal for a Hybrid Corpus Query Architecture. In: Proceedings	1573	IT-Recht und Recht der Digitalisierung 24 (2021), H. 3, S. 196–200. DOI: 10.18419/opus-11445 [Nachweis im GVK] Felicitas Kleinkopf / Thomas Pflüger: Digitale Bildung, Wissenschaft und
1705	of the 8th Workshop on Challenges in the Management of Large Corpora. Hg. von	1574	Kultur – Welcher urheberrechtliche Reformbedarf verbleibt nach Umsetzung der
1706	Piotr Bański / Adrien Barbaresi / Simon Clematide / Marc Kupietz / Harald	1575	DSM-RL durch das Gesetz zum Urheberrecht im digitalen Binnenmarkt? In:
1707	Lüngen / Ines Pisetta. (CMLC 8, Marseille, 11.–16.05.2020) Stroudsburg, PA	1576	Zeitschrift für Urheber- und Medienrecht 56 (2021), H. 8 / 9, S. 643–655.
1708	2020, S. 31–39. [online] Markus Gärtner / Felicitas Kleinkopf / Melanie	1577	[Nachweis im GVK] Ronald Kresta: Realisierungsformen der Interpersonalität in vier
1709	Andresen / Sybille Hermann: Corpus Reusability and Copyright – Challenges and	1578	linguistischen Fachtextsorten des Englischen und des Deutschen (= Theorie und
1710	Opportunities. In: Proceedings of the Workshop on Challenges in the Management	1579	Vermittlung der Sprache, 24). Frankfurt / Main u. a. 1995. [Nachweis im GVK] Matías Martínez / Michael Scheffel: Einführung in die Erzähltheorie. 8.
1711	of Large Corpor. Hg. von Harald Lüngen / Marc Kupietz / Piotr Bański / Adrien	1580	Aufage. (= C.-H.-Beck-Studium). München 2009. [Nachweis im GVK] Ansgar Nünning: »Unreliable Narration« zur Einführung. Grundzüge einer
1712	Barbaresi / Simon Clematide / Ines Pisetta. (CMLC 9, Limerick, 12.07.2021)	1581	kognitiv-narratologischen Theorie und Analyse unglaubwürdigen Erzählens. In:
1713	Mannheim 2021, S. 10–19. DOI: 10.14618/ids-pub-10467 [Nachweis im GVK] Evelyn Gius: Computationelle Textanalysen	1582	Unreliable Narration. Studien zur Theorie und Praxis unglaubwürdigen Erzählens.
1714	als fünfdimensionales Problem: Ein Modell zur Beschreibung von Komplexität. In:	1583	Hg. von Ansgar Nünning / Bruno Zerweck / Carola Surkamp. Trier 1998, S. 3–39.
1715	LitLab Pamphlet 8 (2019). [online] Evelyn Gius / Janina Jacke: The Hermeneutic Profit	1584	[Nachweis im GVK] Ansgar Nünning: Unreliable, Compared to What? Towards a Cognitive Theory of
1716	of Annotation: On Preventing and Fostering Disagreement in Literary Analysis.	1585	»Unreliable Narration«. Prolegomena and Hypotheses. In: Grenzüberschreitungen.
1717	In: International Journal of Humanities and Arts Computing 11 (2017), H. 2, S.	1586	Narratologie im Kontext / Transcending Boundaries. Narratology in Context. Hg.
1718	233–254. DOI: 10.3366/ijhac.2017.0194 [Nachweis im GVK] Jürgen Habermas: Der philosophische Diskurs	1587	von Walter Grünzweig / Andreas Solbach. Tübingen 1999, S. 53–73. [Nachweis im GVK] Axel Pichler / Nils Reiter: Zur Operationalisierung
1719	der Moderne. Zwölf Vorlesungen. Frankfurt / Main 1988. (= Suhrkamp-Taschenbuch	1588	literaturwissenschaftlicher Begriffe in der algorithmischen Textanalyse. Eine
1720	Wissenschaft, 749). [Nachweis im GVK] Matthew Lee Jockers: Macroanalysis: Digital	1589	Annäherung über Norbert Altenhofers hermeneutische Modellinterpretation von
1721	methods and literary history. Urbana, IL u. a. 2013. [Nachweis im GVK] Tom Kindt: Unzuverlässiges Erzählen und	1590	Kleists Das Erdbeben in Chili. In: Journal of Literary Theory 15 (2021), H. 1–2, S. 1–29. [online] [Nachweis im GVK] Benjamin Raue: Die Freistellung von Datenanalysen durch die neuen Text und
1722	literarische Moderne: eine Untersuchung der Romane von Ernst Weiß. Tübingen	1591	Data Mining-Schranken. In: Zeitschrift für Urheber- und Medienrecht 56 (2021),
1723	2008. (= Studien zur deutschen Literatur, 184). [Nachweis im GVK] Felicitas Kleinkopf: Text- und Data-Mining. Die	1592	H. 10, S. 793-802. [Nachweis im GVK] Nils Reiter: Anleitung zur Erstellung von Annotationsrichtlinien. In:
1724	Anforderungen digitaler Forschungsmethoden an ein innovations- und	1593	Reflektierte algorithmische Textanalyse. Hg. von Nils Reiter / Axel Pichler /
1725	wissenschaftsfreundliches Urheberrecht. (= Schriftenreihe des Archivs für	1594	Jonas Kuhn. Berlin u. a. 2020, S. 193–202. DOI: 10.1515/9783110693973-009 [Nachweis im GVK] Richtlinie (EU) 2019/790 des Europäischen Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der Richtlinien 96/9/EG und 2001/29/EG. [online]Anne Schiller / Simone Teufel / Christine Thielen / Christine Stöckert:
1726	Urheber- und Medienrecht, 300). Baden-Baden 2022. PDF. DOI: 10.5771/9783748935360Felicitas Kleinkopf / Janina Jacke / Markus	1595	Guidelines für das Tagging deutscher Textcorpora mit STTS (kleines und großes
1727	Gärtner: Text- und Data-Mining – Urheberrechtliche Grenzen der Nachnutzung	1596	Tagset). 1999. PDF. [online]
1728	wissenschaftlicher Korpora bei computergestützten Verfahren und digitalen	1597	Christof Schöch / Frédéric Döhl / Achim Rettinger / Evelyn Gius / Peer
1729	Ressourcen. In: MMR. Zeitschrift für IT-Recht und Recht der Digitalisierung 24	1598	Trilcke / Peter Leinen / Fotis Jannidis / Maria Hinzmann / Jörg Röpke:
1730	(2021), H. 3, S. 196–200. DOI: 10.18419/opus-11445 [Nachweis im GVK] Felicitas Kleinkopf / Thomas Pflüger:	1599	Abgeleitete Textformate: Text und Data Mining mit urheberrechtlich geschützten
1731	Digitale Bildung, Wissenschaft und Kultur – Welcher urheberrechtliche	1600	Textbeständen. In: Zeitschrift für digitale Geisteswissenschaften 5 (2020).
1732	Reformbedarf verbleibt nach Umsetzung der DSM-RL durch das Gesetz zum	1601	DOI: 10.17175/2020_006Friederike Schruhl: Objektumgangsnormen in der Literaturwissenschaft. In: Wie Digitalität
1733	Urheberrecht im digitalen Binnenmarkt? In: Zeitschrift für Urheber- und	1602	die Geisteswissenschaften verändert: Neue
1734	Medienrecht 56 (2021), H. 8 / 9, S. 643–655. [Nachweis im GVK] Thomas Krause / Amir Zeldes: ANNIS3. A New	1603	Forschungsgegenstände und Methoden. Hg. von Martin Huber / Sybille Krämer. Wolfenbüttel
1735	Architecture for Generic Corpus Query and Visualization. In: Digital	1604	2018. (=
1736	Scholarship in the Humanities 31 (2016). H. 1, S. 118–139. 24.10.2014. DOI:	1605	Sonderband der Zeitschrift für digitale Geisteswissenschaften, 3) DOI: 10.17175/sb003_012Thomas Schmidt / Johanna Dangel / Christian Wolff: SentText: A Tool for
1737	10.1093/llc/fqu057Ronald Kresta: Realisierungsformen	1606	Lexicon-based Sentiment Analysis in Digital Humanities. In: Information between
1738	der Interpersonalität in vier linguistischen Fachtextsorten des Englischen und	1607	Data and Knowledge. Information Science and its Neighbors from Data Science to
1739	des Deutschen (= Theorie und Vermittlung der Sprache, 24). Frankfurt / Main u.	1608	Digital Humanities. Proceedings of the 16th International Symposium of
1740	a. 1995. [Nachweis im GVK] Matías Martínez / Michael Scheffel:	1609	Information Science. Hg. von Christian Wolff / Thomas Schmidt. (ISI 16,
1741	Einführung in die Erzähltheorie. 8. Auflage. (= C.-H.-Beck-Studium). München	1610	Regensburg, 08–10.03.202) Glückstadt 2021, S. 156–172. DOI: 10.5283/epub.44943
1742	2009. [Nachweis im GVK] Ansgar Nünning: »Unreliable Narration« zur	1611	[Nachweis im GVK] Torsten Steinhoff: Wissenschaftliche Textkompetenz: Sprachgebrauch und
1743	Einführung. Grundzüge einer kognitiv-narratologischen Theorie und Analyse	1612	Schreibentwicklung in wissenschaftlichen Texten von Studenten und Experten.
1744	unglaubwürdigen Erzählens. In: Unreliable Narration. Studien zur Theorie und	1613	Tübingen 2007. (= Reihe Germanistische Linguistik, 280) [Nachweis im GVK] Mark D. Wilkinson / Michel Dumontier / IJsbrand Jan Aalbersberg / Gabrielle Appleton / Myles Axton / Arie Baak / Niklas Blomberg / Jan-Willem Boiten / Luiz Bonino da Silva Santos / Philip E. Bourne / Jildau Bouwman / Anthony J. Brookes / Tim Clark / Mercè Crosas / Ingrid Dillo / Olivier Dumon / Scott Edmunds / Chris T. Evelo / Richard Finkers / Alejandra Gonzalez-Beltran / Alasdair J.G. Gray / Paul Groth / Carole Goble / Jeffrey S. Grethe / Jaap Heringa / Peter A.C ’t Hoen / Rob Hooft / Tobias Kuhn / Ruben Kok / Joost Kok / Scott J. Lusher / Maryann E. Martone / Albert Mons / Abel L. Packer / Bengt Persson / Philippe Rocca-Serra / Marco Roos / Rene van Schaik / Susanna-Assunta Sansone / Erik Schultes / Thierry Sengstag / Ted Slater / George Strawn / Morris A. Swertz / Mark Thompson / Johan van der Lei / Erik van Mulligen / Jan Velterop / Andra Waagmeester / Peter Wittenburg / Katherine Wolstencroft / Jun Zhao / Barend Mons: The FAIR
1745	Praxis unglaubwürdigen Erzählens. Hg. von Ansgar Nünning / Bruno Zerweck /	1614	Guiding Principles for scientific data management and stewardship. In:
1746	Carola Surkamp. Trier 1998, S. 3–39. [Nachweis im GVK] Ansgar Nünning: Unreliable, Compared to	1615	Scientific Data 3 (2016), Artikelnummer 160018. DOI: 10.1038/sdata.2016.18 [Nachweis im GVK] Tamar Yacobi: Fictional reliability as a communicative problem. In: Poetics
1747	What? Towards a Cognitive Theory of »Unreliable Narration«. Prolegomena and	1616	Today 2 (1981), H. 2, S. 113–126. [Nachweis im GVK]
1748	Hypotheses. In: Grenzüberschreitungen. Narratologie im Kontext / Transcending
1749	Boundaries. Narratology in Context. Hg. von Walter Grünzweig / Andreas Solbach.
1750	Tübingen 1999, S. 53–73. [Nachweis im GVK] Axel Pichler / Nils Reiter: Zur
1751	Operationalisierung literaturwissenschaftlicher Begriffe in der algorithmischen
1752	Textanalyse. Eine Annäherung über Norbert Altenhofers hermeneutische
1753	Modellinterpretation von Kleists Das Erdbeben in Chili. In: Journal of Literary
1754	Theory 15 (2021), H. 1–2, S. 1–29. [online] [Nachweis im GVK] Graeme Porte: Introduction. In: Replication
1755	Research in Applied Linguistics. Hg. von Graeme Porte. (= Cambridge Applied
1756	Linguistics Series). Cambridge u. a. 2012, S. 1–17.Benjamin Raue: Die Freistellung von
1757	Datenanalysen durch die neuen Text und Data Mining-Schranken. In: Zeitschrift
1758	für Urheber- und Medienrecht 56 (2021), H. 10, S. 793-802. [Nachweis im GVK] Nils Reiter: Anleitung zur Erstellung von
1759	Annotationsrichtlinien. In: Reflektierte algorithmische Textanalyse. Hg. von
1760	Nils Reiter / Axel Pichler / Jonas Kuhn. Berlin u. a. 2020, S. 193–202. DOI:
1761	10.1515/9783110693973-009 [Nachweis im GVK] Richtlinie (EU) 2019/790 des Europäischen
1762	Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die
1763	verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der
1764	Richtlinien 96/9/EG und 2001/29/EG. [online]Anne Schiller / Simone Teufel / Christine
1765	Thielen / Christine Stöckert: Guidelines für das Tagging deutscher Textcorpora
1766	mit STTS (kleines und großes Tagset). 1999. PDF: [online] Christof Schöch / Frédéric Döhl / Achim
1767	Rettinger / Evelyn Gius / Peer Trilcke / Peter Leinen / Fotis Jannidis / Maria
1768	Hinzmann / Jörg Röpke: Abgeleitete Textformate: Text und Data Mining mit
1769	urheberrechtlich geschützten Textbeständen. In: Zeitschrift für digitale
1770	Geisteswissenschaften 5 (2020). DOI: 10.17175/2020_006Urheberrecht. UrhG, KUG, VGG.
1771	Kommentar. Hg. von Gerhard Schricker / Ulrich Loewenheim / Matthias Leistner.
1772	6. neu bearbeitete Auflage. München 2020. [Nachweis im GVK] Friederike Schruhl: Objektumgangsnormen
1773	in der Literaturwissenschaft. In: Wie Digitalität die Geisteswissenschaften
1774	verändert: Neue Forschungsgegenstände und Methoden. Hg. von Martin Huber /
1775	Sybille Krämer. Wolfenbüttel 2018. (= Sonderband der Zeitschrift für digitale
1776	Geisteswissenschaften, 3) DOI: 10.17175/sb003_012Thomas Schmidt / Johanna Dangel / Christian
1777	Wolff: SentText: A Tool for Lexicon-based Sentiment Analysis in Digital
1778	Humanities. In: Information between Data and Knowledge. Information Science and
1779	its Neighbors from Data Science to Digital Humanities. Proceedings of the 16th
1780	International Symposium of Information Science. Hg. von Christian Wolff /
1781	Thomas Schmidt. (ISI 16, Regensburg, 08–10.03.202) Glückstadt 2021, S. 156–172.
1782	DOI: 10.5283/epub.44943 [Nachweis im GVK] Torsten Steinhoff: Wissenschaftliche
1783	Textkompetenz: Sprachgebrauch und Schreibentwicklung in wissenschaftlichen
1784	Texten von Studenten und Experten. Tübingen 2007. (= Reihe Germanistische
1785	Linguistik, 280) [Nachweis im GVK] Mark D. Wilkinson / Michel Dumontier / IJsbrand
1786	Jan Aalbersberg / Gabrielle Appleton / Myles Axton / Arie Baak / Niklas
1787	Blomberg / Jan-Willem Boiten / Luiz Bonino da Silva Santos / Philip E. Bourne /
1788	Jildau Bouwman / Anthony J. Brookes / Tim Clark / Mercè Crosas / Ingrid Dillo /
1789	Olivier Dumon / Scott Edmunds / Chris T. Evelo / Richard Finkers / Alejandra
1790	Gonzalez-Beltran / Alasdair J.G. Gray / Paul Groth / Carole Goble / Jeffrey S.
1791	Grethe / Jaap Heringa / Peter A.C ’t Hoen / Rob Hooft / Tobias Kuhn / Ruben Kok
1792	/ Joost Kok / Scott J. Lusher / Maryann E. Martone / Albert Mons / Abel L.
1793	Packer / Bengt Persson / Philippe Rocca-Serra / Marco Roos / Rene van Schaik /
1794	Susanna-Assunta Sansone / Erik Schultes / Thierry Sengstag / Ted Slater /
1795	George Strawn / Morris A. Swertz / Mark Thompson / Johan van der Lei / Erik van
1796	Mulligen / Jan Velterop / Andra Waagmeester / Peter Wittenburg / Katherine
1797	Wolstencroft / Jun Zhao / Barend Mons: The FAIR Guiding Principles for
1798	scientific data management and stewardship. In: Scientific Data 3 (2016),
1799	Artikelnummer 160018. DOI: 10.1038/sdata.2016.18 [Nachweis im GVK] Tamar Yacobi: Fictional reliability as a
1800	communicative problem. In: Poetics Today 2 (1981), H. 2, S. 113–126. [Nachweis im GVK]
1801		1617
1810		1626
1811	Abb. 2: Dataverse-Oberfläche für ein XSample-Manifest.	1627	Abb. 2: Dataverse-Oberfläche für ein XSample-Manifest. Rechts unten kann die
1812	Rechts unten kann die Weiterleitung auf den XSample-Server angestoßen werden.	1628	Weiterleitung auf den XSample-Server angestoßen werden. [Gärtner 2021]
1813	[Gärtner
1814	2021]
1815		1629
1816		1630
1817	Abb. 3: Startseite des XSample-Servers nach Weiterleitung	1631	Abb. 3: Startseite des XSample-Servers nach Weiterleitung aus dem zugehörigen
1818	~~aus dem zugehörigen~~ Dataverse und Validierung der Manifest-Datei. [Gärtner 2021]	1632	Dataverse und Validierung der Manifest-Datei. [Gärtner 2021]
1819		1633
1820		1634
1821	Abb. 4: Grafische Oberfläche zur flexiblen Auswahl der	1635	Abb. 4: Grafische Oberfläche zur flexiblen Auswahl der Auszugsgrenzen. [Gärtner 2021]
1822	Auszugsgrenzen. [Gärtner
1823	2021]
1824		1636
1825		1637
1826	Abb. 5: Exemplarische Oberfläche zur Auszugsgenerierung	1638	Abb. 5: Exemplarische Oberfläche
1827	mittels Suchanfrage basierend auf enthaltenen Annotationen. Die Verteilung der	1639	zur Auszugsgenerierung mittels Suchanfrage basierend auf enthaltenen
1828	Suchergebnisse über das Korpus wird direkt visualisiert und Nutzer*innen	1640	Annotationen. Die Verteilung der Suchergebnisse über das Korpus wird
1829	anschließend die Möglichkeit gegeben, die für sie relevanten Segmente exakt	1641	direkt visualisiert und Nutzer*innen anschließend die Möglichkeit
1830	auszuwählen. [Gärtner	1642	gegeben, die für sie relevanten Segmente exakt auszuwählen. [Gärtner 2021]
1831	2021]
1832		1643
1835	distinktivsten Wortarten für die Unterscheidung von Philosophie und	1646	distinktivsten Wortarten für die Unterscheidung von Philosophie und
1836	Literaturwissenschaft im Sinne der SVM. Das verwendete Tagset ist das STTS ~~(Schiller et al.~~	1647	Literaturwissenschaft im Sinne der SVM. Das verwendete Tagset ist das STTS
1837	1999). [Andresen 2022]	1648	(Schiller et al. 1999). [Andresen 2022]
1838		1649

Versionen vergleichen von : Vorzüge von Auszügen – Urheberrechtlich geschützte Texte in den digitalen Geisteswissenschaften (nach-)nutzen

Version: 2.0 vom 22.06.2023

Mit Markup vergleichen

Version: 1.0 vom 03.11.2022