Versionen vergleichen | ZfdG - Zeitschrift für digitale Geisteswissenschaften

Versionen vergleichen von : Automatisierte Identifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen

Alt		Neu
11		11
12	DOI: 10.17175/2022_002	12	DOI: 10.17175/2022_002_v2
13	Nachweis im OPAC der Herzog August Bibliothek: ~~1760213403~~	13	Nachweis im OPAC der Herzog August Bibliothek: 1845604601
14	Erstveröffentlichung: 08.03.2022	14	Erstveröffentlichung: 08.03.2022
15		15	Version 2.0: 20.07.2023
16	Lizenz: Sofern nicht anders angegeben	16	Lizenz: Sofern nicht anders angegeben
19	Medienlizenzen: Medienrechte liegen bei den Autor*innen	19	Medienlizenzen: Medienrechte liegen bei den Autor*innen
20		20	Letzte Überprüfung aller Verweise: 29.05.2023
21	Letzte Überprüfung aller Verweise: 07.03.2022	21	GND-Verschlagwortung: Informations- und Dokumentationswissenschaft \| Berufsforschung \| Maschinelles Lernen \| Automatische Klassifikation \| Standardisierung \|
22		22	Empfohlene Zitierweise: Jan Michael Goldberg / Katrin Moeller: Automatisierte Identifikation und Lemmatisierung
23	GND-Verschlagwortung: Informations- und Dokumentationswissenschaft \| Berufsforschung \| Maschinelles Lernen \| Automatische Klassifikation \| Standardisierung
24
25	Empfohlene Zitierweise: Jan Michael Goldberg, Katrin Moeller: Automatisierte Identifikation und Lemmatisierung
26	historischer Berufsbezeichnungen in deutschsprachigen	23	historischer Berufsbezeichnungen in deutschsprachigen
27	Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2022. text/html Format. DOI: 10.17175/2022_002	24	Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 08.03.2022. Version 2.0 vom 20.07.2023. HTML / XML / PDF. DOI: 10.17175/2022_002_v2
28		25
29		26
30		27
31		28
32		29	Abstract
33	AbstractBerufsangaben kommen in vielen historischen Quellen vor. Für eine	30
		31
		32	Berufsangaben kommen in vielen historischen Quellen vor. Für eine
34	Vielzahl von Forschungsgebieten ist nicht nur eine Standardisierung,	33	Vielzahl von Forschungsgebieten ist nicht nur eine Standardisierung,
48		47
		48
		49
49	Occupational information occurs in many historical sources. For a large	50	Occupational information occurs in many historical sources. For a large
61		62
		63
		64
		65
		66	Version 2.0 (20.07.2023)
		67	Folgende Änderungen wurden vorgenommen: Sprachliche Verbesserungen im Text sowie inhaltliche
		68	Ergänzungen und Text und Bibliografie entlang der Monita der Gutachten.
62		69
79	3.3.2 Entfernung von Leerzeichen	86	3.3.2 Entfernung von Leerzeichen
80	3.3.3 ~~Ausformulierung~~ von Abkürzungen	87	3.3.3 Auflösung von Abkürzungen
81	3.3.4 Definierte berufsferne Substantive	88	3.3.4 Definierte berufsferne Substantive
83	3.3.6 Separierung von Quellenangaben	90	3.3.6 Separierung von Quellenangaben
84	3.3.7 ~~Titularangaben~~	91	3.3.7 Titelangaben
85	3.3.8 Angaben zum Familienstand	92	3.3.8 Angaben zum Familienstand
102	6. Zusammenfassung	109	6. Zusammenfassung
103	~~Bibliographische~~ Angaben	110	Bibliografische Angaben
104	Abbildungs- und Tabellenverzeichnis	111	Abbildungs- und Tabellenverzeichnis
106		113
		114
107	1. Einleitung	115	1. Einleitung
		116
108		117
160	(normierte) und englischsprachige Berufsangaben.[3]	169	(normierte) und englischsprachige Berufsangaben.[3]
		170
		171
161	[5]Mit der Entwicklung einer Methode zur automatisierten Lemmatisierung von	172	[5]Mit der Entwicklung einer Methode zur automatisierten Lemmatisierung von
181	Stand der Forschung beschrieben. Danach wird in seine technische Umsetzung	192	Stand der Forschung beschrieben. Danach wird in seine technische Umsetzung
182	eingeführt. Auch bleibt eine Validierung des entwickelten Algorithmus nicht	193	eingeführt, bevor der Algorithmus validiert wird. Am Ende ist eine Zusammenfassung
183	aus. Abschließend findet eine Zusammenfassung statt, auch wird ein Ausblick	194	samt Ausblick zu finden.
184	gegeben.
185		195
188		198
189	[6]Die Herausforderung bei der Entwicklung eines Algorithmus zur automatisierten	199
		200	[6]Die Herausforderung eines Algorithmus zur automatisierten
190	Kategorisierung von Berufsangaben besteht darin, sich unterscheidende	201	Kategorisierung von Berufsangaben besteht darin, sich unterscheidende
191	Einträge, die die gleiche Sache beschreiben, zusammenzuführen. ~~Diese~~ Aufgabe	202	Einträge, die die gleiche Sache beschreiben, zusammenzuführen. Bei dieser Aufgabe
192	~~ist~~ im Wesentlichen ~~also~~ eine ~~der~~ Dublettenerkennung, in der etymologisch	203	handelt es sich also im Wesentlichen um eine Dublettenerkennung, in der etymologisch
193	identische, aber dennoch anders geschriebene Dubletten erkannt und	204	identische, aber dennoch anders geschriebene Dubletten erkannt und
194	zusammengeführt werden. Im ersten Unterabschnitt wird dazu einführend auf	205	zusammengeführt werden. Im ersten Unterabschnitt wird dazu einführend auf Berufsangaben
195	~~Berufsangaben~~ im genealogischen Kontext eingegangen. Danach wird ~~der~~	206	im genealogischen Kontext eingegangen. Danach wird auf die Bereinigung und Lemmatisierung
196	~~aktuelle Stand zur Bereinigung und Lemmatisierung~~ von Daten ~~im Allgemeinen~~	207	von Daten eingegangen, bevor abschließend die Besonderheiten der Berufsklassifikation
197	~~aufgezeigt, bevor abschließend spezieller auf die Besonderheiten der~~	208	in den Fokus gerückt werden.
198	~~Berufsklassifikation eingegangen wird.~~	209
199		210
200	2.1 Berufsangaben in genealogischen Quellen	211	2.1 Berufsangaben in genealogischen Quellen
		212
201		213
231		243
		244
232	2.2 Bereinigung und Lemmatisierung von Daten	245	2.2 Bereinigung und Lemmatisierung von Daten
		246
233		247
235	enthalten – weder in den Primärquellen wie Kirchenbüchern noch in den	249	enthalten – weder in den Primärquellen wie Kirchenbüchern noch in den
236	aufbereiteten GEDCOM-Dateien –, ist eine Verarbeitung dieser Daten	250	aufbereiteten GEDCOM-Dateien –, ist eine Verarbeitung dieser Daten notwendig, um aus
237	notwendig, um aus ihnen die relevanten Informationen zu extrahieren. Zu	251	ihnen die relevanten Informationen zur Einordnung in ein berufliches Klassifikationssystem
		252	zu extrahieren. Zu
238	diesem Zwecke wird folgend genauer auf die Datenbereinigung,	253	diesem Zwecke wird folgend genauer auf die Datenbereinigung,
241		256
		257
242	2.2.1 Datenbereinigung	258	2.2.1 Datenbereinigung
243		259
		260
244	[10]Während der Datenbereinigung werden Fehler und Inkonsistenzen (im	261	[10]Während der Datenbereinigung werden Fehler und Inkonsistenzen (im
245	Folgenden auch ›Anomalien‹ genannt) erkannt und entfernt.[11] Es können	262	Folgenden auch ›Anomalien‹ genannt) erkannt und entfernt.[11] Beispielsweise können Rechtschreibfehler bestehen, Abkürzungen genutzt
246	beispielsweise Rechtschreibfehler bestehen, Abkürzungen genutzt
247	werden, Bezeichnungen in falsche Felder eingetragen werden oder eben	263	werden, Bezeichnungen in falsche Felder eingetragen werden oder eben
255	beschreiben, während eine Ortsangabe nur eine in das falsche	271	beschreiben, während eine Ortsangabe nur eine in das falsche
256	Datenfeld eingetragene Information ~~darstellen~~ kann.	272	Datenfeld eingetragene Information sein kann.
257		273
277		293
		294
278	2.2.2 Ähnlichkeits- und Distanzmaße	295	2.2.2 Ähnlichkeits- und Distanzmaße
		296
279		297
283	Bezeichnungen die gleiche Entität in der realen Welt repräsentieren,	301	Bezeichnungen die gleiche Entität in der realen Welt repräsentieren,
284	so ~~stellen~~ sie Dubletten ~~dar~~.[14] Da Berufsangaben Strings im Sinne einer semantischen	302	so sind sie Dubletten.[14] Da Berufsangaben Strings im Sinne einer semantischen
285	Zeichenkette ~~darstellen~~, können String-Matching-Algorithmen zur	303	Zeichenkette sind, können String-Matching-Algorithmen zur
286	Erkennung einer unscharfen Übereinstimmung auf sie angewendet	304	Erkennung einer unscharfen Übereinstimmung auf sie angewendet
299		317
		318
		319	[13]Daneben gibt es auch andere Ähnlichkeitsmaße, deren Verwendung auf ähnliche Aufgabenstellungen
		320	sinnvoll erscheinen könnte. Beispiele dafür sind die Jaro-Winkler-Distanz, eine stochastisch
		321	gewichtete Levenshtein-Distanz[18] oder Deep-Learning-Algorithmen wie DeezyMatch und STANCE.[19] Zudem können phonetische Ähnlichkeitsmaße wie die Kölner Phonetik eingesetzt werden.
		322	Weitere Möglichkeiten sind die Heuristiken von Bryan Jurish für DTA::CAB.[20] Auch Machine-Learning-Applikationen wie bei Bollmann und Domingo / Casacuberta können
		323	Einsatz finden. In dieser Arbeit kann keine Aussage darüber getroffen werden, welche Methode in welchem
		324	Fall die besten Ergebnisse produziert. Im Zweifel kann die Ähnlichkeitsanalyse im
		325	Algorithmus und Programmcode verändert werden. Bei einer Veränderung des Programmcodes
		326	ist es wichtig, auch eine Anpassung der Grenzwerte vorzunehmen, wie im weiteren Verlauf
		327	des Textes deutlich wird.
		328
		329
		330
300	2.2.3 Grundlagen von Klassifikationen	331	2.2.3 Grundlagen von Klassifikationen
301		332
302	[13]Unter der Klassifikation wird die Gliederung von Elementen einer	333
		334	[14]Unter der Klassifikation wird die Gliederung von Elementen einer
303	Menge in verschiedene Klassen nach einer definierten Logik	335	Menge in verschiedene Klassen nach einer definierten Logik
318		350
		351
		352
		353
319	Klassifikation korrekt	354	Klassifikation korrekt
		355
320	Klassifikation nicht korrekt	356	Klassifikation nicht korrekt
322		358
		359
323	Klassifikation erfolgt	360	Klassifikation erfolgt
		361
324	True positive (TP)	362	True positive (TP)
		363
325	False positive (FP)	364	False positive (FP)
327		366
		367
328	Klassifikation nicht erfolgt	368	Klassifikation nicht erfolgt
		369
329	True negative (TN)	370	True negative (TN)
		371
330	False negative (FN)	372	False negative (FN)
		373
331		374
334	Klassifikation in Anlehnung an Fawcett 2006. [Goldberg / Moeller	377	Klassifikation in Anlehnung an Fawcett 2006. [Goldberg / Moeller
335	2022][14]Durch die Kombination der Anzahl der jeweiligen Zustände kann die	378	2022]
		379
		380	[15]Durch die Kombination der Anzahl der jeweiligen Zustände kann die
336	Güte der Klassifikation bewertet werden. Dies ist notwendig, weil	381	Güte der Klassifikation bewertet werden. Dies ist notwendig, weil
339	Treffer falsch sein. Eine Möglichkeit zur Ermittlung der Qualität	384	Treffer falsch sein. Eine Möglichkeit zur Ermittlung der Qualität
340	einer Klassifikation stellt das F1-Maß dar.[18] Dieses wird genutzt, um	385	einer Klassifikation stellt das F1-Maß dar.[21] Dieses wird genutzt, um
341	ein optimiertes Verhältnis zwischen den gefundenen Treffern und den	386	ein optimiertes Verhältnis zwischen den gefundenen Treffern und den
345		390
346	[15]	391	[16]Formel 1: F1=2PRP+R
347		392
348	[16]Sind hier die Genauigkeit und die Trefferquote beim F1-Maß gleich	393	[17]Sind hier die Genauigkeit und die Trefferquote beim F1-Maß gleich
349	gewichtet, so ist auch jede andere Gewichtung denkbar. Die	394	gewichtet, so ist auch jede andere Gewichtung denkbar. Die
352		397
353	[17]	398	[18]Formel 2: P=\|TP\|\|TP\|+\|FP\|
354		399	Formel 3: R=\|TP\|\|TP\|+\|FN\|
355	[18]	400
356		401	[19]Anders als bei einer manuellen Klassifikation, bei der die Korrektheit einer Zuordnung
357	[19]Eine automatisch durchgeführte Klassifikation führt jedoch dazu, dass	402	vorher ermittelt wird, ist das bei einer automatisch durchgeführten Klassifikation
358	das Ergebnis nicht (oder nur im Nachgang) manuell auf	403	– wenn überhaupt – erst im Nachgang möglich. Jedoch verändert jede zusätzliche Schreibvariante,
359	(Un-)Korrektheit hin überprüft werden kann. Durch die mittels	404	die einem Lemma zugeordnet wird, die Eigenschaften dieser Klasse. Dadurch, dass künftige
360	Klassifikation zusätzlich vorgenommene Verknüpfung kann sie die	405	Klassifikationen auf diese vorherigen Informationen zugreifen können, findet überwachtes
361	Eigenschaften der Klasse verändern oder erweitern. Dadurch, dass	406	Lernen statt.
362	künftige Klassifikationen auf diese vorherigen Informationen	407
363	zugreifen können, findet überwachtes Lernen statt.
364		408
367	2.3 Berufsklassifikationen	411	2.3 Berufsklassifikationen
		412
368		413
383	[21]Zur Klassifikation von Berufen existieren verschiedene Ansätze die bisher	428	[21]Zur Klassifikation von Berufen existieren verschiedene Ansätze die bisher
384	vor allem moderne internationale,[19] moderne deutschsprachige[20] oder historische englischsprachige[21] Berufsnamen führen. Von	429	vor allem moderne internationale,[22] moderne deutschsprachige[23] oder historische englischsprachige[24] Berufsnamen führen. Von
385	diesen Standards wird häufig eine Vielzahl forschungsbasierter	430	diesen Standards wird häufig eine Vielzahl forschungsbasierter
389	weil die Anbindung an Standards die Nachvollziehbarkeit und	434	weil die Anbindung an Standards die Nachvollziehbarkeit und
390	Vergleichbarkeit von Forschungsergebnissen gewährleistet.[22] Im deutschsprachigen Raum ist	435	Vergleichbarkeit von Forschungsergebnissen gewährleistet.[25] Im deutschsprachigen Raum ist
391	vor allem die Klassifikation der Berufe 2010 (KldB 2010) beziehungsweise	436	vor allem die Klassifikation der Berufe 2010 (KldB 2010) beziehungsweise
393	Moeller auf viele historische, deutschsprachige Berufsbezeichnung	438	Moeller auf viele historische, deutschsprachige Berufsbezeichnung
394	angewendet.[23] Dieses	439	angewendet.[26] Dieses
395	System wird im Weiteren Anwendung finden, da es für den	440	System wird im Weiteren Anwendung finden, da es für den
396	deutschsprachigen Raum die umfangreichste Lösung darstellt. Alternativ	441	deutschsprachigen Raum die umfangreichste Lösung darstellt. Für diese Arbeit wurde
		442	der Stand der OhdAB vom 27. Mai 2020 verwendet (mit 183.381 Varianten). Alternativ
397	dazu könnte HISCO in Betracht gezogen werden. HISCO stellt die	443	dazu könnte HISCO in Betracht gezogen werden. HISCO stellt die
399	abgesehen, weil auf der offiziellen HISCO-Webpräsenz derzeit nur 1.306	445	abgesehen, weil auf der offiziellen HISCO-Webpräsenz derzeit nur 1.306
400	deutsche Berufsbezeichnungen genutzt werden.[24] Zudem enthält	446	deutsche Berufsbezeichnungen genutzt werden, während die OhdAB momentan 44.893 Normbezeichnungen
		447	für deutschsprachige Berufe führt.[27] Zudem enthält
401	HISCO keine umfangreiche Zuordnung von Varianten eines Berufs, wodurch	448	HISCO keine umfangreiche Zuordnung von Varianten eines Berufs, wodurch
406	existieren im deutschsprachigen Raum historische	453	existieren im deutschsprachigen Raum historische
407	Berufsklassifikationen,[25] die in die OhdAB mit eingeflossen	454	Berufsklassifikationen,[28] die in die OhdAB mit eingeflossen
408	sind. Beachtlich ist zudem die Systematisierung des Thesaurus	455	sind. Beachtlich ist zudem die Systematisierung des Thesaurus
410	Leichenpredigten der Forschungsstelle für Personalschriften der	457	Leichenpredigten der Forschungsstelle für Personalschriften der
411	Philipps-Universität Marburg zurückgehen.[26]	458	Philipps-Universität Marburg zurückgehen.[29]
		459
		460
		461
412	2.3.1 Klassifikation der Berufe 2010	462	2.3.1 Klassifikation der Berufe 2010
413		463
		464
414	[22]Die KldB 2010 teilt Berufe nach einer fünfgliedrigen	465	[22]Die KldB 2010 teilt Berufe nach einer fünfgliedrigen
415	Hierarchiestruktur ein.[27] Der Einsteller (Berufsbereiche)	466	Hierarchiestruktur ein.[30] Der Einsteller (Berufsbereiche)
416	gliedert die Berufe in grundlegende Themen.[28] Die nächsten drei Ebenen	467	gliedert die Berufe in grundlegende Themen.[31] Die nächsten drei Ebenen
417	(Berufshauptgruppen, Berufsgruppen und Berufsuntergruppen)	468	(Berufshauptgruppen, Berufsgruppen und Berufsuntergruppen)
418	beschreiben die berufsfachlichen Zusammenhänge.[29] Je stärker	469	beschreiben die berufsfachlichen Zusammenhänge.[32] Je stärker
419	zusammenhängende Fähigkeiten, Tätigkeiten und Kompetenzen zwischen	470	zusammenhängende Fähigkeiten, Tätigkeiten und Kompetenzen zwischen
422	Anforderungsniveau, sodass durch ihn unterschiedliche	473	Anforderungsniveau, sodass durch ihn unterschiedliche
423	Komplexitätsgrade desselben Berufs ausgedrückt werden können.[30] Insgesamt	474	Komplexitätsgrade desselben Berufs ausgedrückt werden können.[33] Insgesamt
424	existieren auf der Ebene des Fünfstellers mittlerweile 1.900	475	existieren auf der Ebene des Fünfstellers mittlerweile 1.900
425	Berufsgattungen.[31]	476	Berufsgattungen.[34]
		477
		478
		479
		480
426		481
429	Stellensystem	484	Stellensystem
		485
430	Bezeichnung für das Beispiel des Bäckers	486	Bezeichnung für das Beispiel des Bäckers
		487
431	Gruppenbezeichnung	488	Gruppenbezeichnung
		489
432	Anzahl der Gruppen über alle Berufsgattungen	490	Anzahl der Gruppen über alle Berufsgattungen
434		492
		493
435	1-Steller B 29222	494	1-Steller B 29222
		495
436	Rohstoffgewinnung, Produktion und Fertigung	496	Rohstoffgewinnung, Produktion und Fertigung
		497
437	Berufsbereiche	498	Berufsbereiche
		499
438	10 Gruppen	500	10 Gruppen
440		502
		503
441	2-Steller B 29222	504	2-Steller B 29222
		505
442	Lebensmittelherstellung und -verarbeitung	506	Lebensmittelherstellung und -verarbeitung
		507
443	Berufshauptgruppen	508	Berufshauptgruppen
		509
444	72 Gruppen	510	72 Gruppen
446		512
		513
447	3-Steller B 29222	514	3-Steller B 29222
		515
448	Lebensmittel- und Genussmittelherstellung	516	Lebensmittel- und Genussmittelherstellung
		517
449	Berufsgruppen	518	Berufsgruppen
		519
450	260 Gruppen	520	260 Gruppen
452		522
		523
453	4-Steller B 29222	524	4-Steller B 29222
		525
454	Berufe in der Back- und Konditoreiwarenherstellung	526	Berufe in der Back- und Konditoreiwarenherstellung
		527
455	Berufsuntergruppen	528	Berufsuntergruppen
		529
456	941 Gruppen	530	941 Gruppen
458		532
		533
459	5-Steller B 29222	534	5-Steller B 29222
		535
460	Berufe Back- und Konditoreiwarenherstellung - fachliche	536	Berufe Back- und Konditoreiwarenherstellung - fachliche
463	Anforderungsniveau	539	Anforderungsniveau
		540
464	1.900 Gruppen	541	1.900 Gruppen
		542
465		543
468	am Beispiel des Berufes Bäcker. [Goldberg / Moeller	546	am Beispiel des Berufes Bäcker. [Goldberg / Moeller
469	2022][23]Einzelne Berufe sind in der KldB 2010 nicht aufgeführt, sondern in	547	2022]
		548
		549	[23]Einzelne Berufe sind in der KldB 2010 nicht aufgeführt, sondern in
470	die entsprechenden Berufsgattungen einzuordnen; dennoch bietet diese	550	die entsprechenden Berufsgattungen einzuordnen; dennoch bietet diese
474		554
		555
475	2.3.2 Erweiterung um historische Berufe	556	2.3.2 Erweiterung um historische Berufe
		557
476		558
537		619
		620
538	[27]Die Entwicklung eines Algorithmus ist notwendig, um die Vorgehensweisen	621	[27]Die Entwicklung eines Algorithmus ist notwendig, um die Vorgehensweisen
542	beleuchtet. Danach folgt eine Umsetzung der Schritte der Datenbereinigung	625	beleuchtet. Danach folgt eine Umsetzung der Schritte der Datenbereinigung
543	nach Müller und Freytag.[32]	626	nach Müller und Freytag.[35]
		627
		628
		629
544	3.1 Anforderungen das Ergebnis	630	3.1 Anforderungen das Ergebnis
545		631
		632
546	[28]Zunächst sollen möglichst viele Berufsangaben den richtigen Entitäten, im	633	[28]Zunächst sollen möglichst viele Berufsangaben den richtigen Entitäten, im
547	Weiteren ›Klassen‹, zugeordnet werden ~~(TP)~~. Ein Beruf stellt dabei eine	634	Weiteren ›Klassen‹, zugeordnet werden. Ein Beruf stellt dabei eine
548	Klasse dar; die bekannten Schreibweisen (Varianten) wiederum sind die	635	Klasse dar; die bekannten Schreibweisen (Varianten) wiederum sind die
555		642
		643
		644
556	Abb. 1: Begriffe und Zusammenhänge des	645	Abb. 1: Begriffe und Zusammenhänge des
557	Algorithmus. [Goldberg / Moeller 2022]	646	Algorithmus. [Goldberg / Moeller 2022]
		647
		648
		649
558		650
586	Anforderung, daraus den Beruf zu separieren. Möglicherweise sind auch	678	Anforderung, daraus den Beruf zu separieren. Möglicherweise sind auch
587	mehrere Berufsangaben verzeichnet, ~~diese~~ dann getrennt voneinander	679	mehrere Berufsangaben verzeichnet, die dann getrennt voneinander
588	erkannt werden sollten. Auch berufsferne oder berufsfremde Informationen	680	erkannt werden sollten. Auch berufsferne oder berufsfremde Informationen
595		687
		688
596	3.2 Methodik der Datenbereinigung	689	3.2 Methodik der Datenbereinigung
		690
597		691
605	von genealogischen Daten dar. In dieser Datenbank sind in etwa 13.000	699	von genealogischen Daten dar. In dieser Datenbank sind in etwa 13.000
606	Dateien und 22 Millionen Personen abgebildet.[33] Ein Teil dieser Dateien	700	Dateien und 22 Millionen Personen abgebildet.[36] Ein Teil dieser Dateien
607	ist von den Autoren zum öffentlichen Download freigegeben. ~~Eine~~	701	ist von den Autoren zum öffentlichen Download freigegeben. Die Ausführung eines Scrapers
608	~~Anwendung eines Scrapers~~ zur Sammlung der öffentlichen GEDCOM-Dateien in	702	zur Sammlung der öffentlichen GEDCOM-Dateien in
609	GEDBAS~~, ausgeführt~~ am 14.04.2020, erbrachte 2.899 Dateien.[34] Um die Berufsangaben aus den	703	GEDBAS am 14.04.2020 erbrachte 2.899 Dateien.[37] Um die Berufsangaben aus den
610	Dateien zu erfassen, werden aus allen GEDCOM-Dateien die Berufsangaben	704	Dateien zu erfassen, werden aus allen GEDCOM-Dateien die Berufsangaben
611	(›OCCU‹-Tag) ausgelesen und in einer Liste zusammengefasst.[35] Insgesamt werden auf diese Weise	705	(›OCCU‹-Tag) ausgelesen und in einer Liste zusammengefasst.[38] Insgesamt werden auf diese Weise
612	229.669 Berufsangaben ermittelt. Nach einer Eliminierung der mehrfachen	706	229.669 Berufsangaben ermittelt. Nach einer Eliminierung der mehrfachen
613	Angaben bleiben 60.000 verschiedene Bezeichnungen übrig.	707	Angaben bleiben 60.000 verschiedene Bezeichnungen übrig. Dabei werden doppelte Token
		708	gelöscht, sodass jeder Type einer Bezeichnung in der Liste nur einmal vorkommt.
614		709
620	insgesamt erkannt:	715	insgesamt erkannt:
		716
621		717
709		805
710	~~Titularangaben~~: Vom Beruf (und auch dem	806	Titelangaben: Vom Beruf (und auch dem
711	Rechtsstatus) abzugrenzen sind Titel wie Adelstitel oder akademische	807	Rechtsstatus) abzugrenzen sind Titel wie Adelstitel oder akademische
768		864
		865
		866
769	3.3 Ablauf der Datenbereinigung	867	3.3 Ablauf der Datenbereinigung
770		868
		869
		870
771	3.3.1 Normieren von Trennoperatoren	871	3.3.1 Normieren von Trennoperatoren
		872
772		873
784	-	885	-
		886
785		887
813	eigentlichen Berufsangabe getrennt. Dennoch bleibt auch hier die	915	eigentlichen Berufsangabe getrennt. Dennoch bleibt auch hier die
814	Zusammengehörigkeit nachvollziehbar.[36]	916	Zusammengehörigkeit nachvollziehbar.[39]
		917
		918
815	[38]Es folgen Schritte zur Separierung berufsferner Angaben aus der	919	[38]Es folgen Schritte zur Separierung berufsferner Angaben aus der
835		939
		940
		941
		942
836	3.3.2 Entfernung von Leerzeichen	943	3.3.2 Entfernung von Leerzeichen
		944
837		945
841		949
842	3.3.3 Ausformulierung von Abkürzungen	950
		951	3.3.3 Auflösung von Abkürzungen
		952
843		953
848	allgemeingültig erscheinen, werden an dieser Stelle dennoch bereits	958	allgemeingültig erscheinen, werden an dieser Stelle dennoch bereits
849	aufgenommen. Kommen sie vor, werden sie ~~ausformuliert~~. Das bedeutet,	959	aufgenommen. Kommen sie vor, werden sie aufgelöst. Das bedeutet,
850	dass dieses ausgeschrieben werden. Dies sind:	960	dass dieses ausgeschrieben werden. Dies sind:
854	›Ing.‹ für ›Ingenieur‹	964	›Ing.‹ für ›Ingenieur‹
		965
855		966
861	eindeutiger Verwendung – bewusst so belassen, da sie später als	972	eindeutiger Verwendung – bewusst so belassen, da sie später als
862	~~Titularangabe~~ separiert wird. Auch trifft dieses auf die Abkürzungen	973	Titelangabe separiert wird. Auch trifft dieses auf die Abkürzungen
863	›a. D.‹ und ›i. R.‹ zu, da diese den Berufsstatus beschreiben.	974	›a. D.‹ und ›i. R.‹ zu, da diese den Berufsstatus beschreiben.
864	Ebenso werden weitere Abkürzungen, die für bestimmte Rollen häufig	975	Ebenso werden weitere Abkürzungen, die für bestimmte Rollen häufig
865	verwendet werden, nicht ~~ausformuliert~~ (z. B. ›F. d.‹ oder ›T. d.‹,	976	verwendet werden, nicht aufgelöst (z. B. ›F. d.‹ oder ›T. d.‹,
866	für ›Frau des‹ oder ›Tochter des‹). Die OhdAB nimmt sicher	977	für ›Frau des‹ oder ›Tochter des‹). Die OhdAB nimmt sicher
869		980
		981
870	3.3.4 Definierte berufsferne Substantive	982	3.3.4 Definierte berufsferne Substantive
		983
871		984
886		999
		1000
887	[43]Angaben, die Auskunft über den Besitz geben, werden hingegen der	1001	[43]Angaben, die Auskunft über den Besitz geben, werden hingegen der
893		1007
		1008
894	3.3.5 Lokale Präpositionen	1009	3.3.5 Lokale Präpositionen
		1010
895		1011
914		1030
		1031
915	[45]Abgegrenzt von der Ortsangabe weisen folgende Ergänzungen der	1032	[45]Abgegrenzt von der Ortsangabe weisen folgende Ergänzungen der
922		1039
		1040
923	[46]Des Weiteren werden folgende Adjektive, die keine lokale Präposition	1041	[46]Des Weiteren werden folgende Adjektive, die keine lokale Präposition
924	~~darstellen~~, ebenso in die Arbeitgeberkategorie separiert, aber nicht	1042	sind, ebenso in die Arbeitgeberkategorie separiert, aber nicht
925	aus dem weiter zu verarbeiteten String gelöscht, da sie einen	1043	aus dem weiter zu verarbeiteten String gelöscht, da sie einen
935		1053
		1054
		1055
936	3.3.6 Separierung von Quellenangaben	1056	3.3.6 Separierung von Quellenangaben
		1057
937		1058
946		1067
947	3.3.7 Titularangaben	1068
		1069	3.3.7 Titelangaben
		1070
948		1071
949	[48]Falls die Berufsangabe Informationen zum Titel enthält, werden diese	1072	[48]Falls die Berufsangabe Informationen zum Titel enthält, werden diese
950	in die Kategorie ~~Titularangaben~~ separiert.	1073	in die Kategorie Titelangaben separiert.
951	Wenn auf eine der nachfolgenden Zeichenketten ein Leerzeichen folgt,	1074	Wenn auf eine der nachfolgenden Zeichenketten ein Leerzeichen folgt,
952	so endet die ~~Titularangabe~~ mit dem Punkt. Eine Ausnahme besteht	1075	so endet die Titelangabe mit dem Punkt. Eine Ausnahme besteht
953	darin, dass der nachfolgend durch Leerzeichen abgetrennte Teilstring	1076	darin, dass der nachfolgend durch Leerzeichen abgetrennte Teilstring
954	auch mit einem Punkt endet und somit eine Abkürzung darstellt. Hier	1077	auch mit einem Punkt endet und somit eine Abkürzung darstellt. Hier
955	wird auch dieser Teilstring in die ~~Titularangabe~~ mit eingebunden und	1078	wird auch dieser Teilstring in die Titelangabe mit eingebunden und
956	gelöscht. Das betrifft auch weitere nachfolgende Teilstrings (z. B.	1079	gelöscht. Das betrifft auch weitere nachfolgende Teilstrings (z. B.
966		1089
967	[49]Des Weiteren gibt es viele andere Titularangaben wie Titularherr,	1090
		1091	[49]Des Weiteren gibt es viele andere Titelangaben wie Titularherr,
968	Graf, Contesse, Gräfin, Freifrau, Freiherr etc. Sie können nach	1092	Graf, Contesse, Gräfin, Freifrau, Freiherr etc. Sie können nach
971		1095
		1096
972	3.3.8 Angaben zum Familienstand	1097	3.3.8 Angaben zum Familienstand
		1098
973		1099
990		1116
		1117
991	[51]Dieses bezieht sich nicht auf definierte Ausnahmen, in denen dieses	1118	[51]Dieses bezieht sich nicht auf definierte Ausnahmen, in denen dieses
1003		1130
		1131
		1132
1004	3.3.9 Temporale Präpositionen und Ziffern	1133	3.3.9 Temporale Präpositionen und Ziffern
		1134
1005		1135
1013	im Jahr	1143	im Jahr
		1144
1014		1145
1024		1155
		1156
1025	3.3.10 Erkennung von Rollenangaben	1157	3.3.10 Erkennung von Rollenangaben
		1158
1026		1159
1031	/ Helfer oder -helfer / Bursche oder -bursche	1164	/ Helfer oder -helfer / Bursche oder -bursche
1032
1033	Lehrling oder -lehrling / Geselle oder -geselle	1165	Lehrling oder -lehrling / Geselle oder -geselle
1037	-oberältester	1169	-oberältester
1038
1039	Besitzer oder -besitzer / Eigentümer oder -eigentümer	1170	Besitzer oder -besitzer / Eigentümer oder -eigentümer
		1171
1040		1172
1047		1179
		1180
1048	3.3.11 Berufsstatus	1181	3.3.11 Berufsstatus
		1182
1049		1183
1058	›i. R.‹ oder ›i.R.‹	1192	›i. R.‹ oder ›i.R.‹
1059	›gewesene‹ oder ›gewesener‹[37]	1193	›gewesene‹ oder ›gewesener‹[40]
		1194
		1195
1060		1196
1067		1203
		1204
1068	3.3.12 Separation von Angaben in Klammern	1205	3.3.12 Separation von Angaben in Klammern
		1206
1069		1207
1077		1215
		1216
1078	3.3.13 Löschung von Sonderzeichen	1217	3.3.13 Löschung von Sonderzeichen
		1218
1079		1219
1082	Sonderzeichen werden all jene Zeichen definiert, die keine Zahlen	1222	Sonderzeichen werden all jene Zeichen definiert, die keine Zahlen
1083	oder Buchstaben ~~darstellen~~. Falls vor, nach oder vor und nach den	1223	oder Buchstaben sind. Falls vor, nach oder vor und nach den
1084	Sonderzeichen ein Leerzeichen steht, so wird stattdessen ein	1224	Sonderzeichen ein Leerzeichen steht, so wird stattdessen ein
1087		1227
		1228
1088	3.3.14 Umsetzen der Kleinschreibung	1229	3.3.14 Umsetzen der Kleinschreibung
		1230
1089		1231
1102	[62]Die Ausführung der Verarbeitung (workflow execution) erfolgt nicht	1244	[62]Die Ausführung der Verarbeitung (workflow execution) erfolgt nicht
1103	iterativ, sondern einmalig.[38] Um den	1245	iterativ, sondern einmalig.[41] Um den
1104	Algorithmus auf die Angaben anzuwenden, ist eine Vorbereitung der	1246	Algorithmus auf die Angaben anzuwenden, ist eine Vorbereitung der
1112		1254
		1255
1113	3.4 Klassifizierung der Berufsangaben	1256	3.4 Klassifizierung der Berufsangaben
		1257
1114		1258
1130	al. empfehlen für die weitere Forschung eine Variation von verschiedenen	1274	al. empfehlen für die weitere Forschung eine Variation von verschiedenen
1131	Vergleichsmethoden.[39]	1275	Vergleichsmethoden.[42]
1132	Folgend werden Möglichkeiten aufgezeigt, die im Abschnitt zur	1276	Folgend werden Möglichkeiten aufgezeigt, die im Abschnitt zur
1140		1284
		1285
		1286
		1287
1141	3.4.1 Levenshtein-Distanz absolut	1288	3.4.1 Levenshtein-Distanz absolut
		1289
1142		1290
1152		1300
		1301
1153	3.4.2 Levensthein-Distanz relativ	1302	3.4.2 Levensthein-Distanz relativ
		1303
1154		1304
1164		1314
1165	[67]	1315	[67]Formel 4: Levr(bi,vj)=Lev(bi,vj)Länge bi
		1316
1166		1317
1168	3.4.3 Erweiterung der Abkürzungserkennung	1319	3.4.3 Erweiterung der Abkürzungserkennung
		1320
1169		1321
1171	Abkürzungserkennung verglichen: Zum einen ist das der Algorithmus,	1323	Abkürzungserkennung verglichen: Zum einen ist das der Algorithmus,
1172	wie er zuvor vorgestellt worden ist (~~Ausformulierung~~ definierter	1324	wie er zuvor vorgestellt worden ist (Auflösung definierter
1173	Abkürzungen). Zum anderen aber wird eine Erweiterung dahingehend	1325	Abkürzungen). Zum anderen aber wird eine Erweiterung dahingehend
1178	ursprüngliche Levenshtein-Distanz vergleichsweise hoch ist.	1330	ursprüngliche Levenshtein-Distanz vergleichsweise hoch ist.
		1331
1179		1332
1199		1352
		1353
1200	3.4.5 Ergänzung einer lernenden Komponente im Anschluss in einer	1354	3.4.5 Ergänzung einer lernenden Komponente im Anschluss in einer
1215		1369
		1370
1216	[71]Der im vorherigen Abschnitt beschrieben Algorithmus kann wie in Abbildung 2	1371	[71]Der im vorherigen Abschnitt beschrieben Algorithmus kann wie in Abbildung 2
1217	zu sehen graphisch dargestellt werden.	1372	zu sehen grafisch dargestellt werden.
		1373
		1374
1218		1375
1222	Nassi-Shneiderman-Diagramm. [Goldberg / Moeller 2022]	1379	Nassi-Shneiderman-Diagramm. [Goldberg / Moeller 2022]
		1380
		1381
		1382
1223		1383
1312		1472
		1473
		1474
1313	Abb. 3: Zusammenhang der Funktionen.	1475	Abb. 3: Zusammenhang der Funktionen.
1316		1478
		1479
		1480
		1481
1317	5. Validierung und Diskussion	1482	5. Validierung und Diskussion
		1483
1318		1484
1356	Der Umfang dieser Berufsangaben an den Trainingsdaten ist jeweils den	1522	Der Umfang dieser Berufsangaben an den Trainingsdaten ist jeweils den
1357	Spalten ›Anzahl‹ und ›Anteil‹ zu entnehmen.[40]	1523	Spalten ›Anzahl‹ und ›Anteil‹ zu entnehmen.[43]
1358	Besonders deutlich wird die Ungenauigkeit bei einer absoluten	1524	Besonders deutlich wird die Ungenauigkeit bei einer absoluten
1367		1533
		1534
		1535
1368	Lev	1536	Lev
		1537
1369	Anzahl	1538	Anzahl
		1539
1370	Anteil	1540	Anteil
		1541
1371	TP	1542	TP
		1543
1372	FP	1544	FP
		1545
1373	P	1546	P
		1547
1374	FN	1548	FN
		1549
1375	TN	1550	TN
		1551
1376	R	1552	R
		1553
1377	F1	1554	F1
1379		1556
		1557
1380	≤ 1	1558	≤ 1
		1559
1381	35	1560	35
		1561
1382	1,88 %	1562	1,88 %
		1563
1383	31	1564	31
		1565
1384	4	1566	4
		1567
1385	0,886	1568	0,886
		1569
1386	7	1570	7
		1571
1387	30	1572	30
		1573
1388	0,816	1574	0,816
		1575
1389	0,849	1576	0,849
1391		1578
		1579
1392	≤ 2	1580	≤ 2
		1581
1393	47	1582	47
		1583
1394	2,53 %	1584	2,53 %
		1585
1395	37	1586	37
		1587
1396	9	1588	9
		1589
1397	0,787	1590	0,787
		1591
1398	1	1592	1
		1593
1399	25	1594	25
		1595
1400	0,974	1596	0,974
		1597
1401	0,881	1598	0,881
1403		1600
		1601
1404	≤ 3	1602	≤ 3
		1603
1405	72	1604	72
		1605
1406	3,87 %	1606	3,87 %
		1607
1407	38	1608	38
		1609
1408	34	1610	34
		1611
1409	0,527	1612	0,527
		1613
1410	0	1614	0
		1615
1411	0	1616	0
		1617
1412	1,000	1618	1,000
		1619
1413	0,691	1620	0,691
		1621
1414		1622
1417	der Levenshtein-Distanz als Grenzwert. [Goldberg / Moeller	1625	der Levenshtein-Distanz als Grenzwert. [Goldberg / Moeller
1418	2022][82]Bei einem Vergleich von verschiedenen Grenzwerten der relativen	1626	2022]
		1627
		1628
		1629	[82]Bei einem Vergleich von verschiedenen Grenzwerten der relativen
1419	Levenshtein-Distanz zeigt sich zudem, dass ein Wert zwischen 0,25 und 0,30	1630	Levenshtein-Distanz zeigt sich zudem, dass ein Wert zwischen 0,25 und 0,30
1434	sinnvoll. Bei Wörtern unter fünf Buchstaben führt mehr als eine Änderung	1645	sinnvoll. Bei Wörtern unter fünf Buchstaben führt mehr als eine Änderung
1435	bereits zu einem Wert von 0,25 und somit niemals zu einer Zuordnung.[41] Eine weitere (erwünschte) Eigenschaft ist,	1646	bereits zu einem Wert von 0,25 und somit niemals zu einer Zuordnung.[44] Eine weitere (erwünschte) Eigenschaft ist,
1436	dass bei vielen fremdsprachlichen Angaben, die als TN klassifiziert werden	1647	dass bei vielen fremdsprachlichen Angaben, die als TN klassifiziert werden
1446		1657
		1658
		1659
1447	Levr	1660	Levr
		1661
1448	Anzahl	1662	Anzahl
		1663
1449	Anteil	1664	Anteil
		1665
1450	TP	1666	TP
		1667
1451	FP	1668	FP
		1669
1452	P	1670	P
		1671
1453	FN	1672	FN
		1673
1454	TN	1674	TN
		1675
1455	R	1676	R
		1677
1456	F1	1678	F1
1458		1680
		1681
1459	< 0,10	1682	< 0,10
		1683
1460	10	1684	10
		1685
1461	0,54 %	1686	0,54 %
		1687
1462	10	1688	10
		1689
1463	0	1690	0
		1691
1464	1,000	1692	1,000
		1693
1465	27	1694	27
		1695
1466	20	1696	20
		1697
1467	0,270	1698	0,270
		1699
1468	0,426	1700	0,426
1470		1702
		1703
1471	< 0,20	1704	< 0,20
		1705
1472	34	1706	34
		1707
1473	1,85 %	1708	1,85 %
		1709
1474	31	1710	31
		1711
1475	3	1712	3
		1713
1476	0,912	1714	0,912
		1715
1477	6	1716	6
		1717
1478	17	1718	17
		1719
1479	0,837	1720	0,837
		1721
1480	0,873	1722	0,873
1482		1724
		1725
1483	< 0.25	1726	< 0.25
		1727
1484	37	1728	37
		1729
1485	2,01 %	1730	2,01 %
		1731
1486	33	1732	33
		1733
1487	4	1734	4
		1735
1488	0,892	1736	0,892
		1737
1489	4	1738	4
		1739
1490	16	1740	16
		1741
1491	0,891	1742	0,891
		1743
1492	0,892	1744	0,892
1494		1746
		1747
1495	< 0,28	1748	< 0,28
		1749
1496	39	1750	39
		1751
1497	2,12 %	1752	2,12 %
		1753
1498	33	1754	33
		1755
1499	6	1756	6
		1757
1500	0,846	1758	0,846
		1759
1501	4	1760	4
		1761
1502	14	1762	14
		1763
1503	0,891	1764	0,891
		1765
1504	0,868	1766	0,868
1506		1768
		1769
1507	< 0,30	1770	< 0,30
		1771
1508	41	1772	41
		1773
1509	2,23 %	1774	2,23 %
		1775
1510	35	1776	35
		1777
1511	6	1778	6
		1779
1512	0,878	1780	0,878
		1781
1513	2	1782	2
		1783
1514	14	1784	14
		1785
1515	0,946	1786	0,946
		1787
1516	0,897	1788	0,897
1518		1790
		1791
1519	< 0,40	1792	< 0,40
		1793
1520	57	1794	57
		1795
1521	3,10 %	1796	3,10 %
		1797
1522	37	1798	37
		1799
1523	20	1800	20
		1801
1524	0,649	1802	0,649
		1803
1525	0	1804	0
		1805
1526	0	1806	0
		1807
1527	1,000	1808	1,000
		1809
1528	0,787	1810	0,787
		1811
1529		1812
1532	des Grenzwerts einer relativen Levenshtein-Distanz. [Goldberg / Moeller	1815	des Grenzwerts einer relativen Levenshtein-Distanz. [Goldberg / Moeller
1533	2022][84]Nachteilig ist, dass Abkürzungen so nicht erkannt werden, da die absolute	1816	2022]
		1817
		1818
		1819	[84]Nachteilig ist, dass Abkürzungen so nicht erkannt werden, da die absolute
1534	Levenshtein-Distanz zwischen einem Begriff und seiner Abkürzung	1820	Levenshtein-Distanz zwischen einem Begriff und seiner Abkürzung
1547	des Ergebnisses zu prüfen, werden die Testdaten verwendet (229.669	1833	des Ergebnisses zu prüfen, werden die Testdaten verwendet (229.669
1548	Berufsangaben in 2.899 Dateien).[42] Hier	1834	Berufsangaben in 2.899 Dateien).[45] Hier
1549	werden nicht die Trainingsdaten verwendet, sondern alle Daten, weil	1835	werden nicht die Trainingsdaten verwendet, sondern alle Daten, weil
1568		1854
		1855
		1856
		1857
1569	Direkt gefunden	1858	Direkt gefunden
		1859
1570	Ähnlichkeitsanalyse	1860	Ähnlichkeitsanalyse
		1861
1571	Nicht gefunden	1862	Nicht gefunden
		1863
1572	Leere Bezeichnungen	1864	Leere Bezeichnungen
1574		1866
		1867
1575	mit Bereinigung (insgesamt 229.669 Angaben)	1868	mit Bereinigung (insgesamt 229.669 Angaben)
1577		1870
		1871
1578	Anzahl	1872	Anzahl
		1873
1579	147.781	1874	147.781
		1875
1580	9.674	1876	9.674
		1877
1581	68.955	1878	68.955
		1879
1582	3.259	1880	3.259
1584		1882
		1883
1585	Anteil	1884	Anteil
		1885
1586	64,35 %	1886	64,35 %
		1887
1587	4,21 %	1888	4,21 %
		1889
1588	30,02 %	1890	30,02 %
		1891
1589	1,42 %	1892	1,42 %
1591		1894
		1895
1592	ohne Bereinigung (insgesamt 229.669 Angaben)	1896	ohne Bereinigung (insgesamt 229.669 Angaben)
1594		1898
		1899
1595	Anzahl	1900	Anzahl
		1901
1596	131.064	1902	131.064
		1903
1597	9.160	1904	9.160
		1905
1598	86.344	1906	86.344
		1907
1599	3.101	1908	3.101
1601		1910
		1911
1602	Anteil	1912	Anteil
		1913
1603	57,07 %	1914	57,07 %
		1915
1604	3,99 %	1916	3,99 %
		1917
1605	37,59 %	1918	37,59 %
		1919
1606	1,35 %	1920	1,35 %
1608		1922
		1923
1609	Tab. 5: Vergleich des Effektes der	1924	Tab. 5: Vergleich des Effektes der
1610	Bereinigung auf die Erkennung. [Goldberg / Moeller 2022][86]Die durch die Ähnlichkeitsanalyse zugeordneten Berufsangaben können, da diese	1925	Bereinigung auf die Erkennung. [Goldberg / Moeller 2022]
		1926
		1927
		1928	[86]Die durch die Ähnlichkeitsanalyse zugeordneten Berufsangaben können, da diese
1611	als Variante noch nicht existieren, in der Variantenliste ergänzt werden.	1929	als Variante noch nicht existieren, in der Variantenliste ergänzt werden.
1617	Verarbeitung ein besseres Ergebnis in Bezug auf das F1-Maß ergibt als die	1935	Verarbeitung ein besseres Ergebnis in Bezug auf das F1-Maß ergibt als die
1618	kontinuierliche Ergänzung (siehe Tabelle 6).[43] Zwar kann bei dieser Option eine	1936	kontinuierliche Ergänzung (siehe Tabelle 6).[46] Zwar kann bei dieser Option eine
1619	niedrigere Genauigkeit (P) beobachtet werden, doch sorgt die große Anzahl	1937	niedrigere Genauigkeit (P) beobachtet werden, doch sorgt die große Anzahl
1631	darauf zurückzuführen, dass bereits sehr viele Schreibversionen in den	1949	darauf zurückzuführen, dass bereits sehr viele Schreibversionen in den
1632	zugrundeliegenden Varianten der OhdAB abgedeckt sind. Bei einer zufälligen	1950	zugrundeliegenden Varianten der OhdAB abgedeckt sind. Bei einer zufälligen Halbierung
1633	~~Halbierung~~ der ~~ursprünglichen~~ Varianten steigt der Anteil der so zusätzlich	1951	der in der OhdAB vorhandenen Varianten steigt der Anteil der so zusätzlich erkannten
1634	~~erkannten~~ Angaben deutlich um 8,80 Prozent (von 4,21 Prozent auf 12,01	1952	Angaben deutlich um 8,80 Prozent (von 4,21 Prozent auf 12,01 Prozent). Werden diese
1635	~~Prozent). Werden diese~~ lemmatisierten Varianten in einem zweiten Durchlauf	1953	lemmatisierten Varianten in einem zweiten Durchlauf
1636	zur Gesamtzahl der Varianten ergänzt, können weitere Berufsbezeichnungen	1954	zur Gesamtzahl der Varianten ergänzt, können weitere Berufsbezeichnungen
1641		1959
		1960
		1961
1642	Verfahren	1962	Verfahren
		1963
1643	Anzahl	1964	Anzahl
		1965
1644	Anteil	1966	Anteil
1645	Rate of TP in %	1967
1646	Rate of FP in %	1968	TP-Rate in %
		1969
		1970	FP-Rate in %
		1971
1647	P	1972	P
		1973
1648	FN	1974	FN
		1975
1649	R	1976	R
		1977
1650	F1	1978	F1
1652		1980
		1981
1653	Analyse mit sämtlichen ursprünglichen Varianten	1982	Analyse mit sämtlichen ursprünglichen Varianten
1655		1984
		1985
1656	Ohne Lernen	1986	Ohne Lernen
		1987
1657	9.674	1988	9.674
		1989
1658	4,21 %	1990	4,21 %
		1991
1659	88	1992	88
		1993
1660	12	1994	12
		1995
1661	0.88	1996	0.88
		1997
1662	5.943	1998	5.943
		1999
1663	0,59	2000	0,59
		2001
1664	0,71	2002	0,71
1666		2004
1667	Kontinuierlich lernen (4x Multiprocessing[44])	2005
		2006	Kontinuierlich lernen (4x Multiprocessing[47])
1668		2007
1669	10.128	2008	10.128
		2009
1670	4,41 %	2010	4,41 %
		2011
1671	86	2012	86
		2013
1672	14	2014	14
		2015
1673	0.86	2016	0.86
		2017
1674	5.489	2018	5.489
		2019
1675	0,61	2020	0,61
		2021
1676	0,71	2022	0,71
1678		2024
		2025
1679	Iterativ lernend (1x)	2026	Iterativ lernend (1x)
		2027
1680	11.185	2028	11.185
		2029
1681	4,87 %	2030	4,87 %
		2031
1682	83	2032	83
		2033
1683	17	2034	17
		2035
1684	0.83	2036	0.83
		2037
1685	4.432	2038	4.432
		2039
1686	0,68	2040	0,68
		2041
1687	0,75	2042	0,75
1689		2044
		2045
1690	Iterativ lernend (2x)	2046	Iterativ lernend (2x)
		2047
1691	15.617	2048	15.617
		2049
1692	6,80 %	2050	6,80 %
		2051
1693	83	2052	83
		2053
1694	17	2054	17
		2055
1695	0.83	2056	0.83
		2057
1696	0	2058	0
		2059
1697	1,00	2060	1,00
		2061
1698	0,91	2062	0,91
		2063
1699		2064
1706	Ohne Lernen	2071	Ohne Lernen
		2072
1707	27.583	2073	27.583
		2074
1708	12,01 %	2075	12,01 %
		2076
1709	80	2077	80
		2078
1710	20	2079	20
		2080
1711	0,80	2081	0,80
		2082
1712	6.086	2083	6.086
		2084
1713	0,78	2085	0,78
		2086
1714	0,79	2087	0,79
1716		2089
		2090
1717	Kontinuierlich lernen (4x Multiprocessing)	2091	Kontinuierlich lernen (4x Multiprocessing)
		2092
1718	27.882	2093	27.882
		2094
1719	12,14 %	2095	12,14 %
		2096
1720	86	2097	86
		2098
1721	14	2099	14
		2100
1722	0,86	2101	0,86
		2102
1723	5.787	2103	5.787
		2104
1724	0,81	2105	0,81
		2106
1725	0,83	2107	0,83
1727		2109
		2110
1728	Iterativ lernend (1x)	2111	Iterativ lernend (1x)
		2112
1729	32.774	2113	32.774
		2114
1730	14,27 %	2115	14,27 %
		2116
1731	76	2117	76
		2118
1732	24	2119	24
		2120
1733	0,76	2121	0,76
		2122
1734	895	2123	895
		2124
1735	0,97	2125	0,97
		2126
1736	0,85	2127	0,85
1738		2129
		2130
1739	Iterativ lernend (2x)	2131	Iterativ lernend (2x)
		2132
1740	33.669	2133	33.669
		2134
1741	14,66 %	2135	14,66 %
		2136
1742	83	2137	83
		2138
1743	17	2139	17
		2140
1744	0,83	2141	0,83
		2142
1745	0	2143	0
		2144
1746	1,00	2145	1,00
		2146
1747	0,91	2147	0,91
		2148
1748		2149
1752	Halbierung der zugrundeliegenden Berufsvarianten der OhdAB. [Goldberg /	2153	Halbierung der zugrundeliegenden Berufsvarianten der OhdAB. [Goldberg /
1753	Moeller 2022][88]Durch den Algorithmus – und dessen programmtechnische Umsetzung – wird in der	2154	Moeller 2022]
		2155
		2156
		2157	[88]Durch den Algorithmus – und dessen programmtechnische Umsetzung – wird in der
1754	Folge eine automatisierte Lösung zur Lemmatisierung deutschsprachiger	2158	Folge eine automatisierte Lösung zur Lemmatisierung deutschsprachiger
1772	angewendeten Spezifizierung der Ähnlichkeitsanalyse mit einer FP-Rate von 17	2176	angewendeten Spezifizierung der Ähnlichkeitsanalyse mit einer FP-Rate von 17
1773	Prozent zu rechnen ist. Daraus ergibt sich eine FP-Rate von etwa 98	2177	Prozent zu rechnen ist. Daraus ergibt sich eine TP-Rate über alle erkannten Berufe
1774	Prozent.[45] Zudem ist es durch den	2178	von etwa 98
		2179	Prozent.[48] Zudem ist es durch den
1775	Algorithmus möglich, berufsferne Angaben von der eigentlichen Bezeichnung	2180	Algorithmus möglich, berufsferne Angaben von der eigentlichen Bezeichnung
1782	6. Zusammenfassung	2187	6. Zusammenfassung
		2188
1783		2189
1798	Schreibvarianten	2204	Schreibvarianten
1799
1800	die Implementierung einer Erweiterung von Abkürzungen und	2205	die Implementierung einer Erweiterung von Abkürzungen und
1842		2247
1843
1844	Fußnoten	2248	Fußnoten
1847	[1]	2251	[1]
1848
1849	Damit weicht der hier verwendete Begriff von der	2252	Damit weicht der hier verwendete Begriff von der
1853		2256
1854
1855	[2]	2257	[2]
1856
1857	Moeller 2019,	2258	Moeller 2019,
1859		2260
1860
1861	[3]	2261	[3]
1862
1863	Cosca	2262	Cosca
1867		2266
1868
1869	[4]	2267	[4]
1870
1871	Moeller et al.	2268	Moeller et al.
1876		2273
1877
1878	[5]	2274	[5]
1881		2277
1882
1883	[6]	2278	[6]
1884
1885	Hinschius 1874, S. 41, 61f. u.	2279	Hinschius 1874, S. 41, 61f. u.
1887		2281
1888
1889	[7]	2282	[7]
1890
1891	Kocka et al. 2000;	2283	Kocka et al. 2000;
1893		2285
1894
1895	[8]	2286	[8]
1896
1897	Böhmen 1790, S. 29; Wurden	2287	Böhmen 1790, S. 29; Wurden
1904		2294
1905
1906	[9]	2295	[9]
1910		2299
1911
1912	[10]	2300	[10]
1913
1914	Church of Jesus Christ of	2301	Church of Jesus Christ of
1916		2303
1917
1918	[11]	2304	[11]
1919
1920	Rahm / Do 2000, S. 1.	2305	Rahm / Do 2000, S. 1.
1921		2306
1922
1923	[12]	2307	[12]
1926		2310
1927
1928	[13]	2311	[13]
1929
1930	Müller / Freytag 2003, S. 10–13.	2312	Müller / Freytag 2003, S. 10–13.
1931
1932		2313
1937		2318
1938
1939	[15]	2319	[15]
1942		2322
1943
1944	[16]	2323	[16]
1945
1946	Piotrowski 2012, S. 71.	2324	Piotrowski 2012, S. 71.
1947		2325
1948
1949	[17]	2326	[17]
1950
1951	Levenštejn 1966.	2327	Levenštejn 1966.
1952		2328
1953
1954	[18]	2329	[18]
		2330	Vgl. Hauser / Schulz 2007.
		2331
		2332	[19]
		2333	Vgl. Hosseini et al. 2020; Tam et al. 2019.
		2334
		2335	[20]
		2336	Vgl. Jurish 2012.
		2337
		2338	[21]
1955		2339
1957		2341
1958		2342	[22]
1959	[19]
1960		2343
1963		2346
1964		2347	[23]
1965	[20]
1966
1967	Klassifikation der Berufe (KldB), Bundesagentur für	2348	Klassifikation der Berufe (KldB), Bundesagentur für
1969		2350
1970		2351	[24]
1971	[21]
1972		2352
1976		2356
1977		2357	[25]
1978	[22]
1979
1980	Moeller 2019.	2358	Moeller 2019.
1981		2359
1982		2360	[26]
1983	[23]
1984
1985	Moeller et al. 2020.	2361	Moeller et al. 2020.
1986		2362
1987		2363	[27]
1988	[24]
1989		2364
1991		2366
1992		2367	[28]
1993	[25]
1994
1995	Vgl.	2368	Vgl.
1996	Schüren 1989;	2369	Schüren 1989;
1997	Brandenburg et al. 1993.	2370	Arbeitskreis für Wirtschafts- und Sozialgeschichte Schleswig-Holsteins 1991.
1998		2371
1999		2372	[29]
2000	[26]	2373
2001		2374	Philipps-Universität Marburg,
2002		2375	Forschungsstelle für Personalschriften (Hg.) 2021.
2003	Forschungsstelle für Personalschriften 2021.	2376
2004		2377	[30]
2005
2006	[27]
2007
2008	Bundesagentur für	2378	Bundesagentur für
2010		2380
2011		2381	[31]
2012	[28]
2013		2382
2015		2384
2016		2385	[32]
2017	[29]
2018
2019	Paulus / Matthes 2013, S. 8.	2386	Paulus / Matthes 2013, S. 8.
2020		2387
2021		2388	[33]
2022	[30]
2023
2024	Paulus / Matthes 2013, S. 9f.	2389	Paulus / Matthes 2013, S. 9f.
2025		2390
2026		2391	[34]
2027	[31]
2028
2029	Bundesagentur für Arbeit (Hg.) 2011, S. 18.	2392	Bundesagentur für Arbeit (Hg.) 2011, S. 18.
2030		2393
2031		2394	[35]
2032	[32]
2033
2034	Müller / Freytag 2003.	2395	Müller / Freytag 2003.
2035		2396
2036
2037	[33]
2038
2039
2040	Verein für Computergenealogie 2021.
2041
2042
2043	[34]
2044
2045	Siehe den entsprechenden Programmcode im Online-Repositorium.
2046
2047
2048	[35]
2049
2050	Siehe den entsprechenden Programmcode im Online-Repositorium.
2051
2052
2053	[36]	2397	[36]
2054		2398
		2399	GEDBAS, Verein für Computergenealogie (Hg.) 2021.
		2400
		2401	[37]
		2402	Siehe den entsprechenden Programmcode in
		2403	(Online-Repo). [verlinken]
		2404
		2405	[38]
		2406	Siehe den entsprechenden Programmcode in
		2407	(Online-Repo). [verlinken]
		2408
		2409	[39]
2055		2410
2061		2416
2062		2417	[40]
2063	[37]
2064
2065	Hier ist zu	2418	Hier ist zu
2068		2421
2069		2422	[41]
2070	[38]
2071
2072	Bei der	2423	Bei der
2077		2428
2078		2429	[42]
2079	[39]	2430	Kirby et al. 2015, S. 58.
2080		2431
2081	Kirby 2015, S. 58.	2432	[43]
2082
2083	[40]
2084
2085	Da ein	2433	Da ein
2089		2437
2090		2438	[44]
2091	[41]
2092
2093	Allerdings existieren nur wenige Berufsbezeichnungen	2439	Allerdings existieren nur wenige Berufsbezeichnungen
2095		2441
2096		2442	[45]
2097	[42]
2098
2099	Das entspricht den	2443	Das entspricht den
2101		2445
2102		2446	[46]
2103	[43]
2104
2105	Von den durch die Ähnlichkeitsanalyse erkannten Daten	2447	Von den durch die Ähnlichkeitsanalyse erkannten Daten
2111		2453
2112		2454	[47]
2113	[44]
2114
2115		2455
2121		2461
2122		2462	[48]
2123	[45]	2463	Berechnung der TP-Rate:
2124
2125	Berechnung der FP-Rate:
2126	(65,271+6,900,83) / (65,27+6,90) = 0.98.	2464	(65,271+6,900,83) / (65,27+6,90) = 0.98.
2132		2470
2133	Bibliographische Angaben	2471	Bibliografische Angaben
2134		2472
2135		2473
2136	Adam Friedrich Böhmen: Anleitung wie Kirchenbücher	2474
		2475
		2476	Arbeitskreis für Wirtschafts- und Sozialgeschichte Schleswig-Holsteins: Berufe in
		2477	Altona 1803. Berufssystematik für eine präindustrielle Stadtgesellschaft anhand der
		2478	Volkszählung. Kiel 1991. (= Kleine Schriften des Arbeitskreises für Wirtschafts- und
		2479	Sozialgeschichte Schleswig-Holsteins, 1). [Nachweis im GVK]
		2480
		2481	Adam Friedrich Böhme: Anleitung wie Kirchenbücher
2137	zweckmäsig und ordentlich einzurichten sind. Leipzig 1790. [online] [Nachweis im GVK]	2482	zweckmäsig und ordentlich einzurichten sind. Leipzig 1790. [online] [Nachweis im GVK]
		2483
		2484	Marcel Bollmann: A Large-Scale Comparison of Historical Text Normalization Systems.
		2485	In: Proceedings of the 2019 Conference of the North American Chapter of the Association
		2486	for Computational Linguistics: Human Language Technologies. Bd. 1:_ Long and Short
		2487	Papers. Hg. von Association for Computational Linguistics. (NAACL 2019, Minneapolis,
		2488	MN, 02.07.–07.07.2019). Minneapolis, MN, Juni 2019, S. 3885–3898. PDF. DOI: 10.18653/v1/N19-1389
		2489
2138	Klassifikationen der Berufe -	2490	Klassifikationen der Berufe -
2140	2021. [online]	2492	2021. [online]
		2493
2141	Klassifikation der Berufe, Hg. von Bundesagentur für Arbeit.	2494	Klassifikation der Berufe, Hg. von Bundesagentur für Arbeit.
2143	mit Erläuterungen. [Nachweis im GVK]	2496	mit Erläuterungen. [Nachweis im GVK]
		2497
2144	Peter Christen / Karl Goiser: Quality and Complexity	2498	Peter Christen / Karl Goiser: Quality and Complexity
2147	2007, S. 127–151. [Nachweis im GVK]	2501	2007, S. 127–151. [Nachweis im GVK]
		2502
2148	Church of Jesus Christ of Latter-day Saints: The GEDCOM	2503	Church of Jesus Christ of Latter-day Saints: The GEDCOM
2149	Standard. Release 5.5.1. 2019.	2504	Standard. Release 5.5.1. 2019. PDF. [online]
		2505
2150	Theresa Cosca / Alissa Emmel: Revising the Standard	2506	Theresa Cosca / Alissa Emmel: Revising the Standard
2152	review 133 (2010), S. 32–41. PDF. [online] [Nachweis im GVK]	2508	review 133 (2010), S. 32–41. PDF. [online] [Nachweis im GVK]
		2509
2153	Jyldyz Djumalieva / Antonio Lima / Cath Sleeman:	2510	Jyldyz Djumalieva / Antonio Lima / Cath Sleeman:
2155	Advertisements. 2018. [online]	2512	Advertisements. 2018. [online]
		2513
		2514	Miguel Domingo / Francisco Casacuberta: Two Demonstrations of the Machine Translation
		2515	Applications to Historical Documents. 02.02.2021. PDF. DOI: 10.48550/arXiv.2102.01417
		2516
2156	Michael Dunn: Language phylogenies. In: The Routledge	2517	Michael Dunn: Language phylogenies. In: The Routledge
2158	Bethwyn Evans. London u. a. 2015, S. 190–192. [Nachweis im GVK]	2519	Bethwyn Evans. London u. a. 2015, S. 190–192. [Nachweis im GVK]
		2520
2159	Tom Fawcett: An introduction to ROC analysis. In:	2521	Tom Fawcett: An introduction to ROC analysis. In:
2161	27 (2006), H. 8, S. 861–874. [Nachweis im GVK]	2523	27 (2006), H. 8, S. 861–874. [Nachweis im GVK]
		2524
2162	Corry Gellatly: Reconstructing Historical Populations	2525	Corry Gellatly: Reconstructing Historical Populations
2164	Gerrit Bloothooft et al. Cham 2015, S. 111–128. [Nachweis im GVK]	2527	Gerrit Bloothooft et al. Cham 2015, S. 111–128. [Nachweis im GVK]
		2528
2165	Metzler Lexikon Sprache. Hg. von Helmut Glück. 2.,	2529	Metzler Lexikon Sprache. Hg. von Helmut Glück. 2.,
2166	überarbeitete und erweiterte Auflage. Stuttgart u. a. 2000. [Nachweis im GVK]	2530	überarbeitete und erweiterte Auflage. Stuttgart u. a. 2000. [Nachweis im GVK]
		2531
2167	Hyukjun Gweon / Matthias Schonlau / Lars Kaczmirek /	2532	Hyukjun Gweon / Matthias Schonlau / Lars Kaczmirek /
2170	(2017), H. 1, S. 101–122. DOI:10.1515/jos-2017-0006 [Nachweis im GVK]	2535	(2017), H. 1, S. 101–122. DOI:10.1515/jos-2017-0006 [Nachweis im GVK]
		2536
2171	J. Tuomas Harviainen / Bo-Christer Björk: Genealogy,	2537	J. Tuomas Harviainen / Bo-Christer Björk: Genealogy,
2172	GEDCOM, and popularity implications. In: Informaatiotutkimus 37	2538	GEDCOM, and popularity implications. In: Informaatiotutkimus 37
2173	(2018), H. 3, S. 4–14. Artikel vom 29.10.2018. DOI: 10.23978/inf.76066 [Nachweis im GVK]	2539	(2018), H. 3, S. 4–14. Artikel vom 29.10.2018. DOI: 10.23978/inf.76066
		2540
		2541	Andreas W. Hauser / Klaus U. Schulz: Unsupervised Learning of Edit Distance Weights
		2542	for Retrieving Historical Spelling Variations. In: Finite-state Techniques and Approximate
		2543	Search. International Workshop. Hg. von Stoyan Mihov / Klaus U. Schulz. (International
		2544	Workshop, International Conference RANLP 2007, Borovets, BG, 27.09.–29.09.2007). Borovets,
		2545	BG, 30.09.2007, S. 1–6. PDF. [online]
		2546
2174	Paul Hinschius: Das preußische Gesetz über die	2547	Paul Hinschius: Das preußische Gesetz über die
2176	9. März 1874 mit Kommentar in Anmerkungen. Berlin 1874. [Nachweis im GVK]	2549	9. März 1874 mit Kommentar in Anmerkungen. Berlin 1874. [Nachweis im GVK]
		2550
		2551	Kasra Hosseini / Federico Nanni / Mariona Coll Ardanuy: DeezyMatch: A Flexible Deep
		2552	Learning Approach to Fuzzy String Matching. In: Proceedings of the 2020 Conference
		2553	on Empirical Methods in Natural Language Processing: System Demonstrations. Hg. von
		2554	Association for Computational Linguistics. (EMNLP 2020, online, 16.11.–20.11.2020).
		2555	Oktober 2020, S. 62–69. PDF. DOI: 10.18653/v1/2020.emnlp-demos.9
		2556
2177	ISCO - International Standard Classification of	2557	ISCO - International Standard Classification of
2178	Occupations. Hg. von ILO. Genf 2021. [online]	2558	Occupations. Hg. von ILO. Genf 2021. [online]
		2559
2179	1306 records	2560	1306 records
2181	System. Leuven 2020. [online]	2562	System. Leuven 2020. [online]
		2563
		2564	Bryan Jurish: Finite-state Canonicalization Techniques for Historical German. Dissertation,
		2565	Universität Potsdam. Potsdam 2012. PDF. [online]
		2566
		2567	Graham Kirby / Jamie Carson / Fraser Dunlop / Chris Dibben / Alan Dearle / Lee Williamson
		2568	/ Eilidh Garrett / Alice Reid: Automatic Methods for Coding Historical Occupation
		2569	Descriptions to Standard. In: Population Reconstruction. Hg. von Gerrit Bloothooft
		2570	/ Peter Christen / Kees Mandemakers / Marijit Schraagen. 2015, S. 43–60. DOI: 10.1007/978-3-319-19884-2
		2571
2182	Jürgen Kocka / Claus Offe / Beate Redslob: Geschichte	2572	Jürgen Kocka / Claus Offe / Beate Redslob: Geschichte
2184	Frankfurt/Main 2000. [Nachweis im GVK]	2574	Frankfurt/Main 2000. [Nachweis im GVK]
		2575
2185	Martin Kohli: Die Institutionalisierung des Lebenslaufs.	2576	Martin Kohli: Die Institutionalisierung des Lebenslaufs.
2188	1–29. [Nachweis im GVK]	2579	1–29. [Nachweis im GVK]
		2580
2189	Thomas Krause: Entwurf und Implementierung einer	2581	Thomas Krause: Entwurf und Implementierung einer
2190	effizienten Dublettenerkennung für große Adressbestände. Köln 2012.	2582	effizienten Dublettenerkennung für große Adressbestände. Köln 2012.
2191	URN: urn:nbn:de:hbz:832-epub-3667Marco H. D. van Leeuwen / Ineke Maas / Andrew Miles:	2583	URN: urn:nbn:de:hbz:832-epub-3667
		2584
		2585	Marco H. D. van Leeuwen / Ineke Maas / Andrew Miles:
2192	History Of Work Information System. In: HISCO. Historical	2586	History Of Work Information System. In: HISCO. Historical
2194	Antenna. Leuven 2002. [online]	2588	Antenna. Leuven 2002. [online]
		2589
2195	Vladimir Iosifovič Levenštejn: Binary Codes Capable of	2590	Vladimir Iosifovič Levenštejn: Binary Codes Capable of
2197	Physics- Doklady 10 (1966), S. 707–710. [Nachweis im GVK]	2592	Physics - Doklady 10 (1966), S. 707–710. [Nachweis im GVK]
		2593
2198	Katrin Moeller: Standards für die	2594	Katrin Moeller: Standards für die
2203	Anne Purschwitz. Halle 2019, S. 17–43. [Nachweis im GVK]	2599	Anne Purschwitz. Halle 2019, S. 17–43. [Nachweis im GVK]
		2600
2204	Katrin Moeller / Andreas Müller / Robert Nasarek:	2601	Katrin Moeller / Andreas Müller / Robert Nasarek:
2209	25.11.2020. [online]	2606	25.11.2020. [online]
		2607
2210	Heiko Müller / Johann-Christoph Freytag: Problems,	2608	Heiko Müller / Johann-Christoph Freytag: Problems,
2211	Methods, and Challenges in Comprehensive Data Cleansing. Berlin	2609	Methods, and Challenges in Comprehensive Data Cleansing. Berlin
2212	2003. [Nachweis im GVK]	2610	2003. PDF. [online]
		2611
2213	Wiebke Paulus / Britta Matthes: Klassifikation der	2612	Wiebke Paulus / Britta Matthes: Klassifikation der
2216	Bundesagentur für Arbeit (BA) im Institut für Arbeitsmarkt- und	2615	Bundesagentur für Arbeit (BA) im Institut für Arbeitsmarkt- und
2217	Berufsforschung. Nürnberg 2013. [online]	2616	Berufsforschung. Nürnberg 2013. PDF. [online]
		2617
2218	Michael Piotrowski: Natural Language Processing for	2618	Michael Piotrowski: Natural Language Processing for
2219	Historical Texts. In: Synthesis Lectures on Human Language	2619	Historical Texts. San Rafael, 2012. (= Synthesis Lectures on Human Language Technologies,
2220	Technologies 5 (2012), H. 2, S. 1–157. [Nachweis im GVK]	2620	17). [Nachweis im GVK]
		2621
2221	Erhard Rahm / Hong Hai Do: Data Cleaning: Problems and	2622	Erhard Rahm / Hong Hai Do: Data Cleaning: Problems and
2222	Current Approaches. In: Bulletin of the Technical Committee on Data	2623	Current Approaches. In: Bulletin of the Technical Committee on Data
2223	Engineering 23 (2000), H. 4, S. 3–13. URN: urn:nbn:de:bsz:15-qucosa2-329680Udo Schäfer: Die Novellierung des	2624	Engineering 23 (2000), H. 4, S. 3–13. URN: urn:nbn:de:bsz:15-qucosa2-329680
		2625
		2626
		2627	Udo Schäfer: Die Novellierung des
2224	Personenstandsgesetzes. In: Archive, Familienforschung und	2628	Personenstandsgesetzes. In: Archive, Familienforschung und
2227	[Nachweis im GVK]	2631	[Nachweis im GVK]
		2632
2228	Reinhard Schüren: Soziale Mobilität. Muster,	2633	Reinhard Schüren: Soziale Mobilität. Muster,
2230	Katharinen 1989. [Nachweis im GVK]	2635	Katharinen 1989. [Nachweis im GVK]
		2636
		2637	Derek Tam / Nicholas Monath / Ari Kobren / Aaron Traylor / Rajarshi Das / Andrew McCallum:
		2638	Optimal Transport-based Alignment of Learned Character Representations for String
		2639	Similarity. In: Proceedings of the 57th Annual Meeting of the Association for Computational
		2640	Linguistics. Hg. von Association for Computational Linguistics. (ACL 57, Florenz,
		2641	28.07.–02.08.2019). Florenz, Juli 2019, S. 5907–5917. PDF. DOI: 10.18653/v1/P19-1592
		2642
2231	Thesaurus Professionum. In:	2643	Thesaurus Professionum. In:
2234	Philipps-Universität Marburg. Marburg 2021. [online]	2646	Philipps-Universität Marburg. Marburg 2021. [online]
		2647
2235	GEDBAS: Statistics. In:	2648	GEDBAS: Statistics. In:
2242		2655
		2656
2243	Abbildungs- und Tabellenverzeichnis	2657	Abbildungs- und Tabellenverzeichnis
		2658
2244		2659
2250		2665
		2666
		2667
2251	Tab. 2:	2668	Tab. 2:
2255		2672
		2673
		2674
2256	Abb. 1: Begriffe und Zusammenhänge des	2675	Abb. 1: Begriffe und Zusammenhänge des
2259		2678
		2679
		2680
2260	Abb. 2: Algorithmus, dargestellt in einem	2681	Abb. 2: Algorithmus, dargestellt in einem
2263		2684
		2685
		2686
2264	Abb. 3: Zusammenhang der Funktionen. [Goldberg /	2687	Abb. 3: Zusammenhang der Funktionen. [Goldberg /
2265	Moeller 2022]	2688	Moeller 2022]
		2689
		2690
2266		2691
2272		2697
		2698
		2699
2273	Tab. 4:	2700	Tab. 4:
2277		2704
		2705
		2706
2278	Tab. 5:	2707	Tab. 5:
2280	Moeller 2022]	2709	Moeller 2022]
		2710
		2711
2281		2712
2289		2720
		2721

Versionen vergleichen von : Automatisierte Identifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen

Version: 1.0 vom 08.03.2022

Mit Markup vergleichen

Version: 2.0 vom 20.07.2023