Versionen vergleichen von : Automatisierte Identifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen

AltNeu
11 11
12 DOI: 10.17175/2022_002 12 DOI: 10.17175/2022_002_v2
13 Nachweis im OPAC der Herzog August Bibliothek: 1760213403 13 Nachweis im OPAC der Herzog August Bibliothek: 1845604601
14 Erstveröffentlichung: 08.03.2022 14 Erstveröffentlichung: 08.03.2022
15 15 Version 2.0: 20.07.2023
16 Lizenz: Sofern nicht anders angegeben 16 Lizenz: Sofern nicht anders angegeben
19 Medienlizenzen: Medienrechte liegen bei den Autor*innen 19 Medienlizenzen: Medienrechte liegen bei den Autor*innen
20 20 Letzte Überprüfung aller Verweise: 29.05.2023
21 Letzte Überprüfung aller Verweise: 07.03.2022 21 GND-Verschlagwortung: Informations- und Dokumentationswissenschaft | Berufsforschung | Maschinelles Lernen | Automatische Klassifikation | Standardisierung | 
22 22 Empfohlene Zitierweise: Jan Michael Goldberg / Katrin Moeller: Automatisierte Identifikation und Lemmatisierung
23 GND-Verschlagwortung: Informations- und Dokumentationswissenschaft | Berufsforschung | Maschinelles Lernen | Automatische Klassifikation | Standardisierung
24
25 Empfohlene Zitierweise: Jan Michael Goldberg, Katrin Moeller: Automatisierte Identifikation und Lemmatisierung
26 historischer Berufsbezeichnungen in deutschsprachigen 23 historischer Berufsbezeichnungen in deutschsprachigen
27 Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2022. text/html Format. DOI: 10.17175/2022_002 24 Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 08.03.2022. Version 2.0 vom 20.07.2023. HTML / XML / PDF. DOI: 10.17175/2022_002_v2
28 25
29 26
30 27
31 28
32 29 Abstract
33 AbstractBerufsangaben kommen in vielen historischen Quellen vor. Für eine 30
31
32 Berufsangaben kommen in vielen historischen Quellen vor. Für eine
34 Vielzahl von Forschungsgebieten ist nicht nur eine Standardisierung, 33 Vielzahl von Forschungsgebieten ist nicht nur eine Standardisierung,
48 47
48
49
49 Occupational information occurs in many historical sources. For a large 50 Occupational information occurs in many historical sources. For a large
61 62
63
64
65
66 Version 2.0 (20.07.2023)
67 Folgende Änderungen wurden vorgenommen: Sprachliche Verbesserungen im Text sowie inhaltliche
68 Ergänzungen und Text und Bibliografie entlang der Monita der Gutachten.
62 69
79 3.3.2 Entfernung von Leerzeichen 86 3.3.2 Entfernung von Leerzeichen
80 3.3.3 Ausformulierung von Abkürzungen 87 3.3.3 Auflösung von Abkürzungen
81 3.3.4 Definierte berufsferne Substantive 88 3.3.4 Definierte berufsferne Substantive
83 3.3.6 Separierung von Quellenangaben 90 3.3.6 Separierung von Quellenangaben
84 3.3.7 Titularangaben 91 3.3.7 Titelangaben
85 3.3.8 Angaben zum Familienstand 92 3.3.8 Angaben zum Familienstand
102 6. Zusammenfassung 109 6. Zusammenfassung
103 Bibliographische Angaben 110 Bibliografische Angaben
104 Abbildungs- und Tabellenverzeichnis 111 Abbildungs- und Tabellenverzeichnis
106 113
114
107 1. Einleitung 115 1. Einleitung
116
108 117
160 (normierte) und englischsprachige Berufsangaben.[3] 169 (normierte) und englischsprachige Berufsangaben.[3]
170
171
161 [5]Mit der Entwicklung einer Methode zur automatisierten Lemmatisierung von 172 [5]Mit der Entwicklung einer Methode zur automatisierten Lemmatisierung von
181 Stand der Forschung beschrieben. Danach wird in seine technische Umsetzung 192 Stand der Forschung beschrieben. Danach wird in seine technische Umsetzung
182 eingeführt. Auch bleibt eine Validierung des entwickelten Algorithmus nicht 193 eingeführt, bevor der Algorithmus validiert wird. Am Ende ist eine Zusammenfassung
183 aus. Abschließend findet eine Zusammenfassung statt, auch wird ein Ausblick 194 samt Ausblick zu finden.
184 gegeben.
185 195
188 198
189 [6]Die Herausforderung bei der Entwicklung eines Algorithmus zur automatisierten 199
200 [6]Die Herausforderung eines Algorithmus zur automatisierten
190 Kategorisierung von Berufsangaben besteht darin, sich unterscheidende 201 Kategorisierung von Berufsangaben besteht darin, sich unterscheidende
191 Einträge, die die gleiche Sache beschreiben, zusammenzuführen. Diese Aufgabe 202 Einträge, die die gleiche Sache beschreiben, zusammenzuführen. Bei dieser Aufgabe
192 ist im Wesentlichen also eine der Dublettenerkennung, in der etymologisch 203 handelt es sich also im Wesentlichen um eine Dublettenerkennung, in der etymologisch
193 identische, aber dennoch anders geschriebene Dubletten erkannt und 204 identische, aber dennoch anders geschriebene Dubletten erkannt und
194 zusammengeführt werden. Im ersten Unterabschnitt wird dazu einführend auf 205 zusammengeführt werden. Im ersten Unterabschnitt wird dazu einführend auf Berufsangaben
195 Berufsangaben im genealogischen Kontext eingegangen. Danach wird der 206 im genealogischen Kontext eingegangen. Danach wird auf die Bereinigung und Lemmatisierung
196 aktuelle Stand zur Bereinigung und Lemmatisierung von Daten im Allgemeinen 207 von Daten eingegangen, bevor abschließend die Besonderheiten der Berufsklassifikation
197 aufgezeigt, bevor abschließend spezieller auf die Besonderheiten der 208 in den Fokus gerückt werden.
198 Berufsklassifikation eingegangen wird. 209
199 210
200 2.1 Berufsangaben in genealogischen Quellen 211 2.1 Berufsangaben in genealogischen Quellen
212
201 213
231 243
244
232 2.2 Bereinigung und Lemmatisierung von Daten 245 2.2 Bereinigung und Lemmatisierung von Daten
246
233 247
235 enthalten – weder in den Primärquellen wie Kirchenbüchern noch in den 249 enthalten – weder in den Primärquellen wie Kirchenbüchern noch in den
236 aufbereiteten GEDCOM-Dateien –, ist eine Verarbeitung dieser Daten 250 aufbereiteten GEDCOM-Dateien –, ist eine Verarbeitung dieser Daten notwendig, um aus
237 notwendig, um aus ihnen die relevanten Informationen zu extrahieren. Zu 251 ihnen die relevanten Informationen zur Einordnung in ein berufliches Klassifikationssystem
252 zu extrahieren. Zu
238 diesem Zwecke wird folgend genauer auf die Datenbereinigung, 253 diesem Zwecke wird folgend genauer auf die Datenbereinigung,
241 256
257
242 2.2.1 Datenbereinigung 258 2.2.1 Datenbereinigung
243 259
260
244 [10]Während der Datenbereinigung werden Fehler und Inkonsistenzen (im 261 [10]Während der Datenbereinigung werden Fehler und Inkonsistenzen (im
245 Folgenden auch ›Anomalien‹ genannt) erkannt und entfernt.[11] Es können 262 Folgenden auch ›Anomalien‹ genannt) erkannt und entfernt.[11] Beispielsweise können Rechtschreibfehler bestehen, Abkürzungen genutzt
246 beispielsweise Rechtschreibfehler bestehen, Abkürzungen genutzt
247 werden, Bezeichnungen in falsche Felder eingetragen werden oder eben 263 werden, Bezeichnungen in falsche Felder eingetragen werden oder eben
255 beschreiben, während eine Ortsangabe nur eine in das falsche 271 beschreiben, während eine Ortsangabe nur eine in das falsche
256 Datenfeld eingetragene Information darstellen kann. 272 Datenfeld eingetragene Information sein kann.
257 273
277 293
294
278 2.2.2 Ähnlichkeits- und Distanzmaße 295 2.2.2 Ähnlichkeits- und Distanzmaße
296
279 297
283 Bezeichnungen die gleiche Entität in der realen Welt repräsentieren, 301 Bezeichnungen die gleiche Entität in der realen Welt repräsentieren,
284 so stellen sie Dubletten dar.[14] Da Berufsangaben Strings im Sinne einer semantischen 302 so sind sie Dubletten.[14] Da Berufsangaben Strings im Sinne einer semantischen
285 Zeichenkette darstellen, können String-Matching-Algorithmen zur 303 Zeichenkette sind, können String-Matching-Algorithmen zur
286 Erkennung einer unscharfen Übereinstimmung auf sie angewendet 304 Erkennung einer unscharfen Übereinstimmung auf sie angewendet
299 317
318
319 [13]Daneben gibt es auch andere Ähnlichkeitsmaße, deren Verwendung auf ähnliche Aufgabenstellungen
320 sinnvoll erscheinen könnte. Beispiele dafür sind die Jaro-Winkler-Distanz, eine stochastisch
321 gewichtete Levenshtein-Distanz[18] oder Deep-Learning-Algorithmen wie DeezyMatch und STANCE.[19] Zudem können phonetische Ähnlichkeitsmaße wie die Kölner Phonetik eingesetzt werden.
322 Weitere Möglichkeiten sind die Heuristiken von Bryan Jurish für DTA::CAB.[20] Auch Machine-Learning-Applikationen wie bei Bollmann und Domingo / Casacuberta können
323 Einsatz finden. In dieser Arbeit kann keine Aussage darüber getroffen werden, welche Methode in welchem
324 Fall die besten Ergebnisse produziert. Im Zweifel kann die Ähnlichkeitsanalyse im
325 Algorithmus und Programmcode verändert werden. Bei einer Veränderung des Programmcodes
326 ist es wichtig, auch eine Anpassung der Grenzwerte vorzunehmen, wie im weiteren Verlauf
327 des Textes deutlich wird.
328
329
330
300 2.2.3 Grundlagen von Klassifikationen 331 2.2.3 Grundlagen von Klassifikationen
301 332
302 [13]Unter der Klassifikation wird die Gliederung von Elementen einer 333
334 [14]Unter der Klassifikation wird die Gliederung von Elementen einer
303 Menge in verschiedene Klassen nach einer definierten Logik 335 Menge in verschiedene Klassen nach einer definierten Logik
318 350
351
352
353
319 Klassifikation korrekt 354 Klassifikation korrekt
355
320 Klassifikation nicht korrekt 356 Klassifikation nicht korrekt
322 358
359
323 Klassifikation erfolgt 360 Klassifikation erfolgt
361
324 True positive (TP) 362 True positive (TP)
363
325 False positive (FP) 364 False positive (FP)
327 366
367
328 Klassifikation nicht erfolgt 368 Klassifikation nicht erfolgt
369
329 True negative (TN) 370 True negative (TN)
371
330 False negative (FN) 372 False negative (FN)
373
331 374
334 Klassifikation in Anlehnung an Fawcett 2006. [Goldberg / Moeller 377 Klassifikation in Anlehnung an Fawcett 2006. [Goldberg / Moeller
335 2022][14]Durch die Kombination der Anzahl der jeweiligen Zustände kann die 378 2022]
379
380 [15]Durch die Kombination der Anzahl der jeweiligen Zustände kann die
336 Güte der Klassifikation bewertet werden. Dies ist notwendig, weil 381 Güte der Klassifikation bewertet werden. Dies ist notwendig, weil
339 Treffer falsch sein. Eine Möglichkeit zur Ermittlung der Qualität 384 Treffer falsch sein. Eine Möglichkeit zur Ermittlung der Qualität
340 einer Klassifikation stellt das F1-Maß dar.[18] Dieses wird genutzt, um 385 einer Klassifikation stellt das F1-Maß dar.[21] Dieses wird genutzt, um
341 ein optimiertes Verhältnis zwischen den gefundenen Treffern und den 386 ein optimiertes Verhältnis zwischen den gefundenen Treffern und den
345 390
346 [15] 391 [16]Formel 1: F1=2*P*RP+R
347 392
348 [16]Sind hier die Genauigkeit und die Trefferquote beim F1-Maß gleich 393 [17]Sind hier die Genauigkeit und die Trefferquote beim F1-Maß gleich
349 gewichtet, so ist auch jede andere Gewichtung denkbar. Die 394 gewichtet, so ist auch jede andere Gewichtung denkbar. Die
352 397
353 [17] 398 [18]Formel 2: P=|TP||TP|+|FP|
354 399 Formel 3: R=|TP||TP|+|FN|
355 [18] 400
356 401 [19]Anders als bei einer manuellen Klassifikation, bei der die Korrektheit einer Zuordnung
357 [19]Eine automatisch durchgeführte Klassifikation führt jedoch dazu, dass 402 vorher ermittelt wird, ist das bei einer automatisch durchgeführten Klassifikation
358 das Ergebnis nicht (oder nur im Nachgang) manuell auf 403 – wenn überhaupt – erst im Nachgang möglich. Jedoch verändert jede zusätzliche Schreibvariante,
359 (Un-)Korrektheit hin überprüft werden kann. Durch die mittels 404 die einem Lemma zugeordnet wird, die Eigenschaften dieser Klasse. Dadurch, dass künftige
360 Klassifikation zusätzlich vorgenommene Verknüpfung kann sie die 405 Klassifikationen auf diese vorherigen Informationen zugreifen können, findet überwachtes
361 Eigenschaften der Klasse verändern oder erweitern. Dadurch, dass 406 Lernen statt.
362 künftige Klassifikationen auf diese vorherigen Informationen 407
363 zugreifen können, findet überwachtes Lernen statt.
364 408
367 2.3 Berufsklassifikationen 411 2.3 Berufsklassifikationen
412
368 413
383 [21]Zur Klassifikation von Berufen existieren verschiedene Ansätze die bisher 428 [21]Zur Klassifikation von Berufen existieren verschiedene Ansätze die bisher
384 vor allem moderne internationale,[19] moderne deutschsprachige[20] oder historische englischsprachige[21] Berufsnamen führen. Von 429 vor allem moderne internationale,[22] moderne deutschsprachige[23] oder historische englischsprachige[24] Berufsnamen führen. Von
385 diesen Standards wird häufig eine Vielzahl forschungsbasierter 430 diesen Standards wird häufig eine Vielzahl forschungsbasierter
389 weil die Anbindung an Standards die Nachvollziehbarkeit und 434 weil die Anbindung an Standards die Nachvollziehbarkeit und
390 Vergleichbarkeit von Forschungsergebnissen gewährleistet.[22] Im deutschsprachigen Raum ist 435 Vergleichbarkeit von Forschungsergebnissen gewährleistet.[25] Im deutschsprachigen Raum ist
391 vor allem die Klassifikation der Berufe 2010 (KldB 2010) beziehungsweise 436 vor allem die Klassifikation der Berufe 2010 (KldB 2010) beziehungsweise
393 Moeller auf viele historische, deutschsprachige Berufsbezeichnung 438 Moeller auf viele historische, deutschsprachige Berufsbezeichnung
394 angewendet.[23] Dieses 439 angewendet.[26] Dieses
395 System wird im Weiteren Anwendung finden, da es für den 440 System wird im Weiteren Anwendung finden, da es für den
396 deutschsprachigen Raum die umfangreichste Lösung darstellt. Alternativ 441 deutschsprachigen Raum die umfangreichste Lösung darstellt. Für diese Arbeit wurde
442 der Stand der OhdAB vom 27. Mai 2020 verwendet (mit 183.381 Varianten). Alternativ
397 dazu könnte HISCO in Betracht gezogen werden. HISCO stellt die 443 dazu könnte HISCO in Betracht gezogen werden. HISCO stellt die
399 abgesehen, weil auf der offiziellen HISCO-Webpräsenz derzeit nur 1.306 445 abgesehen, weil auf der offiziellen HISCO-Webpräsenz derzeit nur 1.306
400 deutsche Berufsbezeichnungen genutzt werden.[24] Zudem enthält 446 deutsche Berufsbezeichnungen genutzt werden, während die OhdAB momentan 44.893 Normbezeichnungen
447 für deutschsprachige Berufe führt.[27] Zudem enthält
401 HISCO keine umfangreiche Zuordnung von Varianten eines Berufs, wodurch 448 HISCO keine umfangreiche Zuordnung von Varianten eines Berufs, wodurch
406 existieren im deutschsprachigen Raum historische 453 existieren im deutschsprachigen Raum historische
407 Berufsklassifikationen,[25] die in die OhdAB mit eingeflossen 454 Berufsklassifikationen,[28] die in die OhdAB mit eingeflossen
408 sind. Beachtlich ist zudem die Systematisierung des Thesaurus 455 sind. Beachtlich ist zudem die Systematisierung des Thesaurus
410 Leichenpredigten der Forschungsstelle für Personalschriften der 457 Leichenpredigten der Forschungsstelle für Personalschriften der
411 Philipps-Universität Marburg zurückgehen.[26] 458 Philipps-Universität Marburg zurückgehen.[29]
459
460
461
412 2.3.1 Klassifikation der Berufe 2010 462 2.3.1 Klassifikation der Berufe 2010
413 463
464
414 [22]Die KldB 2010 teilt Berufe nach einer fünfgliedrigen 465 [22]Die KldB 2010 teilt Berufe nach einer fünfgliedrigen
415 Hierarchiestruktur ein.[27] Der Einsteller (Berufsbereiche) 466 Hierarchiestruktur ein.[30] Der Einsteller (Berufsbereiche)
416 gliedert die Berufe in grundlegende Themen.[28] Die nächsten drei Ebenen 467 gliedert die Berufe in grundlegende Themen.[31] Die nächsten drei Ebenen
417 (Berufshauptgruppen, Berufsgruppen und Berufsuntergruppen) 468 (Berufshauptgruppen, Berufsgruppen und Berufsuntergruppen)
418 beschreiben die berufsfachlichen Zusammenhänge.[29] Je stärker 469 beschreiben die berufsfachlichen Zusammenhänge.[32] Je stärker
419 zusammenhängende Fähigkeiten, Tätigkeiten und Kompetenzen zwischen 470 zusammenhängende Fähigkeiten, Tätigkeiten und Kompetenzen zwischen
422 Anforderungsniveau, sodass durch ihn unterschiedliche 473 Anforderungsniveau, sodass durch ihn unterschiedliche
423 Komplexitätsgrade desselben Berufs ausgedrückt werden können.[30] Insgesamt 474 Komplexitätsgrade desselben Berufs ausgedrückt werden können.[33] Insgesamt
424 existieren auf der Ebene des Fünfstellers mittlerweile 1.900 475 existieren auf der Ebene des Fünfstellers mittlerweile 1.900
425 Berufsgattungen.[31] 476 Berufsgattungen.[34]
477
478
479
480
426 481
429 Stellensystem 484 Stellensystem
485
430 Bezeichnung für das Beispiel des Bäckers 486 Bezeichnung für das Beispiel des Bäckers
487
431 Gruppenbezeichnung 488 Gruppenbezeichnung
489
432 Anzahl der Gruppen über alle Berufsgattungen 490 Anzahl der Gruppen über alle Berufsgattungen
434 492
493
435 1-Steller B 29222 494 1-Steller B 29222
495
436 Rohstoffgewinnung, Produktion und Fertigung 496 Rohstoffgewinnung, Produktion und Fertigung
497
437 Berufsbereiche 498 Berufsbereiche
499
438 10 Gruppen 500 10 Gruppen
440 502
503
441 2-Steller B 29222 504 2-Steller B 29222
505
442 Lebensmittelherstellung und -verarbeitung 506 Lebensmittelherstellung und -verarbeitung
507
443 Berufshauptgruppen 508 Berufshauptgruppen
509
444 72 Gruppen 510 72 Gruppen
446 512
513
447 3-Steller B 29222 514 3-Steller B 29222
515
448 Lebensmittel- und Genussmittelherstellung 516 Lebensmittel- und Genussmittelherstellung
517
449 Berufsgruppen 518 Berufsgruppen
519
450 260 Gruppen 520 260 Gruppen
452 522
523
453 4-Steller B 29222 524 4-Steller B 29222
525
454 Berufe in der Back- und Konditoreiwarenherstellung 526 Berufe in der Back- und Konditoreiwarenherstellung
527
455 Berufsuntergruppen 528 Berufsuntergruppen
529
456 941 Gruppen 530 941 Gruppen
458 532
533
459 5-Steller B 29222 534 5-Steller B 29222
535
460 Berufe Back- und Konditoreiwarenherstellung - fachliche 536 Berufe Back- und Konditoreiwarenherstellung - fachliche
463 Anforderungsniveau 539 Anforderungsniveau
540
464 1.900 Gruppen 541 1.900 Gruppen
542
465 543
468 am Beispiel des Berufes Bäcker. [Goldberg / Moeller 546 am Beispiel des Berufes Bäcker. [Goldberg / Moeller
469 2022][23]Einzelne Berufe sind in der KldB 2010 nicht aufgeführt, sondern in 547 2022]
548
549 [23]Einzelne Berufe sind in der KldB 2010 nicht aufgeführt, sondern in
470 die entsprechenden Berufsgattungen einzuordnen; dennoch bietet diese 550 die entsprechenden Berufsgattungen einzuordnen; dennoch bietet diese
474 554
555
475 2.3.2 Erweiterung um historische Berufe 556 2.3.2 Erweiterung um historische Berufe
557
476 558
537 619
620
538 [27]Die Entwicklung eines Algorithmus ist notwendig, um die Vorgehensweisen 621 [27]Die Entwicklung eines Algorithmus ist notwendig, um die Vorgehensweisen
542 beleuchtet. Danach folgt eine Umsetzung der Schritte der Datenbereinigung 625 beleuchtet. Danach folgt eine Umsetzung der Schritte der Datenbereinigung
543 nach Müller und Freytag.[32] 626 nach Müller und Freytag.[35]
627
628
629
544 3.1 Anforderungen das Ergebnis 630 3.1 Anforderungen das Ergebnis
545 631
632
546 [28]Zunächst sollen möglichst viele Berufsangaben den richtigen Entitäten, im 633 [28]Zunächst sollen möglichst viele Berufsangaben den richtigen Entitäten, im
547 Weiteren ›Klassen‹, zugeordnet werden (TP). Ein Beruf stellt dabei eine 634 Weiteren ›Klassen‹, zugeordnet werden. Ein Beruf stellt dabei eine
548 Klasse dar; die bekannten Schreibweisen (Varianten) wiederum sind die 635 Klasse dar; die bekannten Schreibweisen (Varianten) wiederum sind die
555 642
643
644
556 Abb. 1: Begriffe und Zusammenhänge des 645 Abb. 1: Begriffe und Zusammenhänge des
557 Algorithmus. [Goldberg / Moeller 2022] 646 Algorithmus. [Goldberg / Moeller 2022]
647
648
649
558 650
586 Anforderung, daraus den Beruf zu separieren. Möglicherweise sind auch 678 Anforderung, daraus den Beruf zu separieren. Möglicherweise sind auch
587 mehrere Berufsangaben verzeichnet, diese dann getrennt voneinander 679 mehrere Berufsangaben verzeichnet, die dann getrennt voneinander
588 erkannt werden sollten. Auch berufsferne oder berufsfremde Informationen 680 erkannt werden sollten. Auch berufsferne oder berufsfremde Informationen
595 687
688
596 3.2 Methodik der Datenbereinigung 689 3.2 Methodik der Datenbereinigung
690
597 691
605 von genealogischen Daten dar. In dieser Datenbank sind in etwa 13.000 699 von genealogischen Daten dar. In dieser Datenbank sind in etwa 13.000
606 Dateien und 22 Millionen Personen abgebildet.[33] Ein Teil dieser Dateien 700 Dateien und 22 Millionen Personen abgebildet.[36] Ein Teil dieser Dateien
607 ist von den Autoren zum öffentlichen Download freigegeben. Eine 701 ist von den Autoren zum öffentlichen Download freigegeben. Die Ausführung eines Scrapers
608 Anwendung eines Scrapers zur Sammlung der öffentlichen GEDCOM-Dateien in 702 zur Sammlung der öffentlichen GEDCOM-Dateien in
609 GEDBAS, ausgeführt am 14.04.2020, erbrachte 2.899 Dateien.[34] Um die Berufsangaben aus den 703 GEDBAS am 14.04.2020 erbrachte 2.899 Dateien.[37] Um die Berufsangaben aus den
610 Dateien zu erfassen, werden aus allen GEDCOM-Dateien die Berufsangaben 704 Dateien zu erfassen, werden aus allen GEDCOM-Dateien die Berufsangaben
611 (›OCCU‹-Tag) ausgelesen und in einer Liste zusammengefasst.[35] Insgesamt werden auf diese Weise 705 (›OCCU‹-Tag) ausgelesen und in einer Liste zusammengefasst.[38] Insgesamt werden auf diese Weise
612 229.669 Berufsangaben ermittelt. Nach einer Eliminierung der mehrfachen 706 229.669 Berufsangaben ermittelt. Nach einer Eliminierung der mehrfachen
613 Angaben bleiben 60.000 verschiedene Bezeichnungen übrig. 707 Angaben bleiben 60.000 verschiedene Bezeichnungen übrig. Dabei werden doppelte Token
708 gelöscht, sodass jeder Type einer Bezeichnung in der Liste nur einmal vorkommt.
614 709
620 insgesamt erkannt: 715 insgesamt erkannt:
716
621 717
709 805
710 Titularangaben: Vom Beruf (und auch dem 806 Titelangaben: Vom Beruf (und auch dem
711 Rechtsstatus) abzugrenzen sind Titel wie Adelstitel oder akademische 807 Rechtsstatus) abzugrenzen sind Titel wie Adelstitel oder akademische
768 864
865
866
769 3.3 Ablauf der Datenbereinigung 867 3.3 Ablauf der Datenbereinigung
770 868
869
870
771 3.3.1 Normieren von Trennoperatoren 871 3.3.1 Normieren von Trennoperatoren
872
772 873
784 - 885 -
886
785 887
813 eigentlichen Berufsangabe getrennt. Dennoch bleibt auch hier die 915 eigentlichen Berufsangabe getrennt. Dennoch bleibt auch hier die
814 Zusammengehörigkeit nachvollziehbar.[36] 916 Zusammengehörigkeit nachvollziehbar.[39]
917
918
815 [38]Es folgen Schritte zur Separierung berufsferner Angaben aus der 919 [38]Es folgen Schritte zur Separierung berufsferner Angaben aus der
835 939
940
941
942
836 3.3.2 Entfernung von Leerzeichen 943 3.3.2 Entfernung von Leerzeichen
944
837 945
841 949
842 3.3.3 Ausformulierung von Abkürzungen 950
951 3.3.3 Auflösung von Abkürzungen
952
843 953
848 allgemeingültig erscheinen, werden an dieser Stelle dennoch bereits 958 allgemeingültig erscheinen, werden an dieser Stelle dennoch bereits
849 aufgenommen. Kommen sie vor, werden sie ausformuliert. Das bedeutet, 959 aufgenommen. Kommen sie vor, werden sie aufgelöst. Das bedeutet,
850 dass dieses ausgeschrieben werden. Dies sind: 960 dass dieses ausgeschrieben werden. Dies sind:
854 ›Ing.‹ für ›Ingenieur‹ 964 ›Ing.‹ für ›Ingenieur‹
965
855 966
861 eindeutiger Verwendung – bewusst so belassen, da sie später als 972 eindeutiger Verwendung – bewusst so belassen, da sie später als
862 Titularangabe separiert wird. Auch trifft dieses auf die Abkürzungen 973 Titelangabe separiert wird. Auch trifft dieses auf die Abkürzungen
863 ›a. D.‹ und ›i. R.‹ zu, da diese den Berufsstatus beschreiben. 974 ›a. D.‹ und ›i. R.‹ zu, da diese den Berufsstatus beschreiben.
864 Ebenso werden weitere Abkürzungen, die für bestimmte Rollen häufig 975 Ebenso werden weitere Abkürzungen, die für bestimmte Rollen häufig
865 verwendet werden, nicht ausformuliert (z. B. ›F. d.‹ oder ›T. d.‹, 976 verwendet werden, nicht aufgelöst (z. B. ›F. d.‹ oder ›T. d.‹,
866 für ›Frau des‹ oder ›Tochter des‹). Die OhdAB nimmt sicher 977 für ›Frau des‹ oder ›Tochter des‹). Die OhdAB nimmt sicher
869 980
981
870 3.3.4 Definierte berufsferne Substantive 982 3.3.4 Definierte berufsferne Substantive
983
871 984
886 999
1000
887 [43]Angaben, die Auskunft über den Besitz geben, werden hingegen der 1001 [43]Angaben, die Auskunft über den Besitz geben, werden hingegen der
893 1007
1008
894 3.3.5 Lokale Präpositionen 1009 3.3.5 Lokale Präpositionen
1010
895 1011
914 1030
1031
915 [45]Abgegrenzt von der Ortsangabe weisen folgende Ergänzungen der 1032 [45]Abgegrenzt von der Ortsangabe weisen folgende Ergänzungen der
922 1039
1040
923 [46]Des Weiteren werden folgende Adjektive, die keine lokale Präposition 1041 [46]Des Weiteren werden folgende Adjektive, die keine lokale Präposition
924 darstellen, ebenso in die Arbeitgeberkategorie separiert, aber nicht 1042 sind, ebenso in die Arbeitgeberkategorie separiert, aber nicht
925 aus dem weiter zu verarbeiteten String gelöscht, da sie einen 1043 aus dem weiter zu verarbeiteten String gelöscht, da sie einen
935 1053
1054
1055
936 3.3.6 Separierung von Quellenangaben 1056 3.3.6 Separierung von Quellenangaben
1057
937 1058
946 1067
947 3.3.7 Titularangaben 1068
1069 3.3.7 Titelangaben
1070
948 1071
949 [48]Falls die Berufsangabe Informationen zum Titel enthält, werden diese 1072 [48]Falls die Berufsangabe Informationen zum Titel enthält, werden diese
950 in die Kategorie Titularangaben separiert. 1073 in die Kategorie Titelangaben separiert.
951 Wenn auf eine der nachfolgenden Zeichenketten ein Leerzeichen folgt, 1074 Wenn auf eine der nachfolgenden Zeichenketten ein Leerzeichen folgt,
952 so endet die Titularangabe mit dem Punkt. Eine Ausnahme besteht 1075 so endet die Titelangabe mit dem Punkt. Eine Ausnahme besteht
953 darin, dass der nachfolgend durch Leerzeichen abgetrennte Teilstring 1076 darin, dass der nachfolgend durch Leerzeichen abgetrennte Teilstring
954 auch mit einem Punkt endet und somit eine Abkürzung darstellt. Hier 1077 auch mit einem Punkt endet und somit eine Abkürzung darstellt. Hier
955 wird auch dieser Teilstring in die Titularangabe mit eingebunden und 1078 wird auch dieser Teilstring in die Titelangabe mit eingebunden und
956 gelöscht. Das betrifft auch weitere nachfolgende Teilstrings (z. B. 1079 gelöscht. Das betrifft auch weitere nachfolgende Teilstrings (z. B.
966 1089
967 [49]Des Weiteren gibt es viele andere Titularangaben wie Titularherr, 1090
1091 [49]Des Weiteren gibt es viele andere Titelangaben wie Titularherr,
968 Graf, Contesse, Gräfin, Freifrau, Freiherr etc. Sie können nach 1092 Graf, Contesse, Gräfin, Freifrau, Freiherr etc. Sie können nach
971 1095
1096
972 3.3.8 Angaben zum Familienstand 1097 3.3.8 Angaben zum Familienstand
1098
973 1099
990 1116
1117
991 [51]Dieses bezieht sich nicht auf definierte Ausnahmen, in denen dieses 1118 [51]Dieses bezieht sich nicht auf definierte Ausnahmen, in denen dieses
1003 1130
1131
1132
1004 3.3.9 Temporale Präpositionen und Ziffern 1133 3.3.9 Temporale Präpositionen und Ziffern
1134
1005 1135
1013 im Jahr 1143 im Jahr
1144
1014 1145
1024 1155
1156
1025 3.3.10 Erkennung von Rollenangaben 1157 3.3.10 Erkennung von Rollenangaben
1158
1026 1159
1031 / Helfer oder -helfer / Bursche oder -bursche 1164 / Helfer oder -helfer / Bursche oder -bursche
1032
1033 Lehrling oder -lehrling / Geselle oder -geselle 1165 Lehrling oder -lehrling / Geselle oder -geselle
1037 -oberältester 1169 -oberältester
1038
1039 Besitzer oder -besitzer / Eigentümer oder -eigentümer 1170 Besitzer oder -besitzer / Eigentümer oder -eigentümer
1171
1040 1172
1047 1179
1180
1048 3.3.11 Berufsstatus 1181 3.3.11 Berufsstatus
1182
1049 1183
1058 ›i. R.‹ oder ›i.R.‹ 1192 ›i. R.‹ oder ›i.R.‹
1059 ›gewesene‹ oder ›gewesener‹[37] 1193 ›gewesene‹ oder ›gewesener‹[40]
1194
1195
1060 1196
1067 1203
1204
1068 3.3.12 Separation von Angaben in Klammern 1205 3.3.12 Separation von Angaben in Klammern
1206
1069 1207
1077 1215
1216
1078 3.3.13 Löschung von Sonderzeichen 1217 3.3.13 Löschung von Sonderzeichen
1218
1079 1219
1082 Sonderzeichen werden all jene Zeichen definiert, die keine Zahlen 1222 Sonderzeichen werden all jene Zeichen definiert, die keine Zahlen
1083 oder Buchstaben darstellen. Falls vor, nach oder vor und nach den 1223 oder Buchstaben sind. Falls vor, nach oder vor und nach den
1084 Sonderzeichen ein Leerzeichen steht, so wird stattdessen ein 1224 Sonderzeichen ein Leerzeichen steht, so wird stattdessen ein
1087 1227
1228
1088 3.3.14 Umsetzen der Kleinschreibung 1229 3.3.14 Umsetzen der Kleinschreibung
1230
1089 1231
1102 [62]Die Ausführung der Verarbeitung (workflow execution) erfolgt nicht 1244 [62]Die Ausführung der Verarbeitung (workflow execution) erfolgt nicht
1103 iterativ, sondern einmalig.[38] Um den 1245 iterativ, sondern einmalig.[41] Um den
1104 Algorithmus auf die Angaben anzuwenden, ist eine Vorbereitung der 1246 Algorithmus auf die Angaben anzuwenden, ist eine Vorbereitung der
1112 1254
1255
1113 3.4 Klassifizierung der Berufsangaben 1256 3.4 Klassifizierung der Berufsangaben
1257
1114 1258
1130 al. empfehlen für die weitere Forschung eine Variation von verschiedenen 1274 al. empfehlen für die weitere Forschung eine Variation von verschiedenen
1131 Vergleichsmethoden.[39] 1275 Vergleichsmethoden.[42]
1132 Folgend werden Möglichkeiten aufgezeigt, die im Abschnitt zur 1276 Folgend werden Möglichkeiten aufgezeigt, die im Abschnitt zur
1140 1284
1285
1286
1287
1141 3.4.1 Levenshtein-Distanz absolut 1288 3.4.1 Levenshtein-Distanz absolut
1289
1142 1290
1152 1300
1301
1153 3.4.2 Levensthein-Distanz relativ 1302 3.4.2 Levensthein-Distanz relativ
1303
1154 1304
1164 1314
1165 [67] 1315 [67]Formel 4: Levr(bi,vj)=Lev(bi,vj)Länge bi
1316
1166 1317
1168 3.4.3 Erweiterung der Abkürzungserkennung 1319 3.4.3 Erweiterung der Abkürzungserkennung
1320
1169 1321
1171 Abkürzungserkennung verglichen: Zum einen ist das der Algorithmus, 1323 Abkürzungserkennung verglichen: Zum einen ist das der Algorithmus,
1172 wie er zuvor vorgestellt worden ist (Ausformulierung definierter 1324 wie er zuvor vorgestellt worden ist (Auflösung definierter
1173 Abkürzungen). Zum anderen aber wird eine Erweiterung dahingehend 1325 Abkürzungen). Zum anderen aber wird eine Erweiterung dahingehend
1178 ursprüngliche Levenshtein-Distanz vergleichsweise hoch ist. 1330 ursprüngliche Levenshtein-Distanz vergleichsweise hoch ist.
1331
1179 1332
1199 1352
1353
1200 3.4.5 Ergänzung einer lernenden Komponente im Anschluss in einer 1354 3.4.5 Ergänzung einer lernenden Komponente im Anschluss in einer
1215 1369
1370
1216 [71]Der im vorherigen Abschnitt beschrieben Algorithmus kann wie in Abbildung 2 1371 [71]Der im vorherigen Abschnitt beschrieben Algorithmus kann wie in Abbildung 2
1217 zu sehen graphisch dargestellt werden. 1372 zu sehen grafisch dargestellt werden.
1373
1374
1218 1375
1222 Nassi-Shneiderman-Diagramm. [Goldberg / Moeller 2022] 1379 Nassi-Shneiderman-Diagramm. [Goldberg / Moeller 2022]
1380
1381
1382
1223 1383
1312 1472
1473
1474
1313 Abb. 3: Zusammenhang der Funktionen. 1475 Abb. 3: Zusammenhang der Funktionen.
1316 1478
1479
1480
1481
1317 5. Validierung und Diskussion 1482 5. Validierung und Diskussion
1483
1318 1484
1356 Der Umfang dieser Berufsangaben an den Trainingsdaten ist jeweils den 1522 Der Umfang dieser Berufsangaben an den Trainingsdaten ist jeweils den
1357 Spalten ›Anzahl‹ und ›Anteil‹ zu entnehmen.[40] 1523 Spalten ›Anzahl‹ und ›Anteil‹ zu entnehmen.[43]
1358 Besonders deutlich wird die Ungenauigkeit bei einer absoluten 1524 Besonders deutlich wird die Ungenauigkeit bei einer absoluten
1367 1533
1534
1535
1368 Lev 1536 Lev
1537
1369 Anzahl 1538 Anzahl
1539
1370 Anteil 1540 Anteil
1541
1371 TP 1542 TP
1543
1372 FP 1544 FP
1545
1373 P 1546 P
1547
1374 FN 1548 FN
1549
1375 TN 1550 TN
1551
1376 R 1552 R
1553
1377 F1 1554 F1
1379 1556
1557
1380 ≤ 1 1558 ≤ 1
1559
1381 35 1560 35
1561
1382 1,88 % 1562 1,88 %
1563
1383 31 1564 31
1565
1384 4 1566 4
1567
1385 0,886 1568 0,886
1569
1386 7 1570 7
1571
1387 30 1572 30
1573
1388 0,816 1574 0,816
1575
1389 0,849 1576 0,849
1391 1578
1579
1392 ≤ 2 1580 ≤ 2
1581
1393 47 1582 47
1583
1394 2,53 % 1584 2,53 %
1585
1395 37 1586 37
1587
1396 9 1588 9
1589
1397 0,787 1590 0,787
1591
1398 1 1592 1
1593
1399 25 1594 25
1595
1400 0,974 1596 0,974
1597
1401 0,881 1598 0,881
1403 1600
1601
1404 ≤ 3 1602 ≤ 3
1603
1405 72 1604 72
1605
1406 3,87 % 1606 3,87 %
1607
1407 38 1608 38
1609
1408 34 1610 34
1611
1409 0,527 1612 0,527
1613
1410 0 1614 0
1615
1411 0 1616 0
1617
1412 1,000 1618 1,000
1619
1413 0,691 1620 0,691
1621
1414 1622
1417 der Levenshtein-Distanz als Grenzwert. [Goldberg / Moeller 1625 der Levenshtein-Distanz als Grenzwert. [Goldberg / Moeller
1418 2022][82]Bei einem Vergleich von verschiedenen Grenzwerten der relativen 1626 2022]
1627
1628
1629 [82]Bei einem Vergleich von verschiedenen Grenzwerten der relativen
1419 Levenshtein-Distanz zeigt sich zudem, dass ein Wert zwischen 0,25 und 0,30 1630 Levenshtein-Distanz zeigt sich zudem, dass ein Wert zwischen 0,25 und 0,30
1434 sinnvoll. Bei Wörtern unter fünf Buchstaben führt mehr als eine Änderung 1645 sinnvoll. Bei Wörtern unter fünf Buchstaben führt mehr als eine Änderung
1435 bereits zu einem Wert von 0,25 und somit niemals zu einer Zuordnung.[41] Eine weitere (erwünschte) Eigenschaft ist, 1646 bereits zu einem Wert von 0,25 und somit niemals zu einer Zuordnung.[44] Eine weitere (erwünschte) Eigenschaft ist,
1436 dass bei vielen fremdsprachlichen Angaben, die als TN klassifiziert werden 1647 dass bei vielen fremdsprachlichen Angaben, die als TN klassifiziert werden
1446 1657
1658
1659
1447 Levr 1660 Levr
1661
1448 Anzahl 1662 Anzahl
1663
1449 Anteil 1664 Anteil
1665
1450 TP 1666 TP
1667
1451 FP 1668 FP
1669
1452 P 1670 P
1671
1453 FN 1672 FN
1673
1454 TN 1674 TN
1675
1455 R 1676 R
1677
1456 F1 1678 F1
1458 1680
1681
1459 < 0,10 1682 < 0,10
1683
1460 10 1684 10
1685
1461 0,54 % 1686 0,54 %
1687
1462 10 1688 10
1689
1463 0 1690 0
1691
1464 1,000 1692 1,000
1693
1465 27 1694 27
1695
1466 20 1696 20
1697
1467 0,270 1698 0,270
1699
1468 0,426 1700 0,426
1470 1702
1703
1471 < 0,20 1704 < 0,20
1705
1472 34 1706 34
1707
1473 1,85 % 1708 1,85 %
1709
1474 31 1710 31
1711
1475 3 1712 3
1713
1476 0,912 1714 0,912
1715
1477 6 1716 6
1717
1478 17 1718 17
1719
1479 0,837 1720 0,837
1721
1480 0,873 1722 0,873
1482 1724
1725
1483 < 0.25 1726 < 0.25
1727
1484 37 1728 37
1729
1485 2,01 % 1730 2,01 %
1731
1486 33 1732 33
1733
1487 4 1734 4
1735
1488 0,892 1736 0,892
1737
1489 4 1738 4
1739
1490 16 1740 16
1741
1491 0,891 1742 0,891
1743
1492 0,892 1744 0,892
1494 1746
1747
1495 < 0,28 1748 < 0,28
1749
1496 39 1750 39
1751
1497 2,12 % 1752 2,12 %
1753
1498 33 1754 33
1755
1499 6 1756 6
1757
1500 0,846 1758 0,846
1759
1501 4 1760 4
1761
1502 14 1762 14
1763
1503 0,891 1764 0,891
1765
1504 0,868 1766 0,868
1506 1768
1769
1507 < 0,30 1770 < 0,30
1771
1508 41 1772 41
1773
1509 2,23 % 1774 2,23 %
1775
1510 35 1776 35
1777
1511 6 1778 6
1779
1512 0,878 1780 0,878
1781
1513 2 1782 2
1783
1514 14 1784 14
1785
1515 0,946 1786 0,946
1787
1516 0,897 1788 0,897
1518 1790
1791
1519 < 0,40 1792 < 0,40
1793
1520 57 1794 57
1795
1521 3,10 % 1796 3,10 %
1797
1522 37 1798 37
1799
1523 20 1800 20
1801
1524 0,649 1802 0,649
1803
1525 0 1804 0
1805
1526 0 1806 0
1807
1527 1,000 1808 1,000
1809
1528 0,787 1810 0,787
1811
1529 1812
1532 des Grenzwerts einer relativen Levenshtein-Distanz. [Goldberg / Moeller 1815 des Grenzwerts einer relativen Levenshtein-Distanz. [Goldberg / Moeller
1533 2022][84]Nachteilig ist, dass Abkürzungen so nicht erkannt werden, da die absolute 1816 2022]
1817
1818
1819 [84]Nachteilig ist, dass Abkürzungen so nicht erkannt werden, da die absolute
1534 Levenshtein-Distanz zwischen einem Begriff und seiner Abkürzung 1820 Levenshtein-Distanz zwischen einem Begriff und seiner Abkürzung
1547 des Ergebnisses zu prüfen, werden die Testdaten verwendet (229.669 1833 des Ergebnisses zu prüfen, werden die Testdaten verwendet (229.669
1548 Berufsangaben in 2.899 Dateien).[42] Hier 1834 Berufsangaben in 2.899 Dateien).[45] Hier
1549 werden nicht die Trainingsdaten verwendet, sondern alle Daten, weil 1835 werden nicht die Trainingsdaten verwendet, sondern alle Daten, weil
1568 1854
1855
1856
1857
1569 Direkt gefunden 1858 Direkt gefunden
1859
1570 Ähnlichkeitsanalyse 1860 Ähnlichkeitsanalyse
1861
1571 Nicht gefunden 1862 Nicht gefunden
1863
1572 Leere Bezeichnungen 1864 Leere Bezeichnungen
1574 1866
1867
1575 mit Bereinigung (insgesamt 229.669 Angaben) 1868 mit Bereinigung (insgesamt 229.669 Angaben)
1577 1870
1871
1578 Anzahl 1872 Anzahl
1873
1579 147.781 1874 147.781
1875
1580 9.674 1876 9.674
1877
1581 68.955 1878 68.955
1879
1582 3.259 1880 3.259
1584 1882
1883
1585 Anteil 1884 Anteil
1885
1586 64,35 % 1886 64,35 %
1887
1587 4,21 % 1888 4,21 %
1889
1588 30,02 % 1890 30,02 %
1891
1589 1,42 % 1892 1,42 %
1591 1894
1895
1592 ohne Bereinigung (insgesamt 229.669 Angaben) 1896 ohne Bereinigung (insgesamt 229.669 Angaben)
1594 1898
1899
1595 Anzahl 1900 Anzahl
1901
1596 131.064 1902 131.064
1903
1597 9.160 1904 9.160
1905
1598 86.344 1906 86.344
1907
1599 3.101 1908 3.101
1601 1910
1911
1602 Anteil 1912 Anteil
1913
1603 57,07 % 1914 57,07 %
1915
1604 3,99 % 1916 3,99 %
1917
1605 37,59 % 1918 37,59 %
1919
1606 1,35 % 1920 1,35 %
1608 1922
1923
1609 Tab. 5: Vergleich des Effektes der 1924 Tab. 5: Vergleich des Effektes der
1610 Bereinigung auf die Erkennung. [Goldberg / Moeller 2022][86]Die durch die Ähnlichkeitsanalyse zugeordneten Berufsangaben können, da diese 1925 Bereinigung auf die Erkennung. [Goldberg / Moeller 2022]
1926
1927
1928 [86]Die durch die Ähnlichkeitsanalyse zugeordneten Berufsangaben können, da diese
1611 als Variante noch nicht existieren, in der Variantenliste ergänzt werden. 1929 als Variante noch nicht existieren, in der Variantenliste ergänzt werden.
1617 Verarbeitung ein besseres Ergebnis in Bezug auf das F1-Maß ergibt als die 1935 Verarbeitung ein besseres Ergebnis in Bezug auf das F1-Maß ergibt als die
1618 kontinuierliche Ergänzung (siehe Tabelle 6).[43] Zwar kann bei dieser Option eine 1936 kontinuierliche Ergänzung (siehe Tabelle 6).[46] Zwar kann bei dieser Option eine
1619 niedrigere Genauigkeit (P) beobachtet werden, doch sorgt die große Anzahl 1937 niedrigere Genauigkeit (P) beobachtet werden, doch sorgt die große Anzahl
1631 darauf zurückzuführen, dass bereits sehr viele Schreibversionen in den 1949 darauf zurückzuführen, dass bereits sehr viele Schreibversionen in den
1632 zugrundeliegenden Varianten der OhdAB abgedeckt sind. Bei einer zufälligen 1950 zugrundeliegenden Varianten der OhdAB abgedeckt sind. Bei einer zufälligen Halbierung
1633 Halbierung der ursprünglichen Varianten steigt der Anteil der so zusätzlich 1951 der in der OhdAB vorhandenen Varianten steigt der Anteil der so zusätzlich erkannten
1634 erkannten Angaben deutlich um 8,80 Prozent (von 4,21 Prozent auf 12,01 1952 Angaben deutlich um 8,80 Prozent (von 4,21 Prozent auf 12,01 Prozent). Werden diese
1635 Prozent). Werden diese lemmatisierten Varianten in einem zweiten Durchlauf 1953 lemmatisierten Varianten in einem zweiten Durchlauf
1636 zur Gesamtzahl der Varianten ergänzt, können weitere Berufsbezeichnungen 1954 zur Gesamtzahl der Varianten ergänzt, können weitere Berufsbezeichnungen
1641 1959
1960
1961
1642 Verfahren 1962 Verfahren
1963
1643 Anzahl 1964 Anzahl
1965
1644 Anteil 1966 Anteil
1645 Rate of TP in % 1967
1646 Rate of FP in % 1968 TP-Rate in %
1969
1970 FP-Rate in %
1971
1647 P 1972 P
1973
1648 FN 1974 FN
1975
1649 R 1976 R
1977
1650 F1 1978 F1
1652 1980
1981
1653 Analyse mit sämtlichen ursprünglichen Varianten 1982 Analyse mit sämtlichen ursprünglichen Varianten
1655 1984
1985
1656 Ohne Lernen 1986 Ohne Lernen
1987
1657 9.674 1988 9.674
1989
1658 4,21 % 1990 4,21 %
1991
1659 88 1992 88
1993
1660 12 1994 12
1995
1661 0.88 1996 0.88
1997
1662 5.943 1998 5.943
1999
1663 0,59 2000 0,59
2001
1664 0,71 2002 0,71
1666 2004
1667 Kontinuierlich lernen (4x Multiprocessing[44]) 2005
2006 Kontinuierlich lernen (4x Multiprocessing[47])
1668 2007
1669 10.128 2008 10.128
2009
1670 4,41 % 2010 4,41 %
2011
1671 86 2012 86
2013
1672 14 2014 14
2015
1673 0.86 2016 0.86
2017
1674 5.489 2018 5.489
2019
1675 0,61 2020 0,61
2021
1676 0,71 2022 0,71
1678 2024
2025
1679 Iterativ lernend (1x) 2026 Iterativ lernend (1x)
2027
1680 11.185 2028 11.185
2029
1681 4,87 % 2030 4,87 %
2031
1682 83 2032 83
2033
1683 17 2034 17
2035
1684 0.83 2036 0.83
2037
1685 4.432 2038 4.432
2039
1686 0,68 2040 0,68
2041
1687 0,75 2042 0,75
1689 2044
2045
1690 Iterativ lernend (2x) 2046 Iterativ lernend (2x)
2047
1691 15.617 2048 15.617
2049
1692 6,80 % 2050 6,80 %
2051
1693 83 2052 83
2053
1694 17 2054 17
2055
1695 0.83 2056 0.83
2057
1696 0 2058 0
2059
1697 1,00 2060 1,00
2061
1698 0,91 2062 0,91
2063
1699 2064
1706 Ohne Lernen 2071 Ohne Lernen
2072
1707 27.583 2073 27.583
2074
1708 12,01 % 2075 12,01 %
2076
1709 80 2077 80
2078
1710 20 2079 20
2080
1711 0,80 2081 0,80
2082
1712 6.086 2083 6.086
2084
1713 0,78 2085 0,78
2086
1714 0,79 2087 0,79
1716 2089
2090
1717 Kontinuierlich lernen (4x Multiprocessing) 2091 Kontinuierlich lernen (4x Multiprocessing)
2092
1718 27.882 2093 27.882
2094
1719 12,14 % 2095 12,14 %
2096
1720 86 2097 86
2098
1721 14 2099 14
2100
1722 0,86 2101 0,86
2102
1723 5.787 2103 5.787
2104
1724 0,81 2105 0,81
2106
1725 0,83 2107 0,83
1727 2109
2110
1728 Iterativ lernend (1x) 2111 Iterativ lernend (1x)
2112
1729 32.774 2113 32.774
2114
1730 14,27 % 2115 14,27 %
2116
1731 76 2117 76
2118
1732 24 2119 24
2120
1733 0,76 2121 0,76
2122
1734 895 2123 895
2124
1735 0,97 2125 0,97
2126
1736 0,85 2127 0,85
1738 2129
2130
1739 Iterativ lernend (2x) 2131 Iterativ lernend (2x)
2132
1740 33.669 2133 33.669
2134
1741 14,66 % 2135 14,66 %
2136
1742 83 2137 83
2138
1743 17 2139 17
2140
1744 0,83 2141 0,83
2142
1745 0 2143 0
2144
1746 1,00 2145 1,00
2146
1747 0,91 2147 0,91
2148
1748 2149
1752 Halbierung der zugrundeliegenden Berufsvarianten der OhdAB. [Goldberg / 2153 Halbierung der zugrundeliegenden Berufsvarianten der OhdAB. [Goldberg /
1753 Moeller 2022][88]Durch den Algorithmus – und dessen programmtechnische Umsetzung – wird in der 2154 Moeller 2022]
2155
2156
2157 [88]Durch den Algorithmus – und dessen programmtechnische Umsetzung – wird in der
1754 Folge eine automatisierte Lösung zur Lemmatisierung deutschsprachiger 2158 Folge eine automatisierte Lösung zur Lemmatisierung deutschsprachiger
1772 angewendeten Spezifizierung der Ähnlichkeitsanalyse mit einer FP-Rate von 17 2176 angewendeten Spezifizierung der Ähnlichkeitsanalyse mit einer FP-Rate von 17
1773 Prozent zu rechnen ist. Daraus ergibt sich eine FP-Rate von etwa 98 2177 Prozent zu rechnen ist. Daraus ergibt sich eine TP-Rate über alle erkannten Berufe
1774 Prozent.[45] Zudem ist es durch den 2178 von etwa 98
2179 Prozent.[48] Zudem ist es durch den
1775 Algorithmus möglich, berufsferne Angaben von der eigentlichen Bezeichnung 2180 Algorithmus möglich, berufsferne Angaben von der eigentlichen Bezeichnung
1782 6. Zusammenfassung 2187 6. Zusammenfassung
2188
1783 2189
1798 Schreibvarianten 2204 Schreibvarianten
1799
1800 die Implementierung einer Erweiterung von Abkürzungen und 2205 die Implementierung einer Erweiterung von Abkürzungen und
1842 2247
1843
1844 Fußnoten 2248 Fußnoten
1847 [1] 2251 [1]
1848
1849 Damit weicht der hier verwendete Begriff von der 2252 Damit weicht der hier verwendete Begriff von der
1853 2256
1854
1855 [2] 2257 [2]
1856
1857 Moeller 2019, 2258 Moeller 2019,
1859 2260
1860
1861 [3] 2261 [3]
1862
1863 Cosca 2262 Cosca
1867 2266
1868
1869 [4] 2267 [4]
1870
1871 Moeller et al. 2268 Moeller et al.
1876 2273
1877
1878 [5] 2274 [5]
1881 2277
1882
1883 [6] 2278 [6]
1884
1885 Hinschius 1874, S. 41, 61f. u. 2279 Hinschius 1874, S. 41, 61f. u.
1887 2281
1888
1889 [7] 2282 [7]
1890
1891 Kocka et al. 2000; 2283 Kocka et al. 2000;
1893 2285
1894
1895 [8] 2286 [8]
1896
1897 Böhmen 1790, S. 29; Wurden 2287 Böhmen 1790, S. 29; Wurden
1904 2294
1905
1906 [9] 2295 [9]
1910 2299
1911
1912 [10] 2300 [10]
1913
1914 Church of Jesus Christ of 2301 Church of Jesus Christ of
1916 2303
1917
1918 [11] 2304 [11]
1919
1920 Rahm / Do 2000, S. 1. 2305 Rahm / Do 2000, S. 1.
1921 2306
1922
1923 [12] 2307 [12]
1926 2310
1927
1928 [13] 2311 [13]
1929
1930 Müller / Freytag 2003, S. 10–13. 2312 Müller / Freytag 2003, S. 10–13.
1931
1932 2313
1937 2318
1938
1939 [15] 2319 [15]
1942 2322
1943
1944 [16] 2323 [16]
1945
1946 Piotrowski 2012, S. 71. 2324 Piotrowski 2012, S. 71.
1947 2325
1948
1949 [17] 2326 [17]
1950
1951 Levenštejn 1966. 2327 Levenštejn 1966.
1952 2328
1953
1954 [18] 2329 [18]
2330 Vgl. Hauser / Schulz 2007.
2331
2332 [19]
2333 Vgl. Hosseini et al. 2020; Tam et al. 2019.
2334
2335 [20]
2336 Vgl. Jurish 2012.
2337
2338 [21]
1955 2339
1957 2341
1958 2342 [22]
1959 [19]
1960 2343
1963 2346
1964 2347 [23]
1965 [20]
1966
1967 Klassifikation der Berufe (KldB), Bundesagentur für 2348 Klassifikation der Berufe (KldB), Bundesagentur für
1969 2350
1970 2351 [24]
1971 [21]
1972 2352
1976 2356
1977 2357 [25]
1978 [22]
1979
1980 Moeller 2019. 2358 Moeller 2019.
1981 2359
1982 2360 [26]
1983 [23]
1984
1985 Moeller et al. 2020. 2361 Moeller et al. 2020.
1986 2362
1987 2363 [27]
1988 [24]
1989 2364
1991 2366
1992 2367 [28]
1993 [25]
1994
1995 Vgl. 2368 Vgl.
1996 Schüren 1989; 2369 Schüren 1989;
1997 Brandenburg et al. 1993. 2370 Arbeitskreis für Wirtschafts- und Sozialgeschichte Schleswig-Holsteins 1991.
1998 2371
1999 2372 [29]
2000 [26] 2373
2001 2374 Philipps-Universität Marburg,
2002 2375 Forschungsstelle für Personalschriften (Hg.) 2021.
2003 Forschungsstelle für Personalschriften 2021. 2376
2004 2377 [30]
2005
2006 [27]
2007
2008 Bundesagentur für 2378 Bundesagentur für
2010 2380
2011 2381 [31]
2012 [28]
2013 2382
2015 2384
2016 2385 [32]
2017 [29]
2018
2019 Paulus / Matthes 2013, S. 8. 2386 Paulus / Matthes 2013, S. 8.
2020 2387
2021 2388 [33]
2022 [30]
2023
2024 Paulus / Matthes 2013, S. 9f. 2389 Paulus / Matthes 2013, S. 9f.
2025 2390
2026 2391 [34]
2027 [31]
2028
2029 Bundesagentur für Arbeit (Hg.) 2011, S. 18. 2392 Bundesagentur für Arbeit (Hg.) 2011, S. 18.
2030 2393
2031 2394 [35]
2032 [32]
2033
2034 Müller / Freytag 2003. 2395 Müller / Freytag 2003.
2035 2396
2036
2037 [33]
2038
2039
2040 Verein für Computergenealogie 2021.
2041
2042
2043 [34]
2044
2045 Siehe den entsprechenden Programmcode im Online-Repositorium.
2046
2047
2048 [35]
2049
2050 Siehe den entsprechenden Programmcode im Online-Repositorium.
2051
2052
2053 [36] 2397 [36]
2054 2398
2399 GEDBAS, Verein für Computergenealogie (Hg.) 2021.
2400
2401 [37]
2402 Siehe den entsprechenden Programmcode in
2403 (Online-Repo). [verlinken]
2404
2405 [38]
2406 Siehe den entsprechenden Programmcode in
2407 (Online-Repo). [verlinken]
2408
2409 [39]
2055 2410
2061 2416
2062 2417 [40]
2063 [37]
2064
2065 Hier ist zu 2418 Hier ist zu
2068 2421
2069 2422 [41]
2070 [38]
2071
2072 Bei der 2423 Bei der
2077 2428
2078 2429 [42]
2079 [39] 2430 Kirby et al. 2015, S. 58.
2080 2431
2081 Kirby 2015, S. 58. 2432 [43]
2082
2083 [40]
2084
2085 Da ein 2433 Da ein
2089 2437
2090 2438 [44]
2091 [41]
2092
2093 Allerdings existieren nur wenige Berufsbezeichnungen 2439 Allerdings existieren nur wenige Berufsbezeichnungen
2095 2441
2096 2442 [45]
2097 [42]
2098
2099 Das entspricht den 2443 Das entspricht den
2101 2445
2102 2446 [46]
2103 [43]
2104
2105 Von den durch die Ähnlichkeitsanalyse erkannten Daten 2447 Von den durch die Ähnlichkeitsanalyse erkannten Daten
2111 2453
2112 2454 [47]
2113 [44]
2114
2115 2455
2121 2461
2122 2462 [48]
2123 [45] 2463 Berechnung der TP-Rate:
2124
2125 Berechnung der FP-Rate:
2126 (65,27*1+6,90*0,83) / (65,27+6,90) = 0.98. 2464 (65,27*1+6,90*0,83) / (65,27+6,90) = 0.98.
2132 2470
2133 Bibliographische Angaben 2471 Bibliografische Angaben
2134 2472
2135 2473
2136 Adam Friedrich Böhmen: Anleitung wie Kirchenbücher 2474
2475
2476 Arbeitskreis für Wirtschafts- und Sozialgeschichte Schleswig-Holsteins: Berufe in
2477 Altona 1803. Berufssystematik für eine präindustrielle Stadtgesellschaft anhand der
2478 Volkszählung. Kiel 1991. (= Kleine Schriften des Arbeitskreises für Wirtschafts- und
2479 Sozialgeschichte Schleswig-Holsteins, 1). [Nachweis im GVK]
2480
2481 Adam Friedrich Böhme: Anleitung wie Kirchenbücher
2137 zweckmäsig und ordentlich einzurichten sind. Leipzig 1790. [online] [Nachweis im GVK] 2482 zweckmäsig und ordentlich einzurichten sind. Leipzig 1790. [online] [Nachweis im GVK]
2483
2484 Marcel Bollmann: A Large-Scale Comparison of Historical Text Normalization Systems.
2485 In: Proceedings of the 2019 Conference of the North American Chapter of the Association
2486 for Computational Linguistics: Human Language Technologies. Bd. 1:_ Long and Short
2487 Papers. Hg. von Association for Computational Linguistics. (NAACL 2019, Minneapolis,
2488 MN, 02.07.–07.07.2019). Minneapolis, MN, Juni 2019, S. 3885–3898. PDF. DOI: 10.18653/v1/N19-1389
2489
2138 Klassifikationen der Berufe - 2490 Klassifikationen der Berufe -
2140 2021. [online] 2492 2021. [online]
2493
2141 Klassifikation der Berufe, Hg. von Bundesagentur für Arbeit. 2494 Klassifikation der Berufe, Hg. von Bundesagentur für Arbeit.
2143 mit Erläuterungen. [Nachweis im GVK] 2496 mit Erläuterungen. [Nachweis im GVK]
2497
2144 Peter Christen / Karl Goiser: Quality and Complexity 2498 Peter Christen / Karl Goiser: Quality and Complexity
2147 2007, S. 127–151. [Nachweis im GVK] 2501 2007, S. 127–151. [Nachweis im GVK]
2502
2148 Church of Jesus Christ of Latter-day Saints: The GEDCOM 2503 Church of Jesus Christ of Latter-day Saints: The GEDCOM
2149 Standard. Release 5.5.1. 2019. 2504 Standard. Release 5.5.1. 2019. PDF. [online]
2505
2150 Theresa Cosca / Alissa Emmel: Revising the Standard 2506 Theresa Cosca / Alissa Emmel: Revising the Standard
2152 review 133 (2010), S. 32–41. PDF. [online] [Nachweis im GVK] 2508 review 133 (2010), S. 32–41. PDF. [online] [Nachweis im GVK]
2509
2153 Jyldyz Djumalieva / Antonio Lima / Cath Sleeman: 2510 Jyldyz Djumalieva / Antonio Lima / Cath Sleeman:
2155 Advertisements. 2018. [online] 2512 Advertisements. 2018. [online]
2513
2514 Miguel Domingo / Francisco Casacuberta: Two Demonstrations of the Machine Translation
2515 Applications to Historical Documents. 02.02.2021. PDF. DOI: 10.48550/arXiv.2102.01417
2516
2156 Michael Dunn: Language phylogenies. In: The Routledge 2517 Michael Dunn: Language phylogenies. In: The Routledge
2158 Bethwyn Evans. London u. a. 2015, S. 190–192. [Nachweis im GVK] 2519 Bethwyn Evans. London u. a. 2015, S. 190–192. [Nachweis im GVK]
2520
2159 Tom Fawcett: An introduction to ROC analysis. In: 2521 Tom Fawcett: An introduction to ROC analysis. In:
2161 27 (2006), H. 8, S. 861–874. [Nachweis im GVK] 2523 27 (2006), H. 8, S. 861–874. [Nachweis im GVK]
2524
2162 Corry Gellatly: Reconstructing Historical Populations 2525 Corry Gellatly: Reconstructing Historical Populations
2164 Gerrit Bloothooft et al. Cham 2015, S. 111–128. [Nachweis im GVK] 2527 Gerrit Bloothooft et al. Cham 2015, S. 111–128. [Nachweis im GVK]
2528
2165 Metzler Lexikon Sprache. Hg. von Helmut Glück. 2., 2529 Metzler Lexikon Sprache. Hg. von Helmut Glück. 2.,
2166 überarbeitete und erweiterte Auflage. Stuttgart u. a. 2000. [Nachweis im GVK] 2530 überarbeitete und erweiterte Auflage. Stuttgart u. a. 2000. [Nachweis im GVK]
2531
2167 Hyukjun Gweon / Matthias Schonlau / Lars Kaczmirek / 2532 Hyukjun Gweon / Matthias Schonlau / Lars Kaczmirek /
2170 (2017), H. 1, S. 101–122. DOI:10.1515/jos-2017-0006 [Nachweis im GVK] 2535 (2017), H. 1, S. 101–122. DOI:10.1515/jos-2017-0006 [Nachweis im GVK]
2536
2171 J. Tuomas Harviainen / Bo-Christer Björk: Genealogy, 2537 J. Tuomas Harviainen / Bo-Christer Björk: Genealogy,
2172 GEDCOM, and popularity implications. In: Informaatiotutkimus 37 2538 GEDCOM, and popularity implications. In: Informaatiotutkimus 37
2173 (2018), H. 3, S. 4–14. Artikel vom 29.10.2018. DOI: 10.23978/inf.76066 [Nachweis im GVK] 2539 (2018), H. 3, S. 4–14. Artikel vom 29.10.2018. DOI: 10.23978/inf.76066
2540
2541 Andreas W. Hauser / Klaus U. Schulz: Unsupervised Learning of Edit Distance Weights
2542 for Retrieving Historical Spelling Variations. In: Finite-state Techniques and Approximate
2543 Search. International Workshop. Hg. von Stoyan Mihov / Klaus U. Schulz. (International
2544 Workshop, International Conference RANLP 2007, Borovets, BG, 27.09.–29.09.2007). Borovets,
2545 BG, 30.09.2007, S. 1–6. PDF. [online]
2546
2174 Paul Hinschius: Das preußische Gesetz über die 2547 Paul Hinschius: Das preußische Gesetz über die
2176 9. März 1874 mit Kommentar in Anmerkungen. Berlin 1874. [Nachweis im GVK] 2549 9. März 1874 mit Kommentar in Anmerkungen. Berlin 1874. [Nachweis im GVK]
2550
2551 Kasra Hosseini / Federico Nanni / Mariona Coll Ardanuy: DeezyMatch: A Flexible Deep
2552 Learning Approach to Fuzzy String Matching. In: Proceedings of the 2020 Conference
2553 on Empirical Methods in Natural Language Processing: System Demonstrations. Hg. von
2554 Association for Computational Linguistics. (EMNLP 2020, online, 16.11.–20.11.2020).
2555 Oktober 2020, S. 62–69. PDF. DOI: 10.18653/v1/2020.emnlp-demos.9
2556
2177 ISCO - International Standard Classification of 2557 ISCO - International Standard Classification of
2178 Occupations. Hg. von ILO. Genf 2021. [online] 2558 Occupations. Hg. von ILO. Genf 2021. [online]
2559
2179 1306 records 2560 1306 records
2181 System. Leuven 2020. [online] 2562 System. Leuven 2020. [online]
2563
2564 Bryan Jurish: Finite-state Canonicalization Techniques for Historical German. Dissertation,
2565 Universität Potsdam. Potsdam 2012. PDF. [online]
2566
2567 Graham Kirby / Jamie Carson / Fraser Dunlop / Chris Dibben / Alan Dearle / Lee Williamson
2568 / Eilidh Garrett / Alice Reid: Automatic Methods for Coding Historical Occupation
2569 Descriptions to Standard. In: Population Reconstruction. Hg. von Gerrit Bloothooft
2570 / Peter Christen / Kees Mandemakers / Marijit Schraagen. 2015, S. 43–60. DOI: 10.1007/978-3-319-19884-2
2571
2182 Jürgen Kocka / Claus Offe / Beate Redslob: Geschichte 2572 Jürgen Kocka / Claus Offe / Beate Redslob: Geschichte
2184 Frankfurt/Main 2000. [Nachweis im GVK] 2574 Frankfurt/Main 2000. [Nachweis im GVK]
2575
2185 Martin Kohli: Die Institutionalisierung des Lebenslaufs. 2576 Martin Kohli: Die Institutionalisierung des Lebenslaufs.
2188 1–29. [Nachweis im GVK] 2579 1–29. [Nachweis im GVK]
2580
2189 Thomas Krause: Entwurf und Implementierung einer 2581 Thomas Krause: Entwurf und Implementierung einer
2190 effizienten Dublettenerkennung für große Adressbestände. Köln 2012. 2582 effizienten Dublettenerkennung für große Adressbestände. Köln 2012.
2191 URN: urn:nbn:de:hbz:832-epub-3667Marco H. D. van Leeuwen / Ineke Maas / Andrew Miles: 2583 URN: urn:nbn:de:hbz:832-epub-3667
2584
2585 Marco H. D. van Leeuwen / Ineke Maas / Andrew Miles:
2192 History Of Work Information System. In: HISCO. Historical 2586 History Of Work Information System. In: HISCO. Historical
2194 Antenna. Leuven 2002. [online] 2588 Antenna. Leuven 2002. [online]
2589
2195 Vladimir Iosifovič Levenštejn: Binary Codes Capable of 2590 Vladimir Iosifovič Levenštejn: Binary Codes Capable of
2197 Physics- Doklady 10 (1966), S. 707–710. [Nachweis im GVK] 2592 Physics - Doklady 10 (1966), S. 707–710. [Nachweis im GVK]
2593
2198 Katrin Moeller: Standards für die 2594 Katrin Moeller: Standards für die
2203 Anne Purschwitz. Halle 2019, S. 17–43. [Nachweis im GVK] 2599 Anne Purschwitz. Halle 2019, S. 17–43. [Nachweis im GVK]
2600
2204 Katrin Moeller / Andreas Müller / Robert Nasarek: 2601 Katrin Moeller / Andreas Müller / Robert Nasarek:
2209 25.11.2020. [online] 2606 25.11.2020. [online]
2607
2210 Heiko Müller / Johann-Christoph Freytag: Problems, 2608 Heiko Müller / Johann-Christoph Freytag: Problems,
2211 Methods, and Challenges in Comprehensive Data Cleansing. Berlin 2609 Methods, and Challenges in Comprehensive Data Cleansing. Berlin
2212 2003. [Nachweis im GVK] 2610 2003. PDF. [online]
2611
2213 Wiebke Paulus / Britta Matthes: Klassifikation der 2612 Wiebke Paulus / Britta Matthes: Klassifikation der
2216 Bundesagentur für Arbeit (BA) im Institut für Arbeitsmarkt- und 2615 Bundesagentur für Arbeit (BA) im Institut für Arbeitsmarkt- und
2217 Berufsforschung. Nürnberg 2013. [online] 2616 Berufsforschung. Nürnberg 2013. PDF. [online]
2617
2218 Michael Piotrowski: Natural Language Processing for 2618 Michael Piotrowski: Natural Language Processing for
2219 Historical Texts. In: Synthesis Lectures on Human Language 2619 Historical Texts. San Rafael, 2012. (= Synthesis Lectures on Human Language Technologies,
2220 Technologies 5 (2012), H. 2, S. 1–157. [Nachweis im GVK] 2620 17). [Nachweis im GVK]
2621
2221 Erhard Rahm / Hong Hai Do: Data Cleaning: Problems and 2622 Erhard Rahm / Hong Hai Do: Data Cleaning: Problems and
2222 Current Approaches. In: Bulletin of the Technical Committee on Data 2623 Current Approaches. In: Bulletin of the Technical Committee on Data
2223 Engineering 23 (2000), H. 4, S. 3–13. URN: urn:nbn:de:bsz:15-qucosa2-329680Udo Schäfer: Die Novellierung des 2624 Engineering 23 (2000), H. 4, S. 3–13. URN: urn:nbn:de:bsz:15-qucosa2-329680
2625
2626
2627 Udo Schäfer: Die Novellierung des
2224 Personenstandsgesetzes. In: Archive, Familienforschung und 2628 Personenstandsgesetzes. In: Archive, Familienforschung und
2227 [Nachweis im GVK] 2631 [Nachweis im GVK]
2632
2228 Reinhard Schüren: Soziale Mobilität. Muster, 2633 Reinhard Schüren: Soziale Mobilität. Muster,
2230 Katharinen 1989. [Nachweis im GVK] 2635 Katharinen 1989. [Nachweis im GVK]
2636
2637 Derek Tam / Nicholas Monath / Ari Kobren / Aaron Traylor / Rajarshi Das / Andrew McCallum:
2638 Optimal Transport-based Alignment of Learned Character Representations for String
2639 Similarity. In: Proceedings of the 57th Annual Meeting of the Association for Computational
2640 Linguistics. Hg. von Association for Computational Linguistics. (ACL 57, Florenz,
2641 28.07.–02.08.2019). Florenz, Juli 2019, S. 5907–5917. PDF. DOI: 10.18653/v1/P19-1592
2642
2231 Thesaurus Professionum. In: 2643 Thesaurus Professionum. In:
2234 Philipps-Universität Marburg. Marburg 2021. [online] 2646 Philipps-Universität Marburg. Marburg 2021. [online]
2647
2235 GEDBAS: Statistics. In: 2648 GEDBAS: Statistics. In:
2242 2655
2656
2243 Abbildungs- und Tabellenverzeichnis 2657 Abbildungs- und Tabellenverzeichnis
2658
2244 2659
2250 2665
2666
2667
2251 Tab. 2: 2668 Tab. 2:
2255 2672
2673
2674
2256 Abb. 1: Begriffe und Zusammenhänge des 2675 Abb. 1: Begriffe und Zusammenhänge des
2259 2678
2679
2680
2260 Abb. 2: Algorithmus, dargestellt in einem 2681 Abb. 2: Algorithmus, dargestellt in einem
2263 2684
2685
2686
2264 Abb. 3: Zusammenhang der Funktionen. [Goldberg / 2687 Abb. 3: Zusammenhang der Funktionen. [Goldberg /
2265 Moeller 2022] 2688 Moeller 2022]
2689
2690
2266 2691
2272 2697
2698
2699
2273 Tab. 4: 2700 Tab. 4:
2277 2704
2705
2706
2278 Tab. 5: 2707 Tab. 5:
2280 Moeller 2022] 2709 Moeller 2022]
2710
2711
2281 2712
2289 2720
2721