Versionen vergleichen von : Automatisierte Identifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen
Alt | Neu | ||
---|---|---|---|
11 | 11 | ||
12 | DOI: 10.17175/2022_002 | 12 | DOI: 10.17175/2022_002_v2 |
13 | Nachweis im OPAC der Herzog August Bibliothek: | 13 | Nachweis im OPAC der Herzog August Bibliothek: 1845604601 |
14 | Erstveröffentlichung: 08.03.2022 | 14 | Erstveröffentlichung: 08.03.2022 |
15 | 15 | Version 2.0: 20.07.2023 | |
16 | Lizenz: Sofern nicht anders angegeben | 16 | Lizenz: Sofern nicht anders angegeben |
19 | Medienlizenzen: Medienrechte liegen bei den Autor*innen | 19 | Medienlizenzen: Medienrechte liegen bei den Autor*innen |
20 | 20 | Letzte Überprüfung aller Verweise: 29.05.2023 | |
21 | Letzte Überprüfung aller Verweise: 07.03.2022 | 21 | GND-Verschlagwortung: Informations- und Dokumentationswissenschaft | Berufsforschung | Maschinelles Lernen | Automatische Klassifikation | Standardisierung | |
22 | 22 | Empfohlene Zitierweise: Jan Michael Goldberg / Katrin Moeller: Automatisierte Identifikation und Lemmatisierung | |
23 | GND-Verschlagwortung: Informations- und Dokumentationswissenschaft | Berufsforschung | Maschinelles Lernen | Automatische Klassifikation | Standardisierung | ||
24 | |||
25 | Empfohlene Zitierweise: Jan Michael Goldberg, Katrin Moeller: Automatisierte Identifikation und Lemmatisierung | ||
26 | historischer Berufsbezeichnungen in deutschsprachigen | 23 | historischer Berufsbezeichnungen in deutschsprachigen |
27 | Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2022. text/html Format. DOI: 10.17175/2022_002 | 24 | Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 08.03.2022. Version 2.0 vom 20.07.2023. HTML / XML / PDF. DOI: 10.17175/2022_002_v2 |
28 | 25 | ||
29 | 26 | ||
30 | 27 | ||
31 | 28 | ||
32 | 29 | Abstract | |
33 | AbstractBerufsangaben kommen in vielen historischen Quellen vor. Für eine | 30 | |
31 | |||
32 | Berufsangaben kommen in vielen historischen Quellen vor. Für eine | ||
34 | Vielzahl von Forschungsgebieten ist nicht nur eine Standardisierung, | 33 | Vielzahl von Forschungsgebieten ist nicht nur eine Standardisierung, |
48 | 47 | ||
48 | |||
49 | |||
49 | Occupational information occurs in many historical sources. For a large | 50 | Occupational information occurs in many historical sources. For a large |
61 | 62 | ||
63 | |||
64 | |||
65 | |||
66 | Version 2.0 (20.07.2023) | ||
67 | Folgende Änderungen wurden vorgenommen: Sprachliche Verbesserungen im Text sowie inhaltliche | ||
68 | Ergänzungen und Text und Bibliografie entlang der Monita der Gutachten. | ||
62 | 69 | ||
79 | 3.3.2 Entfernung von Leerzeichen | 86 | 3.3.2 Entfernung von Leerzeichen |
80 | 87 | 3.3.3 Auflösung von Abkürzungen | |
81 | 3.3.4 Definierte berufsferne Substantive | 88 | 3.3.4 Definierte berufsferne Substantive |
83 | 3.3.6 Separierung von Quellenangaben | 90 | 3.3.6 Separierung von Quellenangaben |
84 | 91 | 3.3.7 Titelangaben | |
85 | 3.3.8 Angaben zum Familienstand | 92 | 3.3.8 Angaben zum Familienstand |
102 | 6. Zusammenfassung | 109 | 6. Zusammenfassung |
103 | | 110 | Bibliografische Angaben |
104 | Abbildungs- und Tabellenverzeichnis | 111 | Abbildungs- und Tabellenverzeichnis |
106 | 113 | ||
114 | |||
107 | 1. Einleitung | 115 | 1. Einleitung |
116 | |||
108 | 117 | ||
160 | (normierte) und englischsprachige Berufsangaben.[3] | 169 | (normierte) und englischsprachige Berufsangaben.[3] |
170 | |||
171 | |||
161 | [5]Mit der Entwicklung einer Methode zur automatisierten Lemmatisierung von | 172 | [5]Mit der Entwicklung einer Methode zur automatisierten Lemmatisierung von |
181 | Stand der Forschung beschrieben. Danach wird in seine technische Umsetzung | 192 | Stand der Forschung beschrieben. Danach wird in seine technische Umsetzung |
182 | eingeführt. Auch bleibt eine Validierung des entwickelten Algorithmus nicht | 193 | eingeführt, bevor der Algorithmus validiert wird. Am Ende ist eine Zusammenfassung |
183 | aus. Abschließend findet eine Zusammenfassung statt, auch wird ein Ausblick | 194 | samt Ausblick zu finden. |
184 | gegeben. | ||
185 | 195 | ||
188 | 198 | ||
189 | [6]Die Herausforderung bei der Entwicklung eines Algorithmus zur automatisierten | 199 | |
200 | [6]Die Herausforderung eines Algorithmus zur automatisierten | ||
190 | Kategorisierung von Berufsangaben besteht darin, sich unterscheidende | 201 | Kategorisierung von Berufsangaben besteht darin, sich unterscheidende |
191 | Einträge, die die gleiche Sache beschreiben, zusammenzuführen. | 202 | Einträge, die die gleiche Sache beschreiben, zusammenzuführen. Bei dieser Aufgabe |
192 | | 203 | handelt es sich also im Wesentlichen um eine Dublettenerkennung, in der etymologisch |
193 | identische, aber dennoch anders geschriebene Dubletten erkannt und | 204 | identische, aber dennoch anders geschriebene Dubletten erkannt und |
194 | zusammengeführt werden. Im ersten Unterabschnitt wird dazu einführend auf | 205 | zusammengeführt werden. Im ersten Unterabschnitt wird dazu einführend auf Berufsangaben |
195 | | 206 | im genealogischen Kontext eingegangen. Danach wird auf die Bereinigung und Lemmatisierung |
196 | | 207 | von Daten eingegangen, bevor abschließend die Besonderheiten der Berufsklassifikation |
197 | | 208 | in den Fokus gerückt werden. |
198 | | 209 | |
199 | 210 | ||
200 | 2.1 Berufsangaben in genealogischen Quellen | 211 | 2.1 Berufsangaben in genealogischen Quellen |
212 | |||
201 | 213 | ||
231 | 243 | ||
244 | |||
232 | 2.2 Bereinigung und Lemmatisierung von Daten | 245 | 2.2 Bereinigung und Lemmatisierung von Daten |
246 | |||
233 | 247 | ||
235 | enthalten – weder in den Primärquellen wie Kirchenbüchern noch in den | 249 | enthalten – weder in den Primärquellen wie Kirchenbüchern noch in den |
236 | aufbereiteten GEDCOM-Dateien –, ist eine Verarbeitung dieser Daten | 250 | aufbereiteten GEDCOM-Dateien –, ist eine Verarbeitung dieser Daten notwendig, um aus |
237 | notwendig, um aus ihnen die relevanten Informationen zu extrahieren. Zu | 251 | ihnen die relevanten Informationen zur Einordnung in ein berufliches Klassifikationssystem |
252 | zu extrahieren. Zu | ||
238 | diesem Zwecke wird folgend genauer auf die Datenbereinigung, | 253 | diesem Zwecke wird folgend genauer auf die Datenbereinigung, |
241 | 256 | ||
257 | |||
242 | 2.2.1 Datenbereinigung | 258 | 2.2.1 Datenbereinigung |
243 | 259 | ||
260 | |||
244 | [10]Während der Datenbereinigung werden Fehler und Inkonsistenzen (im | 261 | [10]Während der Datenbereinigung werden Fehler und Inkonsistenzen (im |
245 | Folgenden auch ›Anomalien‹ genannt) erkannt und entfernt.[11] Es können | 262 | Folgenden auch ›Anomalien‹ genannt) erkannt und entfernt.[11] Beispielsweise können Rechtschreibfehler bestehen, Abkürzungen genutzt |
246 | beispielsweise Rechtschreibfehler bestehen, Abkürzungen genutzt | ||
247 | werden, Bezeichnungen in falsche Felder eingetragen werden oder eben | 263 | werden, Bezeichnungen in falsche Felder eingetragen werden oder eben |
255 | beschreiben, während eine Ortsangabe nur eine in das falsche | 271 | beschreiben, während eine Ortsangabe nur eine in das falsche |
256 | Datenfeld eingetragene Information | 272 | Datenfeld eingetragene Information sein kann. |
257 | 273 | ||
277 | 293 | ||
294 | |||
278 | 2.2.2 Ähnlichkeits- und Distanzmaße | 295 | 2.2.2 Ähnlichkeits- und Distanzmaße |
296 | |||
279 | 297 | ||
283 | Bezeichnungen die gleiche Entität in der realen Welt repräsentieren, | 301 | Bezeichnungen die gleiche Entität in der realen Welt repräsentieren, |
284 | so | 302 | so sind sie Dubletten.[14] Da Berufsangaben Strings im Sinne einer semantischen |
285 | Zeichenkette | 303 | Zeichenkette sind, können String-Matching-Algorithmen zur |
286 | Erkennung einer unscharfen Übereinstimmung auf sie angewendet | 304 | Erkennung einer unscharfen Übereinstimmung auf sie angewendet |
299 | 317 | ||
318 | |||
319 | [13]Daneben gibt es auch andere Ähnlichkeitsmaße, deren Verwendung auf ähnliche Aufgabenstellungen | ||
320 | sinnvoll erscheinen könnte. Beispiele dafür sind die Jaro-Winkler-Distanz, eine stochastisch | ||
321 | gewichtete Levenshtein-Distanz[18] oder Deep-Learning-Algorithmen wie DeezyMatch und STANCE.[19] Zudem können phonetische Ähnlichkeitsmaße wie die Kölner Phonetik eingesetzt werden. | ||
322 | Weitere Möglichkeiten sind die Heuristiken von Bryan Jurish für DTA::CAB.[20] Auch Machine-Learning-Applikationen wie bei Bollmann und Domingo / Casacuberta können | ||
323 | Einsatz finden. In dieser Arbeit kann keine Aussage darüber getroffen werden, welche Methode in welchem | ||
324 | Fall die besten Ergebnisse produziert. Im Zweifel kann die Ähnlichkeitsanalyse im | ||
325 | Algorithmus und Programmcode verändert werden. Bei einer Veränderung des Programmcodes | ||
326 | ist es wichtig, auch eine Anpassung der Grenzwerte vorzunehmen, wie im weiteren Verlauf | ||
327 | des Textes deutlich wird. | ||
328 | |||
329 | |||
330 | |||
300 | 2.2.3 Grundlagen von Klassifikationen | 331 | 2.2.3 Grundlagen von Klassifikationen |
301 | 332 | ||
302 | [13]Unter der Klassifikation wird die Gliederung von Elementen einer | 333 | |
334 | [14]Unter der Klassifikation wird die Gliederung von Elementen einer | ||
303 | Menge in verschiedene Klassen nach einer definierten Logik | 335 | Menge in verschiedene Klassen nach einer definierten Logik |
318 | 350 | ||
351 | |||
352 | |||
353 | |||
319 | Klassifikation korrekt | 354 | Klassifikation korrekt |
355 | |||
320 | Klassifikation nicht korrekt | 356 | Klassifikation nicht korrekt |
322 | 358 | ||
359 | |||
323 | Klassifikation erfolgt | 360 | Klassifikation erfolgt |
361 | |||
324 | True positive (TP) | 362 | True positive (TP) |
363 | |||
325 | False positive (FP) | 364 | False positive (FP) |
327 | 366 | ||
367 | |||
328 | Klassifikation nicht erfolgt | 368 | Klassifikation nicht erfolgt |
369 | |||
329 | True negative (TN) | 370 | True negative (TN) |
371 | |||
330 | False negative (FN) | 372 | False negative (FN) |
373 | |||
331 | 374 | ||
334 | Klassifikation in Anlehnung an Fawcett 2006. [Goldberg / Moeller | 377 | Klassifikation in Anlehnung an Fawcett 2006. [Goldberg / Moeller |
335 | 2022][14]Durch die Kombination der Anzahl der jeweiligen Zustände kann die | 378 | 2022] |
379 | |||
380 | [15]Durch die Kombination der Anzahl der jeweiligen Zustände kann die | ||
336 | Güte der Klassifikation bewertet werden. Dies ist notwendig, weil | 381 | Güte der Klassifikation bewertet werden. Dies ist notwendig, weil |
339 | Treffer falsch sein. Eine Möglichkeit zur Ermittlung der Qualität | 384 | Treffer falsch sein. Eine Möglichkeit zur Ermittlung der Qualität |
340 | einer Klassifikation stellt das F1-Maß dar.[ | 385 | einer Klassifikation stellt das F1-Maß dar.[21] Dieses wird genutzt, um |
341 | ein optimiertes Verhältnis zwischen den gefundenen Treffern und den | 386 | ein optimiertes Verhältnis zwischen den gefundenen Treffern und den |
345 | 390 | ||
346 | 391 | [16]Formel 1: F1=2*P*RP+R | |
347 | 392 | ||
348 | [ | 393 | [17]Sind hier die Genauigkeit und die Trefferquote beim F1-Maß gleich |
349 | gewichtet, so ist auch jede andere Gewichtung denkbar. Die | 394 | gewichtet, so ist auch jede andere Gewichtung denkbar. Die |
352 | 397 | ||
353 | [17] | 398 | [18]Formel 2: P=|TP||TP|+|FP| |
354 | 399 | Formel 3: R=|TP||TP|+|FN| | |
355 | [18] | 400 | |
356 | 401 | [19]Anders als bei einer manuellen Klassifikation, bei der die Korrektheit einer Zuordnung | |
357 | [19]Eine automatisch durchgeführte Klassifikation führt jedoch dazu, dass | 402 | vorher ermittelt wird, ist das bei einer automatisch durchgeführten Klassifikation |
358 | das Ergebnis nicht (oder nur im Nachgang) manuell auf | 403 | – wenn überhaupt – erst im Nachgang möglich. Jedoch verändert jede zusätzliche Schreibvariante, |
359 | (Un-)Korrektheit hin überprüft werden kann. Durch die mittels | 404 | die einem Lemma zugeordnet wird, die Eigenschaften dieser Klasse. Dadurch, dass künftige |
360 | Klassifikation zusätzlich vorgenommene Verknüpfung kann sie die | 405 | Klassifikationen auf diese vorherigen Informationen zugreifen können, findet überwachtes |
361 | Eigenschaften der Klasse verändern oder erweitern. Dadurch, dass | 406 | Lernen statt. |
362 | künftige Klassifikationen auf diese vorherigen Informationen | 407 | |
363 | zugreifen können, findet überwachtes Lernen statt. | ||
364 | 408 | ||
367 | 2.3 Berufsklassifikationen | 411 | 2.3 Berufsklassifikationen |
412 | |||
368 | 413 | ||
383 | [21]Zur Klassifikation von Berufen existieren verschiedene Ansätze die bisher | 428 | [21]Zur Klassifikation von Berufen existieren verschiedene Ansätze die bisher |
384 | vor allem moderne internationale,[ | 429 | vor allem moderne internationale,[22] moderne deutschsprachige[23] oder historische englischsprachige[24] Berufsnamen führen. Von |
385 | diesen Standards wird häufig eine Vielzahl forschungsbasierter | 430 | diesen Standards wird häufig eine Vielzahl forschungsbasierter |
389 | weil die Anbindung an Standards die Nachvollziehbarkeit und | 434 | weil die Anbindung an Standards die Nachvollziehbarkeit und |
390 | Vergleichbarkeit von Forschungsergebnissen gewährleistet.[ | 435 | Vergleichbarkeit von Forschungsergebnissen gewährleistet.[25] Im deutschsprachigen Raum ist |
391 | vor allem die Klassifikation der Berufe 2010 (KldB 2010) beziehungsweise | 436 | vor allem die Klassifikation der Berufe 2010 (KldB 2010) beziehungsweise |
393 | Moeller auf viele historische, deutschsprachige Berufsbezeichnung | 438 | Moeller auf viele historische, deutschsprachige Berufsbezeichnung |
394 | angewendet.[ | 439 | angewendet.[26] Dieses |
395 | System wird im Weiteren Anwendung finden, da es für den | 440 | System wird im Weiteren Anwendung finden, da es für den |
396 | deutschsprachigen Raum die umfangreichste Lösung darstellt. Alternativ | 441 | deutschsprachigen Raum die umfangreichste Lösung darstellt. Für diese Arbeit wurde |
442 | der Stand der OhdAB vom 27. Mai 2020 verwendet (mit 183.381 Varianten). Alternativ | ||
397 | dazu könnte HISCO in Betracht gezogen werden. HISCO stellt die | 443 | dazu könnte HISCO in Betracht gezogen werden. HISCO stellt die |
399 | abgesehen, weil auf der offiziellen HISCO-Webpräsenz derzeit nur 1.306 | 445 | abgesehen, weil auf der offiziellen HISCO-Webpräsenz derzeit nur 1.306 |
400 | deutsche Berufsbezeichnungen genutzt werden.[24] Zudem enthält | 446 | deutsche Berufsbezeichnungen genutzt werden, während die OhdAB momentan 44.893 Normbezeichnungen |
447 | für deutschsprachige Berufe führt.[27] Zudem enthält | ||
401 | HISCO keine umfangreiche Zuordnung von Varianten eines Berufs, wodurch | 448 | HISCO keine umfangreiche Zuordnung von Varianten eines Berufs, wodurch |
406 | existieren im deutschsprachigen Raum historische | 453 | existieren im deutschsprachigen Raum historische |
407 | Berufsklassifikationen,[ | 454 | Berufsklassifikationen,[28] die in die OhdAB mit eingeflossen |
408 | sind. Beachtlich ist zudem die Systematisierung des Thesaurus | 455 | sind. Beachtlich ist zudem die Systematisierung des Thesaurus |
410 | Leichenpredigten der Forschungsstelle für Personalschriften der | 457 | Leichenpredigten der Forschungsstelle für Personalschriften der |
411 | Philipps-Universität Marburg zurückgehen.[26] | 458 | Philipps-Universität Marburg zurückgehen.[29] |
459 | |||
460 | |||
461 | |||
412 | 2.3.1 Klassifikation der Berufe 2010 | 462 | 2.3.1 Klassifikation der Berufe 2010 |
413 | 463 | ||
464 | |||
414 | [22]Die KldB 2010 teilt Berufe nach einer fünfgliedrigen | 465 | [22]Die KldB 2010 teilt Berufe nach einer fünfgliedrigen |
415 | Hierarchiestruktur ein.[ | 466 | Hierarchiestruktur ein.[30] Der Einsteller (Berufsbereiche) |
416 | gliedert die Berufe in grundlegende Themen.[ | 467 | gliedert die Berufe in grundlegende Themen.[31] Die nächsten drei Ebenen |
417 | (Berufshauptgruppen, Berufsgruppen und Berufsuntergruppen) | 468 | (Berufshauptgruppen, Berufsgruppen und Berufsuntergruppen) |
418 | beschreiben die berufsfachlichen Zusammenhänge.[ | 469 | beschreiben die berufsfachlichen Zusammenhänge.[32] Je stärker |
419 | zusammenhängende Fähigkeiten, Tätigkeiten und Kompetenzen zwischen | 470 | zusammenhängende Fähigkeiten, Tätigkeiten und Kompetenzen zwischen |
422 | Anforderungsniveau, sodass durch ihn unterschiedliche | 473 | Anforderungsniveau, sodass durch ihn unterschiedliche |
423 | Komplexitätsgrade desselben Berufs ausgedrückt werden können.[ | 474 | Komplexitätsgrade desselben Berufs ausgedrückt werden können.[33] Insgesamt |
424 | existieren auf der Ebene des Fünfstellers mittlerweile 1.900 | 475 | existieren auf der Ebene des Fünfstellers mittlerweile 1.900 |
425 | Berufsgattungen.[31] | 476 | Berufsgattungen.[34] |
477 | |||
478 | |||
479 | |||
480 | |||
426 | 481 | ||
429 | Stellensystem | 484 | Stellensystem |
485 | |||
430 | Bezeichnung für das Beispiel des Bäckers | 486 | Bezeichnung für das Beispiel des Bäckers |
487 | |||
431 | Gruppenbezeichnung | 488 | Gruppenbezeichnung |
489 | |||
432 | Anzahl der Gruppen über alle Berufsgattungen | 490 | Anzahl der Gruppen über alle Berufsgattungen |
434 | 492 | ||
493 | |||
435 | 1-Steller B 29222 | 494 | 1-Steller B 29222 |
495 | |||
436 | Rohstoffgewinnung, Produktion und Fertigung | 496 | Rohstoffgewinnung, Produktion und Fertigung |
497 | |||
437 | Berufsbereiche | 498 | Berufsbereiche |
499 | |||
438 | 10 Gruppen | 500 | 10 Gruppen |
440 | 502 | ||
503 | |||
441 | 2-Steller B 29222 | 504 | 2-Steller B 29222 |
505 | |||
442 | Lebensmittelherstellung und -verarbeitung | 506 | Lebensmittelherstellung und -verarbeitung |
507 | |||
443 | Berufshauptgruppen | 508 | Berufshauptgruppen |
509 | |||
444 | 72 Gruppen | 510 | 72 Gruppen |
446 | 512 | ||
513 | |||
447 | 3-Steller B 29222 | 514 | 3-Steller B 29222 |
515 | |||
448 | Lebensmittel- und Genussmittelherstellung | 516 | Lebensmittel- und Genussmittelherstellung |
517 | |||
449 | Berufsgruppen | 518 | Berufsgruppen |
519 | |||
450 | 260 Gruppen | 520 | 260 Gruppen |
452 | 522 | ||
523 | |||
453 | 4-Steller B 29222 | 524 | 4-Steller B 29222 |
525 | |||
454 | Berufe in der Back- und Konditoreiwarenherstellung | 526 | Berufe in der Back- und Konditoreiwarenherstellung |
527 | |||
455 | Berufsuntergruppen | 528 | Berufsuntergruppen |
529 | |||
456 | 941 Gruppen | 530 | 941 Gruppen |
458 | 532 | ||
533 | |||
459 | 5-Steller B 29222 | 534 | 5-Steller B 29222 |
535 | |||
460 | Berufe Back- und Konditoreiwarenherstellung - fachliche | 536 | Berufe Back- und Konditoreiwarenherstellung - fachliche |
463 | Anforderungsniveau | 539 | Anforderungsniveau |
540 | |||
464 | 1.900 Gruppen | 541 | 1.900 Gruppen |
542 | |||
465 | 543 | ||
468 | am Beispiel des Berufes Bäcker. [Goldberg / Moeller | 546 | am Beispiel des Berufes Bäcker. [Goldberg / Moeller |
469 | 2022][23]Einzelne Berufe sind in der KldB 2010 nicht aufgeführt, sondern in | 547 | 2022] |
548 | |||
549 | [23]Einzelne Berufe sind in der KldB 2010 nicht aufgeführt, sondern in | ||
470 | die entsprechenden Berufsgattungen einzuordnen; dennoch bietet diese | 550 | die entsprechenden Berufsgattungen einzuordnen; dennoch bietet diese |
474 | 554 | ||
555 | |||
475 | 2.3.2 Erweiterung um historische Berufe | 556 | 2.3.2 Erweiterung um historische Berufe |
557 | |||
476 | 558 | ||
537 | 619 | ||
620 | |||
538 | [27]Die Entwicklung eines Algorithmus ist notwendig, um die Vorgehensweisen | 621 | [27]Die Entwicklung eines Algorithmus ist notwendig, um die Vorgehensweisen |
542 | beleuchtet. Danach folgt eine Umsetzung der Schritte der Datenbereinigung | 625 | beleuchtet. Danach folgt eine Umsetzung der Schritte der Datenbereinigung |
543 | nach Müller und Freytag.[32] | 626 | nach Müller und Freytag.[35] |
627 | |||
628 | |||
629 | |||
544 | 3.1 Anforderungen das Ergebnis | 630 | 3.1 Anforderungen das Ergebnis |
545 | 631 | ||
632 | |||
546 | [28]Zunächst sollen möglichst viele Berufsangaben den richtigen Entitäten, im | 633 | [28]Zunächst sollen möglichst viele Berufsangaben den richtigen Entitäten, im |
547 | Weiteren ›Klassen‹, zugeordnet werden | 634 | Weiteren ›Klassen‹, zugeordnet werden. Ein Beruf stellt dabei eine |
548 | Klasse dar; die bekannten Schreibweisen (Varianten) wiederum sind die | 635 | Klasse dar; die bekannten Schreibweisen (Varianten) wiederum sind die |
555 | 642 | ||
643 | |||
644 | |||
556 | Abb. 1: Begriffe und Zusammenhänge des | 645 | Abb. 1: Begriffe und Zusammenhänge des |
557 | Algorithmus. [Goldberg / Moeller 2022] | 646 | Algorithmus. [Goldberg / Moeller 2022] |
647 | |||
648 | |||
649 | |||
558 | 650 | ||
586 | Anforderung, daraus den Beruf zu separieren. Möglicherweise sind auch | 678 | Anforderung, daraus den Beruf zu separieren. Möglicherweise sind auch |
587 | mehrere Berufsangaben verzeichnet, | 679 | mehrere Berufsangaben verzeichnet, die dann getrennt voneinander |
588 | erkannt werden sollten. Auch berufsferne oder berufsfremde Informationen | 680 | erkannt werden sollten. Auch berufsferne oder berufsfremde Informationen |
595 | 687 | ||
688 | |||
596 | 3.2 Methodik der Datenbereinigung | 689 | 3.2 Methodik der Datenbereinigung |
690 | |||
597 | 691 | ||
605 | von genealogischen Daten dar. In dieser Datenbank sind in etwa 13.000 | 699 | von genealogischen Daten dar. In dieser Datenbank sind in etwa 13.000 |
606 | Dateien und 22 Millionen Personen abgebildet.[ | 700 | Dateien und 22 Millionen Personen abgebildet.[36] Ein Teil dieser Dateien |
607 | ist von den Autoren zum öffentlichen Download freigegeben. | 701 | ist von den Autoren zum öffentlichen Download freigegeben. Die Ausführung eines Scrapers |
608 | | 702 | zur Sammlung der öffentlichen GEDCOM-Dateien in |
609 | GEDBAS | 703 | GEDBAS am 14.04.2020 erbrachte 2.899 Dateien.[37] Um die Berufsangaben aus den |
610 | Dateien zu erfassen, werden aus allen GEDCOM-Dateien die Berufsangaben | 704 | Dateien zu erfassen, werden aus allen GEDCOM-Dateien die Berufsangaben |
611 | (›OCCU‹-Tag) ausgelesen und in einer Liste zusammengefasst.[ | 705 | (›OCCU‹-Tag) ausgelesen und in einer Liste zusammengefasst.[38] Insgesamt werden auf diese Weise |
612 | 229.669 Berufsangaben ermittelt. Nach einer Eliminierung der mehrfachen | 706 | 229.669 Berufsangaben ermittelt. Nach einer Eliminierung der mehrfachen |
613 | Angaben bleiben 60.000 verschiedene Bezeichnungen übrig. | 707 | Angaben bleiben 60.000 verschiedene Bezeichnungen übrig. Dabei werden doppelte Token |
708 | gelöscht, sodass jeder Type einer Bezeichnung in der Liste nur einmal vorkommt. | ||
614 | 709 | ||
620 | insgesamt erkannt: | 715 | insgesamt erkannt: |
716 | |||
621 | 717 | ||
709 | 805 | ||
710 | | 806 | Titelangaben: Vom Beruf (und auch dem |
711 | Rechtsstatus) abzugrenzen sind Titel wie Adelstitel oder akademische | 807 | Rechtsstatus) abzugrenzen sind Titel wie Adelstitel oder akademische |
768 | 864 | ||
865 | |||
866 | |||
769 | 3.3 Ablauf der Datenbereinigung | 867 | 3.3 Ablauf der Datenbereinigung |
770 | 868 | ||
869 | |||
870 | |||
771 | 3.3.1 Normieren von Trennoperatoren | 871 | 3.3.1 Normieren von Trennoperatoren |
872 | |||
772 | 873 | ||
784 | - | 885 | - |
886 | |||
785 | 887 | ||
813 | eigentlichen Berufsangabe getrennt. Dennoch bleibt auch hier die | 915 | eigentlichen Berufsangabe getrennt. Dennoch bleibt auch hier die |
814 | Zusammengehörigkeit nachvollziehbar.[36] | 916 | Zusammengehörigkeit nachvollziehbar.[39] |
917 | |||
918 | |||
815 | [38]Es folgen Schritte zur Separierung berufsferner Angaben aus der | 919 | [38]Es folgen Schritte zur Separierung berufsferner Angaben aus der |
835 | 939 | ||
940 | |||
941 | |||
942 | |||
836 | 3.3.2 Entfernung von Leerzeichen | 943 | 3.3.2 Entfernung von Leerzeichen |
944 | |||
837 | 945 | ||
841 | 949 | ||
842 | 3.3.3 Ausformulierung von Abkürzungen | 950 | |
951 | 3.3.3 Auflösung von Abkürzungen | ||
952 | |||
843 | 953 | ||
848 | allgemeingültig erscheinen, werden an dieser Stelle dennoch bereits | 958 | allgemeingültig erscheinen, werden an dieser Stelle dennoch bereits |
849 | aufgenommen. Kommen sie vor, werden sie | 959 | aufgenommen. Kommen sie vor, werden sie aufgelöst. Das bedeutet, |
850 | dass dieses ausgeschrieben werden. Dies sind: | 960 | dass dieses ausgeschrieben werden. Dies sind: |
854 | ›Ing.‹ für ›Ingenieur‹ | 964 | ›Ing.‹ für ›Ingenieur‹ |
965 | |||
855 | 966 | ||
861 | eindeutiger Verwendung – bewusst so belassen, da sie später als | 972 | eindeutiger Verwendung – bewusst so belassen, da sie später als |
862 | | 973 | Titelangabe separiert wird. Auch trifft dieses auf die Abkürzungen |
863 | ›a. D.‹ und ›i. R.‹ zu, da diese den Berufsstatus beschreiben. | 974 | ›a. D.‹ und ›i. R.‹ zu, da diese den Berufsstatus beschreiben. |
864 | Ebenso werden weitere Abkürzungen, die für bestimmte Rollen häufig | 975 | Ebenso werden weitere Abkürzungen, die für bestimmte Rollen häufig |
865 | verwendet werden, nicht | 976 | verwendet werden, nicht aufgelöst (z. B. ›F. d.‹ oder ›T. d.‹, |
866 | für ›Frau des‹ oder ›Tochter des‹). Die OhdAB nimmt sicher | 977 | für ›Frau des‹ oder ›Tochter des‹). Die OhdAB nimmt sicher |
869 | 980 | ||
981 | |||
870 | 3.3.4 Definierte berufsferne Substantive | 982 | 3.3.4 Definierte berufsferne Substantive |
983 | |||
871 | 984 | ||
886 | 999 | ||
1000 | |||
887 | [43]Angaben, die Auskunft über den Besitz geben, werden hingegen der | 1001 | [43]Angaben, die Auskunft über den Besitz geben, werden hingegen der |
893 | 1007 | ||
1008 | |||
894 | 3.3.5 Lokale Präpositionen | 1009 | 3.3.5 Lokale Präpositionen |
1010 | |||
895 | 1011 | ||
914 | 1030 | ||
1031 | |||
915 | [45]Abgegrenzt von der Ortsangabe weisen folgende Ergänzungen der | 1032 | [45]Abgegrenzt von der Ortsangabe weisen folgende Ergänzungen der |
922 | 1039 | ||
1040 | |||
923 | [46]Des Weiteren werden folgende Adjektive, die keine lokale Präposition | 1041 | [46]Des Weiteren werden folgende Adjektive, die keine lokale Präposition |
924 | | 1042 | sind, ebenso in die Arbeitgeberkategorie separiert, aber nicht |
925 | aus dem weiter zu verarbeiteten String gelöscht, da sie einen | 1043 | aus dem weiter zu verarbeiteten String gelöscht, da sie einen |
935 | 1053 | ||
1054 | |||
1055 | |||
936 | 3.3.6 Separierung von Quellenangaben | 1056 | 3.3.6 Separierung von Quellenangaben |
1057 | |||
937 | 1058 | ||
946 | 1067 | ||
947 | 3.3.7 Titularangaben | 1068 | |
1069 | 3.3.7 Titelangaben | ||
1070 | |||
948 | 1071 | ||
949 | [48]Falls die Berufsangabe Informationen zum Titel enthält, werden diese | 1072 | [48]Falls die Berufsangabe Informationen zum Titel enthält, werden diese |
950 | in die Kategorie | 1073 | in die Kategorie Titelangaben separiert. |
951 | Wenn auf eine der nachfolgenden Zeichenketten ein Leerzeichen folgt, | 1074 | Wenn auf eine der nachfolgenden Zeichenketten ein Leerzeichen folgt, |
952 | so endet die | 1075 | so endet die Titelangabe mit dem Punkt. Eine Ausnahme besteht |
953 | darin, dass der nachfolgend durch Leerzeichen abgetrennte Teilstring | 1076 | darin, dass der nachfolgend durch Leerzeichen abgetrennte Teilstring |
954 | auch mit einem Punkt endet und somit eine Abkürzung darstellt. Hier | 1077 | auch mit einem Punkt endet und somit eine Abkürzung darstellt. Hier |
955 | wird auch dieser Teilstring in die | 1078 | wird auch dieser Teilstring in die Titelangabe mit eingebunden und |
956 | gelöscht. Das betrifft auch weitere nachfolgende Teilstrings (z. B. | 1079 | gelöscht. Das betrifft auch weitere nachfolgende Teilstrings (z. B. |
966 | 1089 | ||
967 | [49]Des Weiteren gibt es viele andere Titularangaben wie Titularherr, | 1090 | |
1091 | [49]Des Weiteren gibt es viele andere Titelangaben wie Titularherr, | ||
968 | Graf, Contesse, Gräfin, Freifrau, Freiherr etc. Sie können nach | 1092 | Graf, Contesse, Gräfin, Freifrau, Freiherr etc. Sie können nach |
971 | 1095 | ||
1096 | |||
972 | 3.3.8 Angaben zum Familienstand | 1097 | 3.3.8 Angaben zum Familienstand |
1098 | |||
973 | 1099 | ||
990 | 1116 | ||
1117 | |||
991 | [51]Dieses bezieht sich nicht auf definierte Ausnahmen, in denen dieses | 1118 | [51]Dieses bezieht sich nicht auf definierte Ausnahmen, in denen dieses |
1003 | 1130 | ||
1131 | |||
1132 | |||
1004 | 3.3.9 Temporale Präpositionen und Ziffern | 1133 | 3.3.9 Temporale Präpositionen und Ziffern |
1134 | |||
1005 | 1135 | ||
1013 | im Jahr | 1143 | im Jahr |
1144 | |||
1014 | 1145 | ||
1024 | 1155 | ||
1156 | |||
1025 | 3.3.10 Erkennung von Rollenangaben | 1157 | 3.3.10 Erkennung von Rollenangaben |
1158 | |||
1026 | 1159 | ||
1031 | / Helfer oder -helfer / Bursche oder -bursche | 1164 | / Helfer oder -helfer / Bursche oder -bursche |
1032 | |||
1033 | Lehrling oder -lehrling / Geselle oder -geselle | 1165 | Lehrling oder -lehrling / Geselle oder -geselle |
1037 | -oberältester | 1169 | -oberältester |
1038 | |||
1039 | Besitzer oder -besitzer / Eigentümer oder -eigentümer | 1170 | Besitzer oder -besitzer / Eigentümer oder -eigentümer |
1171 | |||
1040 | 1172 | ||
1047 | 1179 | ||
1180 | |||
1048 | 3.3.11 Berufsstatus | 1181 | 3.3.11 Berufsstatus |
1182 | |||
1049 | 1183 | ||
1058 | ›i. R.‹ oder ›i.R.‹ | 1192 | ›i. R.‹ oder ›i.R.‹ |
1059 | ›gewesene‹ oder ›gewesener‹[37] | 1193 | ›gewesene‹ oder ›gewesener‹[40] |
1194 | |||
1195 | |||
1060 | 1196 | ||
1067 | 1203 | ||
1204 | |||
1068 | 3.3.12 Separation von Angaben in Klammern | 1205 | 3.3.12 Separation von Angaben in Klammern |
1206 | |||
1069 | 1207 | ||
1077 | 1215 | ||
1216 | |||
1078 | 3.3.13 Löschung von Sonderzeichen | 1217 | 3.3.13 Löschung von Sonderzeichen |
1218 | |||
1079 | 1219 | ||
1082 | Sonderzeichen werden all jene Zeichen definiert, die keine Zahlen | 1222 | Sonderzeichen werden all jene Zeichen definiert, die keine Zahlen |
1083 | oder Buchstaben | 1223 | oder Buchstaben sind. Falls vor, nach oder vor und nach den |
1084 | Sonderzeichen ein Leerzeichen steht, so wird stattdessen ein | 1224 | Sonderzeichen ein Leerzeichen steht, so wird stattdessen ein |
1087 | 1227 | ||
1228 | |||
1088 | 3.3.14 Umsetzen der Kleinschreibung | 1229 | 3.3.14 Umsetzen der Kleinschreibung |
1230 | |||
1089 | 1231 | ||
1102 | [62]Die Ausführung der Verarbeitung (workflow execution) erfolgt nicht | 1244 | [62]Die Ausführung der Verarbeitung (workflow execution) erfolgt nicht |
1103 | iterativ, sondern einmalig.[ | 1245 | iterativ, sondern einmalig.[41] Um den |
1104 | Algorithmus auf die Angaben anzuwenden, ist eine Vorbereitung der | 1246 | Algorithmus auf die Angaben anzuwenden, ist eine Vorbereitung der |
1112 | 1254 | ||
1255 | |||
1113 | 3.4 Klassifizierung der Berufsangaben | 1256 | 3.4 Klassifizierung der Berufsangaben |
1257 | |||
1114 | 1258 | ||
1130 | al. empfehlen für die weitere Forschung eine Variation von verschiedenen | 1274 | al. empfehlen für die weitere Forschung eine Variation von verschiedenen |
1131 | Vergleichsmethoden.[ | 1275 | Vergleichsmethoden.[42] |
1132 | Folgend werden Möglichkeiten aufgezeigt, die im Abschnitt zur | 1276 | Folgend werden Möglichkeiten aufgezeigt, die im Abschnitt zur |
1140 | 1284 | ||
1285 | |||
1286 | |||
1287 | |||
1141 | 3.4.1 Levenshtein-Distanz absolut | 1288 | 3.4.1 Levenshtein-Distanz absolut |
1289 | |||
1142 | 1290 | ||
1152 | 1300 | ||
1301 | |||
1153 | 3.4.2 Levensthein-Distanz relativ | 1302 | 3.4.2 Levensthein-Distanz relativ |
1303 | |||
1154 | 1304 | ||
1164 | 1314 | ||
1165 | [67] | 1315 | [67]Formel 4: Levr(bi,vj)=Lev(bi,vj)Länge bi |
1316 | |||
1166 | 1317 | ||
1168 | 3.4.3 Erweiterung der Abkürzungserkennung | 1319 | 3.4.3 Erweiterung der Abkürzungserkennung |
1320 | |||
1169 | 1321 | ||
1171 | Abkürzungserkennung verglichen: Zum einen ist das der Algorithmus, | 1323 | Abkürzungserkennung verglichen: Zum einen ist das der Algorithmus, |
1172 | wie er zuvor vorgestellt worden ist ( | 1324 | wie er zuvor vorgestellt worden ist (Auflösung definierter |
1173 | Abkürzungen). Zum anderen aber wird eine Erweiterung dahingehend | 1325 | Abkürzungen). Zum anderen aber wird eine Erweiterung dahingehend |
1178 | ursprüngliche Levenshtein-Distanz vergleichsweise hoch ist. | 1330 | ursprüngliche Levenshtein-Distanz vergleichsweise hoch ist. |
1331 | |||
1179 | 1332 | ||
1199 | 1352 | ||
1353 | |||
1200 | 3.4.5 Ergänzung einer lernenden Komponente im Anschluss in einer | 1354 | 3.4.5 Ergänzung einer lernenden Komponente im Anschluss in einer |
1215 | 1369 | ||
1370 | |||
1216 | [71]Der im vorherigen Abschnitt beschrieben Algorithmus kann wie in Abbildung 2 | 1371 | [71]Der im vorherigen Abschnitt beschrieben Algorithmus kann wie in Abbildung 2 |
1217 | zu sehen graphisch dargestellt werden. | 1372 | zu sehen grafisch dargestellt werden. |
1373 | |||
1374 | |||
1218 | 1375 | ||
1222 | Nassi-Shneiderman-Diagramm. [Goldberg / Moeller 2022] | 1379 | Nassi-Shneiderman-Diagramm. [Goldberg / Moeller 2022] |
1380 | |||
1381 | |||
1382 | |||
1223 | 1383 | ||
1312 | 1472 | ||
1473 | |||
1474 | |||
1313 | Abb. 3: Zusammenhang der Funktionen. | 1475 | Abb. 3: Zusammenhang der Funktionen. |
1316 | 1478 | ||
1479 | |||
1480 | |||
1481 | |||
1317 | 5. Validierung und Diskussion | 1482 | 5. Validierung und Diskussion |
1483 | |||
1318 | 1484 | ||
1356 | Der Umfang dieser Berufsangaben an den Trainingsdaten ist jeweils den | 1522 | Der Umfang dieser Berufsangaben an den Trainingsdaten ist jeweils den |
1357 | Spalten ›Anzahl‹ und ›Anteil‹ zu entnehmen.[ | 1523 | Spalten ›Anzahl‹ und ›Anteil‹ zu entnehmen.[43] |
1358 | Besonders deutlich wird die Ungenauigkeit bei einer absoluten | 1524 | Besonders deutlich wird die Ungenauigkeit bei einer absoluten |
1367 | 1533 | ||
1534 | |||
1535 | |||
1368 | Lev | 1536 | Lev |
1537 | |||
1369 | Anzahl | 1538 | Anzahl |
1539 | |||
1370 | Anteil | 1540 | Anteil |
1541 | |||
1371 | TP | 1542 | TP |
1543 | |||
1372 | FP | 1544 | FP |
1545 | |||
1373 | P | 1546 | P |
1547 | |||
1374 | FN | 1548 | FN |
1549 | |||
1375 | TN | 1550 | TN |
1551 | |||
1376 | R | 1552 | R |
1553 | |||
1377 | F1 | 1554 | F1 |
1379 | 1556 | ||
1557 | |||
1380 | ≤ 1 | 1558 | ≤ 1 |
1559 | |||
1381 | 35 | 1560 | 35 |
1561 | |||
1382 | 1,88 % | 1562 | 1,88 % |
1563 | |||
1383 | 31 | 1564 | 31 |
1565 | |||
1384 | 4 | 1566 | 4 |
1567 | |||
1385 | 0,886 | 1568 | 0,886 |
1569 | |||
1386 | 7 | 1570 | 7 |
1571 | |||
1387 | 30 | 1572 | 30 |
1573 | |||
1388 | 0,816 | 1574 | 0,816 |
1575 | |||
1389 | 0,849 | 1576 | 0,849 |
1391 | 1578 | ||
1579 | |||
1392 | ≤ 2 | 1580 | ≤ 2 |
1581 | |||
1393 | 47 | 1582 | 47 |
1583 | |||
1394 | 2,53 % | 1584 | 2,53 % |
1585 | |||
1395 | 37 | 1586 | 37 |
1587 | |||
1396 | 9 | 1588 | 9 |
1589 | |||
1397 | 0,787 | 1590 | 0,787 |
1591 | |||
1398 | 1 | 1592 | 1 |
1593 | |||
1399 | 25 | 1594 | 25 |
1595 | |||
1400 | 0,974 | 1596 | 0,974 |
1597 | |||
1401 | 0,881 | 1598 | 0,881 |
1403 | 1600 | ||
1601 | |||
1404 | ≤ 3 | 1602 | ≤ 3 |
1603 | |||
1405 | 72 | 1604 | 72 |
1605 | |||
1406 | 3,87 % | 1606 | 3,87 % |
1607 | |||
1407 | 38 | 1608 | 38 |
1609 | |||
1408 | 34 | 1610 | 34 |
1611 | |||
1409 | 0,527 | 1612 | 0,527 |
1613 | |||
1410 | 0 | 1614 | 0 |
1615 | |||
1411 | 0 | 1616 | 0 |
1617 | |||
1412 | 1,000 | 1618 | 1,000 |
1619 | |||
1413 | 0,691 | 1620 | 0,691 |
1621 | |||
1414 | 1622 | ||
1417 | der Levenshtein-Distanz als Grenzwert. [Goldberg / Moeller | 1625 | der Levenshtein-Distanz als Grenzwert. [Goldberg / Moeller |
1418 | 2022][82]Bei einem Vergleich von verschiedenen Grenzwerten der relativen | 1626 | 2022] |
1627 | |||
1628 | |||
1629 | [82]Bei einem Vergleich von verschiedenen Grenzwerten der relativen | ||
1419 | Levenshtein-Distanz zeigt sich zudem, dass ein Wert zwischen 0,25 und 0,30 | 1630 | Levenshtein-Distanz zeigt sich zudem, dass ein Wert zwischen 0,25 und 0,30 |
1434 | sinnvoll. Bei Wörtern unter fünf Buchstaben führt mehr als eine Änderung | 1645 | sinnvoll. Bei Wörtern unter fünf Buchstaben führt mehr als eine Änderung |
1435 | bereits zu einem Wert von 0,25 und somit niemals zu einer Zuordnung.[ | 1646 | bereits zu einem Wert von 0,25 und somit niemals zu einer Zuordnung.[44] Eine weitere (erwünschte) Eigenschaft ist, |
1436 | dass bei vielen fremdsprachlichen Angaben, die als TN klassifiziert werden | 1647 | dass bei vielen fremdsprachlichen Angaben, die als TN klassifiziert werden |
1446 | 1657 | ||
1658 | |||
1659 | |||
1447 | Levr | 1660 | Levr |
1661 | |||
1448 | Anzahl | 1662 | Anzahl |
1663 | |||
1449 | Anteil | 1664 | Anteil |
1665 | |||
1450 | TP | 1666 | TP |
1667 | |||
1451 | FP | 1668 | FP |
1669 | |||
1452 | P | 1670 | P |
1671 | |||
1453 | FN | 1672 | FN |
1673 | |||
1454 | TN | 1674 | TN |
1675 | |||
1455 | R | 1676 | R |
1677 | |||
1456 | F1 | 1678 | F1 |
1458 | 1680 | ||
1681 | |||
1459 | < 0,10 | 1682 | < 0,10 |
1683 | |||
1460 | 10 | 1684 | 10 |
1685 | |||
1461 | 0,54 % | 1686 | 0,54 % |
1687 | |||
1462 | 10 | 1688 | 10 |
1689 | |||
1463 | 0 | 1690 | 0 |
1691 | |||
1464 | 1,000 | 1692 | 1,000 |
1693 | |||
1465 | 27 | 1694 | 27 |
1695 | |||
1466 | 20 | 1696 | 20 |
1697 | |||
1467 | 0,270 | 1698 | 0,270 |
1699 | |||
1468 | 0,426 | 1700 | 0,426 |
1470 | 1702 | ||
1703 | |||
1471 | < 0,20 | 1704 | < 0,20 |
1705 | |||
1472 | 34 | 1706 | 34 |
1707 | |||
1473 | 1,85 % | 1708 | 1,85 % |
1709 | |||
1474 | 31 | 1710 | 31 |
1711 | |||
1475 | 3 | 1712 | 3 |
1713 | |||
1476 | 0,912 | 1714 | 0,912 |
1715 | |||
1477 | 6 | 1716 | 6 |
1717 | |||
1478 | 17 | 1718 | 17 |
1719 | |||
1479 | 0,837 | 1720 | 0,837 |
1721 | |||
1480 | 0,873 | 1722 | 0,873 |
1482 | 1724 | ||
1725 | |||
1483 | < 0.25 | 1726 | < 0.25 |
1727 | |||
1484 | 37 | 1728 | 37 |
1729 | |||
1485 | 2,01 % | 1730 | 2,01 % |
1731 | |||
1486 | 33 | 1732 | 33 |
1733 | |||
1487 | 4 | 1734 | 4 |
1735 | |||
1488 | 0,892 | 1736 | 0,892 |
1737 | |||
1489 | 4 | 1738 | 4 |
1739 | |||
1490 | 16 | 1740 | 16 |
1741 | |||
1491 | 0,891 | 1742 | 0,891 |
1743 | |||
1492 | 0,892 | 1744 | 0,892 |
1494 | 1746 | ||
1747 | |||
1495 | < 0,28 | 1748 | < 0,28 |
1749 | |||
1496 | 39 | 1750 | 39 |
1751 | |||
1497 | 2,12 % | 1752 | 2,12 % |
1753 | |||
1498 | 33 | 1754 | 33 |
1755 | |||
1499 | 6 | 1756 | 6 |
1757 | |||
1500 | 0,846 | 1758 | 0,846 |
1759 | |||
1501 | 4 | 1760 | 4 |
1761 | |||
1502 | 14 | 1762 | 14 |
1763 | |||
1503 | 0,891 | 1764 | 0,891 |
1765 | |||
1504 | 0,868 | 1766 | 0,868 |
1506 | 1768 | ||
1769 | |||
1507 | < 0,30 | 1770 | < 0,30 |
1771 | |||
1508 | 41 | 1772 | 41 |
1773 | |||
1509 | 2,23 % | 1774 | 2,23 % |
1775 | |||
1510 | 35 | 1776 | 35 |
1777 | |||
1511 | 6 | 1778 | 6 |
1779 | |||
1512 | 0,878 | 1780 | 0,878 |
1781 | |||
1513 | 2 | 1782 | 2 |
1783 | |||
1514 | 14 | 1784 | 14 |
1785 | |||
1515 | 0,946 | 1786 | 0,946 |
1787 | |||
1516 | 0,897 | 1788 | 0,897 |
1518 | 1790 | ||
1791 | |||
1519 | < 0,40 | 1792 | < 0,40 |
1793 | |||
1520 | 57 | 1794 | 57 |
1795 | |||
1521 | 3,10 % | 1796 | 3,10 % |
1797 | |||
1522 | 37 | 1798 | 37 |
1799 | |||
1523 | 20 | 1800 | 20 |
1801 | |||
1524 | 0,649 | 1802 | 0,649 |
1803 | |||
1525 | 0 | 1804 | 0 |
1805 | |||
1526 | 0 | 1806 | 0 |
1807 | |||
1527 | 1,000 | 1808 | 1,000 |
1809 | |||
1528 | 0,787 | 1810 | 0,787 |
1811 | |||
1529 | 1812 | ||
1532 | des Grenzwerts einer relativen Levenshtein-Distanz. [Goldberg / Moeller | 1815 | des Grenzwerts einer relativen Levenshtein-Distanz. [Goldberg / Moeller |
1533 | 2022][84]Nachteilig ist, dass Abkürzungen so nicht erkannt werden, da die absolute | 1816 | 2022] |
1817 | |||
1818 | |||
1819 | [84]Nachteilig ist, dass Abkürzungen so nicht erkannt werden, da die absolute | ||
1534 | Levenshtein-Distanz zwischen einem Begriff und seiner Abkürzung | 1820 | Levenshtein-Distanz zwischen einem Begriff und seiner Abkürzung |
1547 | des Ergebnisses zu prüfen, werden die Testdaten verwendet (229.669 | 1833 | des Ergebnisses zu prüfen, werden die Testdaten verwendet (229.669 |
1548 | Berufsangaben in 2.899 Dateien).[ | 1834 | Berufsangaben in 2.899 Dateien).[45] Hier |
1549 | werden nicht die Trainingsdaten verwendet, sondern alle Daten, weil | 1835 | werden nicht die Trainingsdaten verwendet, sondern alle Daten, weil |
1568 | 1854 | ||
1855 | |||
1856 | |||
1857 | |||
1569 | Direkt gefunden | 1858 | Direkt gefunden |
1859 | |||
1570 | Ähnlichkeitsanalyse | 1860 | Ähnlichkeitsanalyse |
1861 | |||
1571 | Nicht gefunden | 1862 | Nicht gefunden |
1863 | |||
1572 | Leere Bezeichnungen | 1864 | Leere Bezeichnungen |
1574 | 1866 | ||
1867 | |||
1575 | mit Bereinigung (insgesamt 229.669 Angaben) | 1868 | mit Bereinigung (insgesamt 229.669 Angaben) |
1577 | 1870 | ||
1871 | |||
1578 | Anzahl | 1872 | Anzahl |
1873 | |||
1579 | 147.781 | 1874 | 147.781 |
1875 | |||
1580 | 9.674 | 1876 | 9.674 |
1877 | |||
1581 | 68.955 | 1878 | 68.955 |
1879 | |||
1582 | 3.259 | 1880 | 3.259 |
1584 | 1882 | ||
1883 | |||
1585 | Anteil | 1884 | Anteil |
1885 | |||
1586 | 64,35 % | 1886 | 64,35 % |
1887 | |||
1587 | 4,21 % | 1888 | 4,21 % |
1889 | |||
1588 | 30,02 % | 1890 | 30,02 % |
1891 | |||
1589 | 1,42 % | 1892 | 1,42 % |
1591 | 1894 | ||
1895 | |||
1592 | ohne Bereinigung (insgesamt 229.669 Angaben) | 1896 | ohne Bereinigung (insgesamt 229.669 Angaben) |
1594 | 1898 | ||
1899 | |||
1595 | Anzahl | 1900 | Anzahl |
1901 | |||
1596 | 131.064 | 1902 | 131.064 |
1903 | |||
1597 | 9.160 | 1904 | 9.160 |
1905 | |||
1598 | 86.344 | 1906 | 86.344 |
1907 | |||
1599 | 3.101 | 1908 | 3.101 |
1601 | 1910 | ||
1911 | |||
1602 | Anteil | 1912 | Anteil |
1913 | |||
1603 | 57,07 % | 1914 | 57,07 % |
1915 | |||
1604 | 3,99 % | 1916 | 3,99 % |
1917 | |||
1605 | 37,59 % | 1918 | 37,59 % |
1919 | |||
1606 | 1,35 % | 1920 | 1,35 % |
1608 | 1922 | ||
1923 | |||
1609 | Tab. 5: Vergleich des Effektes der | 1924 | Tab. 5: Vergleich des Effektes der |
1610 | Bereinigung auf die Erkennung. [Goldberg / Moeller 2022][86]Die durch die Ähnlichkeitsanalyse zugeordneten Berufsangaben können, da diese | 1925 | Bereinigung auf die Erkennung. [Goldberg / Moeller 2022] |
1926 | |||
1927 | |||
1928 | [86]Die durch die Ähnlichkeitsanalyse zugeordneten Berufsangaben können, da diese | ||
1611 | als Variante noch nicht existieren, in der Variantenliste ergänzt werden. | 1929 | als Variante noch nicht existieren, in der Variantenliste ergänzt werden. |
1617 | Verarbeitung ein besseres Ergebnis in Bezug auf das F1-Maß ergibt als die | 1935 | Verarbeitung ein besseres Ergebnis in Bezug auf das F1-Maß ergibt als die |
1618 | kontinuierliche Ergänzung (siehe Tabelle 6).[ | 1936 | kontinuierliche Ergänzung (siehe Tabelle 6).[46] Zwar kann bei dieser Option eine |
1619 | niedrigere Genauigkeit (P) beobachtet werden, doch sorgt die große Anzahl | 1937 | niedrigere Genauigkeit (P) beobachtet werden, doch sorgt die große Anzahl |
1631 | darauf zurückzuführen, dass bereits sehr viele Schreibversionen in den | 1949 | darauf zurückzuführen, dass bereits sehr viele Schreibversionen in den |
1632 | zugrundeliegenden Varianten der OhdAB abgedeckt sind. Bei einer zufälligen | 1950 | zugrundeliegenden Varianten der OhdAB abgedeckt sind. Bei einer zufälligen Halbierung |
1633 | | 1951 | der in der OhdAB vorhandenen Varianten steigt der Anteil der so zusätzlich erkannten |
1634 | | 1952 | Angaben deutlich um 8,80 Prozent (von 4,21 Prozent auf 12,01 Prozent). Werden diese |
1635 | | 1953 | lemmatisierten Varianten in einem zweiten Durchlauf |
1636 | zur Gesamtzahl der Varianten ergänzt, können weitere Berufsbezeichnungen | 1954 | zur Gesamtzahl der Varianten ergänzt, können weitere Berufsbezeichnungen |
1641 | 1959 | ||
1960 | |||
1961 | |||
1642 | Verfahren | 1962 | Verfahren |
1963 | |||
1643 | Anzahl | 1964 | Anzahl |
1965 | |||
1644 | Anteil | 1966 | Anteil |
1645 | Rate of TP in % | 1967 | |
1646 | Rate of FP in % | 1968 | TP-Rate in % |
1969 | |||
1970 | FP-Rate in % | ||
1971 | |||
1647 | P | 1972 | P |
1973 | |||
1648 | FN | 1974 | FN |
1975 | |||
1649 | R | 1976 | R |
1977 | |||
1650 | F1 | 1978 | F1 |
1652 | 1980 | ||
1981 | |||
1653 | Analyse mit sämtlichen ursprünglichen Varianten | 1982 | Analyse mit sämtlichen ursprünglichen Varianten |
1655 | 1984 | ||
1985 | |||
1656 | Ohne Lernen | 1986 | Ohne Lernen |
1987 | |||
1657 | 9.674 | 1988 | 9.674 |
1989 | |||
1658 | 4,21 % | 1990 | 4,21 % |
1991 | |||
1659 | 88 | 1992 | 88 |
1993 | |||
1660 | 12 | 1994 | 12 |
1995 | |||
1661 | 0.88 | 1996 | 0.88 |
1997 | |||
1662 | 5.943 | 1998 | 5.943 |
1999 | |||
1663 | 0,59 | 2000 | 0,59 |
2001 | |||
1664 | 0,71 | 2002 | 0,71 |
1666 | 2004 | ||
1667 | Kontinuierlich lernen (4x Multiprocessing[44]) | 2005 | |
2006 | Kontinuierlich lernen (4x Multiprocessing[47]) | ||
1668 | 2007 | ||
1669 | 10.128 | 2008 | 10.128 |
2009 | |||
1670 | 4,41 % | 2010 | 4,41 % |
2011 | |||
1671 | 86 | 2012 | 86 |
2013 | |||
1672 | 14 | 2014 | 14 |
2015 | |||
1673 | 0.86 | 2016 | 0.86 |
2017 | |||
1674 | 5.489 | 2018 | 5.489 |
2019 | |||
1675 | 0,61 | 2020 | 0,61 |
2021 | |||
1676 | 0,71 | 2022 | 0,71 |
1678 | 2024 | ||
2025 | |||
1679 | Iterativ lernend (1x) | 2026 | Iterativ lernend (1x) |
2027 | |||
1680 | 11.185 | 2028 | 11.185 |
2029 | |||
1681 | 4,87 % | 2030 | 4,87 % |
2031 | |||
1682 | 83 | 2032 | 83 |
2033 | |||
1683 | 17 | 2034 | 17 |
2035 | |||
1684 | 0.83 | 2036 | 0.83 |
2037 | |||
1685 | 4.432 | 2038 | 4.432 |
2039 | |||
1686 | 0,68 | 2040 | 0,68 |
2041 | |||
1687 | 0,75 | 2042 | 0,75 |
1689 | 2044 | ||
2045 | |||
1690 | Iterativ lernend (2x) | 2046 | Iterativ lernend (2x) |
2047 | |||
1691 | 15.617 | 2048 | 15.617 |
2049 | |||
1692 | 6,80 % | 2050 | 6,80 % |
2051 | |||
1693 | 83 | 2052 | 83 |
2053 | |||
1694 | 17 | 2054 | 17 |
2055 | |||
1695 | 0.83 | 2056 | 0.83 |
2057 | |||
1696 | 0 | 2058 | 0 |
2059 | |||
1697 | 1,00 | 2060 | 1,00 |
2061 | |||
1698 | 0,91 | 2062 | 0,91 |
2063 | |||
1699 | 2064 | ||
1706 | Ohne Lernen | 2071 | Ohne Lernen |
2072 | |||
1707 | 27.583 | 2073 | 27.583 |
2074 | |||
1708 | 12,01 % | 2075 | 12,01 % |
2076 | |||
1709 | 80 | 2077 | 80 |
2078 | |||
1710 | 20 | 2079 | 20 |
2080 | |||
1711 | 0,80 | 2081 | 0,80 |
2082 | |||
1712 | 6.086 | 2083 | 6.086 |
2084 | |||
1713 | 0,78 | 2085 | 0,78 |
2086 | |||
1714 | 0,79 | 2087 | 0,79 |
1716 | 2089 | ||
2090 | |||
1717 | Kontinuierlich lernen (4x Multiprocessing) | 2091 | Kontinuierlich lernen (4x Multiprocessing) |
2092 | |||
1718 | 27.882 | 2093 | 27.882 |
2094 | |||
1719 | 12,14 % | 2095 | 12,14 % |
2096 | |||
1720 | 86 | 2097 | 86 |
2098 | |||
1721 | 14 | 2099 | 14 |
2100 | |||
1722 | 0,86 | 2101 | 0,86 |
2102 | |||
1723 | 5.787 | 2103 | 5.787 |
2104 | |||
1724 | 0,81 | 2105 | 0,81 |
2106 | |||
1725 | 0,83 | 2107 | 0,83 |
1727 | 2109 | ||
2110 | |||
1728 | Iterativ lernend (1x) | 2111 | Iterativ lernend (1x) |
2112 | |||
1729 | 32.774 | 2113 | 32.774 |
2114 | |||
1730 | 14,27 % | 2115 | 14,27 % |
2116 | |||
1731 | 76 | 2117 | 76 |
2118 | |||
1732 | 24 | 2119 | 24 |
2120 | |||
1733 | 0,76 | 2121 | 0,76 |
2122 | |||
1734 | 895 | 2123 | 895 |
2124 | |||
1735 | 0,97 | 2125 | 0,97 |
2126 | |||
1736 | 0,85 | 2127 | 0,85 |
1738 | 2129 | ||
2130 | |||
1739 | Iterativ lernend (2x) | 2131 | Iterativ lernend (2x) |
2132 | |||
1740 | 33.669 | 2133 | 33.669 |
2134 | |||
1741 | 14,66 % | 2135 | 14,66 % |
2136 | |||
1742 | 83 | 2137 | 83 |
2138 | |||
1743 | 17 | 2139 | 17 |
2140 | |||
1744 | 0,83 | 2141 | 0,83 |
2142 | |||
1745 | 0 | 2143 | 0 |
2144 | |||
1746 | 1,00 | 2145 | 1,00 |
2146 | |||
1747 | 0,91 | 2147 | 0,91 |
2148 | |||
1748 | 2149 | ||
1752 | Halbierung der zugrundeliegenden Berufsvarianten der OhdAB. [Goldberg / | 2153 | Halbierung der zugrundeliegenden Berufsvarianten der OhdAB. [Goldberg / |
1753 | Moeller 2022][88]Durch den Algorithmus – und dessen programmtechnische Umsetzung – wird in der | 2154 | Moeller 2022] |
2155 | |||
2156 | |||
2157 | [88]Durch den Algorithmus – und dessen programmtechnische Umsetzung – wird in der | ||
1754 | Folge eine automatisierte Lösung zur Lemmatisierung deutschsprachiger | 2158 | Folge eine automatisierte Lösung zur Lemmatisierung deutschsprachiger |
1772 | angewendeten Spezifizierung der Ähnlichkeitsanalyse mit einer FP-Rate von 17 | 2176 | angewendeten Spezifizierung der Ähnlichkeitsanalyse mit einer FP-Rate von 17 |
1773 | Prozent zu rechnen ist. Daraus ergibt sich eine FP-Rate von etwa 98 | 2177 | Prozent zu rechnen ist. Daraus ergibt sich eine TP-Rate über alle erkannten Berufe |
1774 | Prozent.[45] Zudem ist es durch den | 2178 | von etwa 98 |
2179 | Prozent.[48] Zudem ist es durch den | ||
1775 | Algorithmus möglich, berufsferne Angaben von der eigentlichen Bezeichnung | 2180 | Algorithmus möglich, berufsferne Angaben von der eigentlichen Bezeichnung |
1782 | 6. Zusammenfassung | 2187 | 6. Zusammenfassung |
2188 | |||
1783 | 2189 | ||
1798 | Schreibvarianten | 2204 | Schreibvarianten |
1799 | |||
1800 | die Implementierung einer Erweiterung von Abkürzungen und | 2205 | die Implementierung einer Erweiterung von Abkürzungen und |
1842 | 2247 | ||
1843 | |||
1844 | Fußnoten | 2248 | Fußnoten |
1847 | [1] | 2251 | [1] |
1848 | |||
1849 | Damit weicht der hier verwendete Begriff von der | 2252 | Damit weicht der hier verwendete Begriff von der |
1853 | 2256 | ||
1854 | |||
1855 | [2] | 2257 | [2] |
1856 | |||
1857 | Moeller 2019, | 2258 | Moeller 2019, |
1859 | 2260 | ||
1860 | |||
1861 | [3] | 2261 | [3] |
1862 | |||
1863 | Cosca | 2262 | Cosca |
1867 | 2266 | ||
1868 | |||
1869 | [4] | 2267 | [4] |
1870 | |||
1871 | Moeller et al. | 2268 | Moeller et al. |
1876 | 2273 | ||
1877 | |||
1878 | [5] | 2274 | [5] |
1881 | 2277 | ||
1882 | |||
1883 | [6] | 2278 | [6] |
1884 | |||
1885 | Hinschius 1874, S. 41, 61f. u. | 2279 | Hinschius 1874, S. 41, 61f. u. |
1887 | 2281 | ||
1888 | |||
1889 | [7] | 2282 | [7] |
1890 | |||
1891 | Kocka et al. 2000; | 2283 | Kocka et al. 2000; |
1893 | 2285 | ||
1894 | |||
1895 | [8] | 2286 | [8] |
1896 | |||
1897 | Böhmen 1790, S. 29; Wurden | 2287 | Böhmen 1790, S. 29; Wurden |
1904 | 2294 | ||
1905 | |||
1906 | [9] | 2295 | [9] |
1910 | 2299 | ||
1911 | |||
1912 | [10] | 2300 | [10] |
1913 | |||
1914 | Church of Jesus Christ of | 2301 | Church of Jesus Christ of |
1916 | 2303 | ||
1917 | |||
1918 | [11] | 2304 | [11] |
1919 | |||
1920 | Rahm / Do 2000, S. 1. | 2305 | Rahm / Do 2000, S. 1. |
1921 | 2306 | ||
1922 | |||
1923 | [12] | 2307 | [12] |
1926 | 2310 | ||
1927 | |||
1928 | [13] | 2311 | [13] |
1929 | |||
1930 | Müller / Freytag 2003, S. 10–13. | 2312 | Müller / Freytag 2003, S. 10–13. |
1931 | |||
1932 | 2313 | ||
1937 | 2318 | ||
1938 | |||
1939 | [15] | 2319 | [15] |
1942 | 2322 | ||
1943 | |||
1944 | [16] | 2323 | [16] |
1945 | |||
1946 | Piotrowski 2012, S. 71. | 2324 | Piotrowski 2012, S. 71. |
1947 | 2325 | ||
1948 | |||
1949 | [17] | 2326 | [17] |
1950 | |||
1951 | Levenštejn 1966. | 2327 | Levenštejn 1966. |
1952 | 2328 | ||
1953 | |||
1954 | [18] | 2329 | [18] |
2330 | Vgl. Hauser / Schulz 2007. | ||
2331 | |||
2332 | [19] | ||
2333 | Vgl. Hosseini et al. 2020; Tam et al. 2019. | ||
2334 | |||
2335 | [20] | ||
2336 | Vgl. Jurish 2012. | ||
2337 | |||
2338 | [21] | ||
1955 | 2339 | ||
1957 | 2341 | ||
1958 | 2342 | [22] | |
1959 | [19] | ||
1960 | 2343 | ||
1963 | 2346 | ||
1964 | 2347 | [23] | |
1965 | [20] | ||
1966 | |||
1967 | Klassifikation der Berufe (KldB), Bundesagentur für | 2348 | Klassifikation der Berufe (KldB), Bundesagentur für |
1969 | 2350 | ||
1970 | 2351 | [24] | |
1971 | [21] | ||
1972 | 2352 | ||
1976 | 2356 | ||
1977 | 2357 | [25] | |
1978 | [22] | ||
1979 | |||
1980 | Moeller 2019. | 2358 | Moeller 2019. |
1981 | 2359 | ||
1982 | 2360 | [26] | |
1983 | [23] | ||
1984 | |||
1985 | Moeller et al. 2020. | 2361 | Moeller et al. 2020. |
1986 | 2362 | ||
1987 | 2363 | [27] | |
1988 | [24] | ||
1989 | 2364 | ||
1991 | 2366 | ||
1992 | 2367 | [28] | |
1993 | [25] | ||
1994 | |||
1995 | Vgl. | 2368 | Vgl. |
1996 | Schüren 1989; | 2369 | Schüren 1989; |
1997 | Brandenburg et al. 1993. | 2370 | Arbeitskreis für Wirtschafts- und Sozialgeschichte Schleswig-Holsteins 1991. |
1998 | 2371 | ||
1999 | 2372 | [29] | |
2000 | [26] | 2373 | |
2001 | 2374 | Philipps-Universität Marburg, | |
2002 | 2375 | Forschungsstelle für Personalschriften (Hg.) 2021. | |
2003 | Forschungsstelle für Personalschriften 2021. | 2376 | |
2004 | 2377 | [30] | |
2005 | |||
2006 | [27] | ||
2007 | |||
2008 | Bundesagentur für | 2378 | Bundesagentur für |
2010 | 2380 | ||
2011 | 2381 | [31] | |
2012 | [28] | ||
2013 | 2382 | ||
2015 | 2384 | ||
2016 | 2385 | [32] | |
2017 | [29] | ||
2018 | |||
2019 | Paulus / Matthes 2013, S. 8. | 2386 | Paulus / Matthes 2013, S. 8. |
2020 | 2387 | ||
2021 | 2388 | [33] | |
2022 | [30] | ||
2023 | |||
2024 | Paulus / Matthes 2013, S. 9f. | 2389 | Paulus / Matthes 2013, S. 9f. |
2025 | 2390 | ||
2026 | 2391 | [34] | |
2027 | [31] | ||
2028 | |||
2029 | Bundesagentur für Arbeit (Hg.) 2011, S. 18. | 2392 | Bundesagentur für Arbeit (Hg.) 2011, S. 18. |
2030 | 2393 | ||
2031 | 2394 | [35] | |
2032 | [32] | ||
2033 | |||
2034 | Müller / Freytag 2003. | 2395 | Müller / Freytag 2003. |
2035 | 2396 | ||
2036 | |||
2037 | [33] | ||
2038 | |||
2039 | |||
2040 | Verein für Computergenealogie 2021. | ||
2041 | |||
2042 | |||
2043 | [34] | ||
2044 | |||
2045 | Siehe den entsprechenden Programmcode im Online-Repositorium. | ||
2046 | |||
2047 | |||
2048 | [35] | ||
2049 | |||
2050 | Siehe den entsprechenden Programmcode im Online-Repositorium. | ||
2051 | |||
2052 | |||
2053 | [36] | 2397 | [36] |
2054 | 2398 | ||
2399 | GEDBAS, Verein für Computergenealogie (Hg.) 2021. | ||
2400 | |||
2401 | [37] | ||
2402 | Siehe den entsprechenden Programmcode in | ||
2403 | (Online-Repo). [verlinken] | ||
2404 | |||
2405 | [38] | ||
2406 | Siehe den entsprechenden Programmcode in | ||
2407 | (Online-Repo). [verlinken] | ||
2408 | |||
2409 | [39] | ||
2055 | 2410 | ||
2061 | 2416 | ||
2062 | 2417 | [40] | |
2063 | [37] | ||
2064 | |||
2065 | Hier ist zu | 2418 | Hier ist zu |
2068 | 2421 | ||
2069 | 2422 | [41] | |
2070 | [38] | ||
2071 | |||
2072 | Bei der | 2423 | Bei der |
2077 | 2428 | ||
2078 | 2429 | [42] | |
2079 | [39] | 2430 | Kirby et al. 2015, S. 58. |
2080 | 2431 | ||
2081 | Kirby 2015, S. 58. | 2432 | [43] |
2082 | |||
2083 | [40] | ||
2084 | |||
2085 | Da ein | 2433 | Da ein |
2089 | 2437 | ||
2090 | 2438 | [44] | |
2091 | [41] | ||
2092 | |||
2093 | Allerdings existieren nur wenige Berufsbezeichnungen | 2439 | Allerdings existieren nur wenige Berufsbezeichnungen |
2095 | 2441 | ||
2096 | 2442 | [45] | |
2097 | [42] | ||
2098 | |||
2099 | Das entspricht den | 2443 | Das entspricht den |
2101 | 2445 | ||
2102 | 2446 | [46] | |
2103 | [43] | ||
2104 | |||
2105 | Von den durch die Ähnlichkeitsanalyse erkannten Daten | 2447 | Von den durch die Ähnlichkeitsanalyse erkannten Daten |
2111 | 2453 | ||
2112 | 2454 | [47] | |
2113 | [44] | ||
2114 | |||
2115 | 2455 | ||
2121 | 2461 | ||
2122 | 2462 | [48] | |
2123 | [45] | 2463 | Berechnung der TP-Rate: |
2124 | |||
2125 | Berechnung der FP-Rate: | ||
2126 | (65,27*1+6,90*0,83) / (65,27+6,90) = 0.98. | 2464 | (65,27*1+6,90*0,83) / (65,27+6,90) = 0.98. |
2132 | 2470 | ||
2133 | Bibliographische Angaben | 2471 | Bibliografische Angaben |
2134 | 2472 | ||
2135 | 2473 | ||
2136 | Adam Friedrich Böhmen: Anleitung wie Kirchenbücher | 2474 | |
2475 | |||
2476 | Arbeitskreis für Wirtschafts- und Sozialgeschichte Schleswig-Holsteins: Berufe in | ||
2477 | Altona 1803. Berufssystematik für eine präindustrielle Stadtgesellschaft anhand der | ||
2478 | Volkszählung. Kiel 1991. (= Kleine Schriften des Arbeitskreises für Wirtschafts- und | ||
2479 | Sozialgeschichte Schleswig-Holsteins, 1). [Nachweis im GVK] | ||
2480 | |||
2481 | Adam Friedrich Böhme: Anleitung wie Kirchenbücher | ||
2137 | zweckmäsig und ordentlich einzurichten sind. Leipzig 1790. [online] [Nachweis im GVK] | 2482 | zweckmäsig und ordentlich einzurichten sind. Leipzig 1790. [online] [Nachweis im GVK] |
2483 | |||
2484 | Marcel Bollmann: A Large-Scale Comparison of Historical Text Normalization Systems. | ||
2485 | In: Proceedings of the 2019 Conference of the North American Chapter of the Association | ||
2486 | for Computational Linguistics: Human Language Technologies. Bd. 1:_ Long and Short | ||
2487 | Papers. Hg. von Association for Computational Linguistics. (NAACL 2019, Minneapolis, | ||
2488 | MN, 02.07.–07.07.2019). Minneapolis, MN, Juni 2019, S. 3885–3898. PDF. DOI: 10.18653/v1/N19-1389 | ||
2489 | |||
2138 | Klassifikationen der Berufe - | 2490 | Klassifikationen der Berufe - |
2140 | 2021. [online] | 2492 | 2021. [online] |
2493 | |||
2141 | Klassifikation der Berufe, Hg. von Bundesagentur für Arbeit. | 2494 | Klassifikation der Berufe, Hg. von Bundesagentur für Arbeit. |
2143 | mit Erläuterungen. [Nachweis im GVK] | 2496 | mit Erläuterungen. [Nachweis im GVK] |
2497 | |||
2144 | Peter Christen / Karl Goiser: Quality and Complexity | 2498 | Peter Christen / Karl Goiser: Quality and Complexity |
2147 | 2007, S. 127–151. [Nachweis im GVK] | 2501 | 2007, S. 127–151. [Nachweis im GVK] |
2502 | |||
2148 | Church of Jesus Christ of Latter-day Saints: The GEDCOM | 2503 | Church of Jesus Christ of Latter-day Saints: The GEDCOM |
2149 | Standard. Release 5.5.1. 2019. | 2504 | Standard. Release 5.5.1. 2019. PDF. [online] |
2505 | |||
2150 | Theresa Cosca / Alissa Emmel: Revising the Standard | 2506 | Theresa Cosca / Alissa Emmel: Revising the Standard |
2152 | review 133 (2010), S. 32–41. PDF. [online] [Nachweis im GVK] | 2508 | review 133 (2010), S. 32–41. PDF. [online] [Nachweis im GVK] |
2509 | |||
2153 | Jyldyz Djumalieva / Antonio Lima / Cath Sleeman: | 2510 | Jyldyz Djumalieva / Antonio Lima / Cath Sleeman: |
2155 | Advertisements. 2018. [online] | 2512 | Advertisements. 2018. [online] |
2513 | |||
2514 | Miguel Domingo / Francisco Casacuberta: Two Demonstrations of the Machine Translation | ||
2515 | Applications to Historical Documents. 02.02.2021. PDF. DOI: 10.48550/arXiv.2102.01417 | ||
2516 | |||
2156 | Michael Dunn: Language phylogenies. In: The Routledge | 2517 | Michael Dunn: Language phylogenies. In: The Routledge |
2158 | Bethwyn Evans. London u. a. 2015, S. 190–192. [Nachweis im GVK] | 2519 | Bethwyn Evans. London u. a. 2015, S. 190–192. [Nachweis im GVK] |
2520 | |||
2159 | Tom Fawcett: An introduction to ROC analysis. In: | 2521 | Tom Fawcett: An introduction to ROC analysis. In: |
2161 | 27 (2006), H. 8, S. 861–874. [Nachweis im GVK] | 2523 | 27 (2006), H. 8, S. 861–874. [Nachweis im GVK] |
2524 | |||
2162 | Corry Gellatly: Reconstructing Historical Populations | 2525 | Corry Gellatly: Reconstructing Historical Populations |
2164 | Gerrit Bloothooft et al. Cham 2015, S. 111–128. [Nachweis im GVK] | 2527 | Gerrit Bloothooft et al. Cham 2015, S. 111–128. [Nachweis im GVK] |
2528 | |||
2165 | Metzler Lexikon Sprache. Hg. von Helmut Glück. 2., | 2529 | Metzler Lexikon Sprache. Hg. von Helmut Glück. 2., |
2166 | überarbeitete und erweiterte Auflage. Stuttgart u. a. 2000. [Nachweis im GVK] | 2530 | überarbeitete und erweiterte Auflage. Stuttgart u. a. 2000. [Nachweis im GVK] |
2531 | |||
2167 | Hyukjun Gweon / Matthias Schonlau / Lars Kaczmirek / | 2532 | Hyukjun Gweon / Matthias Schonlau / Lars Kaczmirek / |
2170 | (2017), H. 1, S. 101–122. DOI:10.1515/jos-2017-0006 [Nachweis im GVK] | 2535 | (2017), H. 1, S. 101–122. DOI:10.1515/jos-2017-0006 [Nachweis im GVK] |
2536 | |||
2171 | J. Tuomas Harviainen / Bo-Christer Björk: Genealogy, | 2537 | J. Tuomas Harviainen / Bo-Christer Björk: Genealogy, |
2172 | GEDCOM, and popularity implications. In: Informaatiotutkimus 37 | 2538 | GEDCOM, and popularity implications. In: Informaatiotutkimus 37 |
2173 | (2018), H. 3, S. 4–14. Artikel vom 29.10.2018. DOI: 10.23978/inf.76066 [Nachweis im GVK] | 2539 | (2018), H. 3, S. 4–14. Artikel vom 29.10.2018. DOI: 10.23978/inf.76066 |
2540 | |||
2541 | Andreas W. Hauser / Klaus U. Schulz: Unsupervised Learning of Edit Distance Weights | ||
2542 | for Retrieving Historical Spelling Variations. In: Finite-state Techniques and Approximate | ||
2543 | Search. International Workshop. Hg. von Stoyan Mihov / Klaus U. Schulz. (International | ||
2544 | Workshop, International Conference RANLP 2007, Borovets, BG, 27.09.–29.09.2007). Borovets, | ||
2545 | BG, 30.09.2007, S. 1–6. PDF. [online] | ||
2546 | |||
2174 | Paul Hinschius: Das preußische Gesetz über die | 2547 | Paul Hinschius: Das preußische Gesetz über die |
2176 | 9. März 1874 mit Kommentar in Anmerkungen. Berlin 1874. [Nachweis im GVK] | 2549 | 9. März 1874 mit Kommentar in Anmerkungen. Berlin 1874. [Nachweis im GVK] |
2550 | |||
2551 | Kasra Hosseini / Federico Nanni / Mariona Coll Ardanuy: DeezyMatch: A Flexible Deep | ||
2552 | Learning Approach to Fuzzy String Matching. In: Proceedings of the 2020 Conference | ||
2553 | on Empirical Methods in Natural Language Processing: System Demonstrations. Hg. von | ||
2554 | Association for Computational Linguistics. (EMNLP 2020, online, 16.11.–20.11.2020). | ||
2555 | Oktober 2020, S. 62–69. PDF. DOI: 10.18653/v1/2020.emnlp-demos.9 | ||
2556 | |||
2177 | ISCO - International Standard Classification of | 2557 | ISCO - International Standard Classification of |
2178 | Occupations. Hg. von ILO. Genf 2021. [online] | 2558 | Occupations. Hg. von ILO. Genf 2021. [online] |
2559 | |||
2179 | 1306 records | 2560 | 1306 records |
2181 | System. Leuven 2020. [online] | 2562 | System. Leuven 2020. [online] |
2563 | |||
2564 | Bryan Jurish: Finite-state Canonicalization Techniques for Historical German. Dissertation, | ||
2565 | Universität Potsdam. Potsdam 2012. PDF. [online] | ||
2566 | |||
2567 | Graham Kirby / Jamie Carson / Fraser Dunlop / Chris Dibben / Alan Dearle / Lee Williamson | ||
2568 | / Eilidh Garrett / Alice Reid: Automatic Methods for Coding Historical Occupation | ||
2569 | Descriptions to Standard. In: Population Reconstruction. Hg. von Gerrit Bloothooft | ||
2570 | / Peter Christen / Kees Mandemakers / Marijit Schraagen. 2015, S. 43–60. DOI: 10.1007/978-3-319-19884-2 | ||
2571 | |||
2182 | Jürgen Kocka / Claus Offe / Beate Redslob: Geschichte | 2572 | Jürgen Kocka / Claus Offe / Beate Redslob: Geschichte |
2184 | Frankfurt/Main 2000. [Nachweis im GVK] | 2574 | Frankfurt/Main 2000. [Nachweis im GVK] |
2575 | |||
2185 | Martin Kohli: Die Institutionalisierung des Lebenslaufs. | 2576 | Martin Kohli: Die Institutionalisierung des Lebenslaufs. |
2188 | 1–29. [Nachweis im GVK] | 2579 | 1–29. [Nachweis im GVK] |
2580 | |||
2189 | Thomas Krause: Entwurf und Implementierung einer | 2581 | Thomas Krause: Entwurf und Implementierung einer |
2190 | effizienten Dublettenerkennung für große Adressbestände. Köln 2012. | 2582 | effizienten Dublettenerkennung für große Adressbestände. Köln 2012. |
2191 | URN: urn:nbn:de:hbz:832-epub-3667Marco H. D. van Leeuwen / Ineke Maas / Andrew Miles: | 2583 | URN: urn:nbn:de:hbz:832-epub-3667 |
2584 | |||
2585 | Marco H. D. van Leeuwen / Ineke Maas / Andrew Miles: | ||
2192 | History Of Work Information System. In: HISCO. Historical | 2586 | History Of Work Information System. In: HISCO. Historical |
2194 | Antenna. Leuven 2002. [online] | 2588 | Antenna. Leuven 2002. [online] |
2589 | |||
2195 | Vladimir Iosifovič Levenštejn: Binary Codes Capable of | 2590 | Vladimir Iosifovič Levenštejn: Binary Codes Capable of |
2197 | Physics- Doklady 10 (1966), S. 707–710. [Nachweis im GVK] | 2592 | Physics - Doklady 10 (1966), S. 707–710. [Nachweis im GVK] |
2593 | |||
2198 | Katrin Moeller: Standards für die | 2594 | Katrin Moeller: Standards für die |
2203 | Anne Purschwitz. Halle 2019, S. 17–43. [Nachweis im GVK] | 2599 | Anne Purschwitz. Halle 2019, S. 17–43. [Nachweis im GVK] |
2600 | |||
2204 | Katrin Moeller / Andreas Müller / Robert Nasarek: | 2601 | Katrin Moeller / Andreas Müller / Robert Nasarek: |
2209 | 25.11.2020. [online] | 2606 | 25.11.2020. [online] |
2607 | |||
2210 | Heiko Müller / Johann-Christoph Freytag: Problems, | 2608 | Heiko Müller / Johann-Christoph Freytag: Problems, |
2211 | Methods, and Challenges in Comprehensive Data Cleansing. Berlin | 2609 | Methods, and Challenges in Comprehensive Data Cleansing. Berlin |
2212 | 2003. [Nachweis im GVK] | 2610 | 2003. PDF. [online] |
2611 | |||
2213 | Wiebke Paulus / Britta Matthes: Klassifikation der | 2612 | Wiebke Paulus / Britta Matthes: Klassifikation der |
2216 | Bundesagentur für Arbeit (BA) im Institut für Arbeitsmarkt- und | 2615 | Bundesagentur für Arbeit (BA) im Institut für Arbeitsmarkt- und |
2217 | Berufsforschung. Nürnberg 2013. [online] | 2616 | Berufsforschung. Nürnberg 2013. PDF. [online] |
2617 | |||
2218 | Michael Piotrowski: Natural Language Processing for | 2618 | Michael Piotrowski: Natural Language Processing for |
2219 | Historical Texts. In: Synthesis Lectures on Human Language | 2619 | Historical Texts. San Rafael, 2012. (= Synthesis Lectures on Human Language Technologies, |
2220 | Technologies 5 (2012), H. 2, S. 1–157. [Nachweis im GVK] | 2620 | 17). [Nachweis im GVK] |
2621 | |||
2221 | Erhard Rahm / Hong Hai Do: Data Cleaning: Problems and | 2622 | Erhard Rahm / Hong Hai Do: Data Cleaning: Problems and |
2222 | Current Approaches. In: Bulletin of the Technical Committee on Data | 2623 | Current Approaches. In: Bulletin of the Technical Committee on Data |
2223 | Engineering 23 (2000), H. 4, S. 3–13. URN: urn:nbn:de:bsz:15-qucosa2-329680Udo Schäfer: Die Novellierung des | 2624 | Engineering 23 (2000), H. 4, S. 3–13. URN: urn:nbn:de:bsz:15-qucosa2-329680 |
2625 | |||
2626 | |||
2627 | Udo Schäfer: Die Novellierung des | ||
2224 | Personenstandsgesetzes. In: Archive, Familienforschung und | 2628 | Personenstandsgesetzes. In: Archive, Familienforschung und |
2227 | [Nachweis im GVK] | 2631 | [Nachweis im GVK] |
2632 | |||
2228 | Reinhard Schüren: Soziale Mobilität. Muster, | 2633 | Reinhard Schüren: Soziale Mobilität. Muster, |
2230 | Katharinen 1989. [Nachweis im GVK] | 2635 | Katharinen 1989. [Nachweis im GVK] |
2636 | |||
2637 | Derek Tam / Nicholas Monath / Ari Kobren / Aaron Traylor / Rajarshi Das / Andrew McCallum: | ||
2638 | Optimal Transport-based Alignment of Learned Character Representations for String | ||
2639 | Similarity. In: Proceedings of the 57th Annual Meeting of the Association for Computational | ||
2640 | Linguistics. Hg. von Association for Computational Linguistics. (ACL 57, Florenz, | ||
2641 | 28.07.–02.08.2019). Florenz, Juli 2019, S. 5907–5917. PDF. DOI: 10.18653/v1/P19-1592 | ||
2642 | |||
2231 | Thesaurus Professionum. In: | 2643 | Thesaurus Professionum. In: |
2234 | Philipps-Universität Marburg. Marburg 2021. [online] | 2646 | Philipps-Universität Marburg. Marburg 2021. [online] |
2647 | |||
2235 | GEDBAS: Statistics. In: | 2648 | GEDBAS: Statistics. In: |
2242 | 2655 | ||
2656 | |||
2243 | Abbildungs- und Tabellenverzeichnis | 2657 | Abbildungs- und Tabellenverzeichnis |
2658 | |||
2244 | 2659 | ||
2250 | 2665 | ||
2666 | |||
2667 | |||
2251 | Tab. 2: | 2668 | Tab. 2: |
2255 | 2672 | ||
2673 | |||
2674 | |||
2256 | Abb. 1: Begriffe und Zusammenhänge des | 2675 | Abb. 1: Begriffe und Zusammenhänge des |
2259 | 2678 | ||
2679 | |||
2680 | |||
2260 | Abb. 2: Algorithmus, dargestellt in einem | 2681 | Abb. 2: Algorithmus, dargestellt in einem |
2263 | 2684 | ||
2685 | |||
2686 | |||
2264 | Abb. 3: Zusammenhang der Funktionen. [Goldberg / | 2687 | Abb. 3: Zusammenhang der Funktionen. [Goldberg / |
2265 | Moeller 2022] | 2688 | Moeller 2022] |
2689 | |||
2690 | |||
2266 | 2691 | ||
2272 | 2697 | ||
2698 | |||
2699 | |||
2273 | Tab. 4: | 2700 | Tab. 4: |
2277 | 2704 | ||
2705 | |||
2706 | |||
2278 | Tab. 5: | 2707 | Tab. 5: |
2280 | Moeller 2022] | 2709 | Moeller 2022] |
2710 | |||
2711 | |||
2281 | 2712 | ||
2289 | 2720 | ||
2721 |