Versionen vergleichen von : Automatisiertes Record Linkage in prosopographischen Datenbeständen am Beispiel historischer Quellen Leipzigs
Alt | Neu | ||
---|---|---|---|
1 | Automatisiertes Record Linkage in prosopographischen Datenbeständen am Beispiel historischer Quellen Leipzigs | 1 | Automatisiertes Record Linkage in prosopographischen Datenbeständen am Beispiel historischer Quellen Leipzigs |
2 | |||
3 | 2 | ||
10 | 9 | ||
11 | DOI: 10.17175/2023_001 | 10 | DOI: 10.17175/2023_001 |
12 | Nachweis im OPAC der Herzog August Bibliothek: | 11 | Nachweis im OPAC der Herzog August Bibliothek: 1819370283 |
13 | Erstveröffentlichung: 26.01.2023 | 12 | Erstveröffentlichung: 26.01.2023 |
14 | Version 2.0: 29.09.2023 | ||
15 | Lizenz: Sofern nicht anders angegeben | 13 | Lizenz: Sofern nicht anders angegeben |
18 | Medienlizenzen: Medienrechte liegen bei den Autor*innen | 16 | Medienlizenzen: Medienrechte liegen bei den Autor*innen |
19 | Letzte Überprüfung aller Verweise: | 17 | Letzte Überprüfung aller Verweise: 12.01.2023 |
20 | GND-Verschlagwortung: Duplikaterkennung | Datenverknüpfung | Personenbezogene Daten | Algorithmus | Genealogie | Geschichtswissenschaft | | 18 | GND-Verschlagwortung: Duplikaterkennung | Datenverknüpfung | Personenbezogene Daten | Algorithmus | Genealogie | Geschichtswissenschaft | |
21 | Empfohlene Zitierweise: Jan Michael Goldberg / Marcel Mernitz: Automatisiertes Record Linkage in prosopographischen | 19 | Empfohlene Zitierweise: Jan Michael Goldberg, Marcel Mernitz: Automatisiertes Record Linkage in prosopographischen |
22 | Datenbeständen am Beispiel historischer Quellen Leipzigs. In: Zeitschrift für digitale Geisteswissenschaften 8 (2023). 26.01.2023. Version 2.0 vom 29.09.2023. HTML / XML / PDF. DOI: 10.17175/2023_001_v2 | 20 | Datenbeständen am Beispiel historischer Quellen Leipzigs. In: Zeitschrift für digitale Geisteswissenschaften 8 (2023). HTML / XML / PDF. DOI: 10.17175/2023_001 |
21 | |||
23 | 22 | ||
27 | Abstract | 26 | Abstract |
28 | |||
29 | In dieser Studie wird ein automatisierter Ansatz zum Record Linkage in | 27 | In dieser Studie wird ein automatisierter Ansatz zum Record Linkage in |
55 | 53 | ||
56 | |||
57 | |||
58 | |||
59 | Version 2.0 (29.09.2023) | ||
60 | Inhaltliche Ergänzungen an mehreren Stellen gemäß Gutachten. | ||
61 | 54 | ||
142 | historischen Leipziger Quellen unterzieht. Abschließend wird das Ergebnis | 135 | historischen Leipziger Quellen unterzieht. Abschließend wird das Ergebnis |
143 | zusammengefasst. Der Algorithmus selbst wird in der Programmiersprache Python 3. | 136 | zusammengefasst. Der Algorithmus selbst wird in der Programmiersprache Python 3.6 |
144 | umgesetzt und ist im Online-Repositorium zu finden. | 137 | umgesetzt und ist im Online-Repositorium zu finden. |
167 | [6]Zum Record Linkage können verschiedenste Variablen herangezogen werden. | 160 | [6]Zum Record Linkage können verschiedenste Variablen herangezogen werden. |
168 | Grundlegend dabei ist, dass Variablen | 161 | Grundlegend dabei ist, dass Variablen / Attribute zur Verfügung stehen, die |
169 | einen identischen Schlüssel aufweisen.[13] Dies kann beispielsweise der Name, das Geburtsdatum | 162 | einen identischen Schlüssel aufweisen.[13] Dies kann beispielsweise der Name, das Geburtsdatum |
178 | Vornamens.[16] | 171 | Vornamens.[16] |
179 | [8]Efremova et | 172 | [8]Efremova et al. nutzen dahingegen ein ›disjunctive blocking‹.[17] Darin werden die ersten |
180 | Buchstaben eines Namens einer phonetischen Analyse unterzogen. Nur, wenn diese | 173 | Buchstaben eines Namens einer phonetischen Analyse unterzogen. Nur, wenn diese |
185 | Distanz. | 178 | Distanz. |
186 | [9]Statt einer binären Verknüpfung (Zuordnung | 179 | [9]Statt einer binären Verknüpfung (Zuordnung / keine Zuordnung) gibt es auch |
187 | Systeme, die Abstufungen verwenden. Sichere Verknüpfungen werden darin anders | 180 | Systeme, die Abstufungen verwenden. Sichere Verknüpfungen werden darin anders |
191 | Verknüpfung.[19] | 184 | Verknüpfung.[19] |
192 | [10]Anhand englischer Daten zeigen Georgala et | 185 | [10]Anhand englischer Daten zeigen Georgala et al., dass String-Metriken wie die |
193 | Levenshtein- oder Jaro-Winkler-Distanz besser als phonetische | 186 | Levenshtein- oder Jaro-Winkler-Distanz besser als phonetische |
196 | [11]Zur Unterstützung des Record Linkage existieren verschiedene Programme. In | 189 | [11]Zur Unterstützung des Record Linkage existieren verschiedene Programme. In |
197 | diese | 190 | diese soll hier nicht im Detail eingeführt werden. Beispielhaft genannt wird |
198 | | 191 | eine Lösung, die explizit auf das Record Linkage von genealogischen |
199 | GEDCOM-Dateien (GEnealogical Data COMmunication, siehe unten) ausgelegt ist: GedTool.[21] Zur | 192 | GEDCOM-Dateien (GEnealogical Data COMmunication, siehe unten) ausgelegt ist: GedTool.[21] Zur Verschmelzung |
200 | Kriterien wie der Vorname, der Nachname | 193 | von Personen können darin bis zu acht Kriterien wie der Vorname, der Nachname |
201 | oder eine ID bestimmt werden | 194 | oder eine ID bestimmt werden, die übereinstimmen müssen, damit Personen |
202 | | 195 | verschmolzen werden können. Die Einträge, auf die die Kriterien zutreffen, |
203 | werden gemeinsam angezeigt und können nachfolgend manuell zusammengeführt | 196 | werden gemeinsam angezeigt und können dann nachfolgend manuell zusammengeführt |
204 | werden. Eine phonetische Suche mit den Algorithmen Soundex, Kölner | 197 | werden. Eine phonetische Suche mit den Algorithmen Soundex, Kölner |
205 | Phonetik und Double Metaphone kann ebenfalls ausgeführt werden.[22] Hierbei handelt es | 198 | Phonetik und Double Metaphone kann ebenfalls ausgeführt werden.[22] Hierbei handelt es |
206 | sich demnach um eine semi-automatisierte Lösung. | 199 | sich also um eine semi-automatisierte Lösung. |
207 | [12]Ein weiteres Record-Linkage-Programm stellt Demolink dar. Eli Fure evaluiert dieses anhand norwegischer Daten. Sie kommt zu dem | 200 | [12]Ein weiteres Record-Linkage-Programm stellt Demolink dar. Fure evaluiert dieses anhand norwegischer Daten und kommt zu dem |
208 | Schluss, dass für die Anwendung eine Vorstellung über den historischen Kontext einer | 201 | Schluss, dass eine Vorstellung über den historischen Kontext einer Quelle |
209 | Quelle | 202 | notwendig ist, um – im Vergleich mit einer automatisierten Lösung – gute |
210 | notwendig ist, um bessere Ergebnisse als eine automatisierte Lösung zu erzielen. Damit | 203 | Ergebnisse zu erzielen. Damit meint sie, dass die Forschenden z. B. Wissen |
211 | meint sie, dass die Forschenden u. a. Wissen | ||
212 | darüber haben müssen, welche Namen im untersuchten Gebiet gleich sind, ohne | 204 | darüber haben müssen, welche Namen im untersuchten Gebiet gleich sind, ohne |
213 | dass ein Algorithmus sie zuordnen kann. Hierzu seien | 205 | dass ein Algorithmus sie zuordnen kann. Ein Beispiel dafür ist, dass die Namen |
214 | menschliche Eigenschaften notwendig.[23] Ein Beispiel dafür sind die Namen | 206 | Goldberg und Goldbrich in Nordböhmen und der südlichen Oberlausitz bis etwa zur |
215 | Goldberg und Goldbrich, die in Nordböhmen und der südlichen Oberlausitz bis etwa zur | 207 | zweiten Hälfte des 18. Jahrhunderts synonym verwendet werden. Hierzu seien |
216 | zweiten Hälfte des 18. Jahrhunderts synonym verwendet werden. | 208 | menschliche Eigenschaften notwendig.[23] |
217 | [13]Zuletzt genannt wird OpenRefine. Zwar hat OpenRefine ein breiteres Anwendungsgebiet, kann jedoch auch zum Rekord Linkage verwendet werden. | 209 | [13]Abramitzky et al. zeigen jedoch auf, dass auch automatisierte Vorgehensweisen |
218 | Ein Vorteil ist, dass hierdurch eigene Daten mit Referenzressourcen wie Wikidata abgeglichen | 210 | zufriedenstellende Ergebnisse erzielen können.[24] Da nie mit Sicherheit bestimmt werden kann, |
219 | und verbunden werden können. Auch unterstützt OpenRefine die Reconciliation Service API, ein Protokoll zum Datenmatching im Web.[24] | ||
220 | [14]Abramitzky et al. zeigen jedoch auf, dass auch automatisierte Vorgehensweisen | ||
221 | zufriedenstellende Ergebnisse erzielen können.[25] Da nie mit Sicherheit bestimmt werden kann, | ||
222 | ob zwei Records tatsächlich dieselbe Entität beschreiben, sind solche Vorgehen | 211 | ob zwei Records tatsächlich dieselbe Entität beschreiben, sind solche Vorgehen |
223 | probabilistisch. Bei einem Vergleich verschiedener Methoden durch Abramitzky et | 212 | probabilistisch. Bei einem Vergleich verschiedener Methoden durch Abramitzky et al. |
224 | erreichen auch automatisierte Ansätze Falschpositivraten von unter fünf Prozent. Zudem | 213 | erreichen auch automatisierte Ansätze Falschpositivraten von unter fünf Prozent. Zudem |
225 | zeigen sie, dass auch Menschen nicht frei von Fehlern sind und ebenfalls falschpositive | 214 | zeigen sie, dass auch Menschen nicht frei von Fehlern sind und ebenfalls falschpositive |
226 | Ergebnisse erzeugen.[ | 215 | Ergebnisse erzeugen.[25] In ihrem |
227 | automatischen Ansatz demonstrieren Abramitzky et | 216 | automatischen Ansatz demonstrieren Abramitzky et al. ein dreischrittiges |
228 | Verfahren: Zunächst sind (1.) Variablen für die Verknüpfung auszuwählen, dann | 217 | Verfahren: Zunächst sind (1.) Variablen für die Verknüpfung auszuwählen, dann |
231 | ein, schließlich wird (3.) die Wahrscheinlichkeit der Übereinstimmung | 220 | ein, schließlich wird (3.) die Wahrscheinlichkeit der Übereinstimmung |
232 | bewertet.[ | 221 | bewertet.[26] |
233 | Die hohe Verlässlichkeit ihrer Vorgehensweise zeigt sich darin, dass sie bei | 222 | Die hohe Verlässlichkeit ihrer Vorgehensweise zeigt sich darin, dass sie bei |
235 | Verknüpfungen ihrer Daten ähnliche Resultate wie in bereits bestehenden, | 224 | Verknüpfungen ihrer Daten ähnliche Resultate wie in bereits bestehenden, |
236 | manuellen Verknüpfungen erhalten.[28] | 225 | manuellen Verknüpfungen erhalten.[27] |
237 | [15]Da der Algorithmus mit der Programmiersprache Python umgesetzt wird, liegt auch die | ||
238 | Verwendung Python-spezifischer Bibliotheken nahe (z. B. RecordLinkage von Jonathan de Bruin). Zunächst jedoch wird der Algorithmus fernab von den Möglichkeiten | ||
239 | oder Restriktionen programmiersprachenspezifischer Bibliotheken entwickelt. Deswegen | ||
240 | findet keine Vorfestlegung auf solche statt. Zugleich aber sind solche Bibliotheken | ||
241 | sinnvolle Werkzeuge, um Record-Linkage-Herausforderungen praktisch zu begegnen; auch | ||
242 | zur Umsetzung des Algorithmus in diesem Fall. | ||
243 | [16]Grundsätzlich ist es zudem möglich, Methoden des maschinellen Lernens auf Record-Linkage-Herausforderungen | ||
244 | anzuwenden. So könnte beispielsweise die Ähnlichkeit manuell verknüpfter Datensätze | ||
245 | ausgewertet werden, um die Systematik der Verknüpfungen zu erkennen auch auf weitere | ||
246 | Daten anzuwenden. Solchen Ansätzen gemein ist jedoch, dass das erzeugte Modell – und | ||
247 | somit das Ergebnis – von den Trainingsdaten abhängig ist. Aus diesem Grund wird in | ||
248 | diesem Algorithmus bewusst darauf verzichtet, da bekannte genealogische Heuristiken | ||
249 | zunächst in einem statischen Modell formalisiert werden sollen. Darauf aufbauend kann | ||
250 | nachfolgende Forschung diese Ergebnisse nutzen, Verfahren maschinellen Lernens zu | ||
251 | implementieren. | ||
252 | |||
253 | 226 | ||
255 | 228 | ||
256 | [ | 229 | [14]Besonders interessant erscheint die Anwendung eines automatisierten Record |
257 | Linkage auf große Datenbestände mit genealogisch relevanten Daten. Das Record | 230 | Linkage auf große Datenbestände mit genealogisch relevanten Daten. Das Record |
266 | zu den Eltern und Kindern ergänzt. | 239 | zu den Eltern und Kindern ergänzt. |
267 | [ | 240 | [15]Quellen, die genealogisch relevante Daten enthalten, sind sehr unterschiedlich |
268 | strukturiert. Die zugrundeliegenden Primärquellen sind oftmals Manuskripte. | 241 | strukturiert. Die zugrundeliegenden Primärquellen sind oftmals Manuskripte. |
269 | Hier sind vorwiegend Kirchenbücher zu nennen. Verschiedene prosopographische | 242 | Hier sind vorwiegend Kirchenbücher zu nennen. Verschiedene prosopographische |
270 | Quellen enthalten dabei unterschiedliche Informationen.[ | 243 | Quellen enthalten dabei unterschiedliche Informationen.[28] Allerdings existiert auch eine große Menge an |
271 | Sekundärquellen, die bereits aufgearbeitete Daten präsentieren. Solche Daten | 244 | Sekundärquellen, die bereits aufgearbeitete Daten präsentieren. Solche Daten |
276 | entwickelt. | 249 | entwickelt. |
277 | [ | 250 | [16]Für diese Studie wird davon ausgegangen, dass einzelne Quellen so aufgearbeitet |
278 | werden können, dass sie in einer Tabelle vorliegen. Jeder Eintrag der Quelle | 251 | werden können, dass sie in einer Tabelle vorliegen. Jeder Eintrag der Quelle |
281 | Weiteren als Record bezeichnet. Herausforderung hierbei ist, dass die | 254 | Weiteren als Record bezeichnet. Herausforderung hierbei ist, dass die |
282 | Datenfelder | 255 | Datenfelder / Spalten tatsächlich vergleichbare Informationen enthalten müssen. Die |
283 | Zuordnung von Informationen aus einer Quelle in die korrekten Datenfelder ist | 256 | Zuordnung von Informationen aus einer Quelle in die korrekten Datenfelder ist |
289 | Definition des Inhalts der Datenfelder unerlässlich. | 262 | Definition des Inhalts der Datenfelder unerlässlich. |
290 | [ | 263 | [17]Als wesentlicher Standard zum Austausch genealogischer Informationen hat sich |
291 | das GEDCOM-Format herausgebildet.[ | 264 | das GEDCOM-Format herausgebildet.[29] In diesem werden einzelne |
292 | Informationen sogenannten Tags zugewiesen, die eine ähnliche Funktion wie | 265 | Informationen sogenannten Tags zugewiesen, die eine ähnliche Funktion wie |
293 | Datenfelder | 266 | Datenfelder / Spalten haben (z. B. beschreibt der Tag OCCU eine Berufsangabe). |
294 | Aber auch aus GEDCOM-Daten ergeben sich Probleme: Zwar sind diese strukturiert, | 267 | Aber auch aus GEDCOM-Daten ergeben sich Probleme: Zwar sind diese strukturiert, |
295 | doch gibt es nicht für alle Informationen eigene Tags. Auch wenn mit GEDCOM 5.5.1 | 268 | doch gibt es nicht für alle Informationen eigene Tags. Auch wenn mit GEDCOM 5.5.1 |
296 | ein Standard existiert,[ | 269 | ein Standard existiert,[30] legt dieser nicht immer fest, welcher Inhalt den Tags zugeordnet werden darf. Im |
297 | Standard ist | 270 | Standard ist |
301 | ausfüllen, wie es ihnen beliebt und wie sie diese interpretieren. | 274 | ausfüllen, wie es ihnen beliebt und wie sie diese interpretieren. |
302 | [ | 275 | [18]Einen weiteren Standard stellt Gedbas4all dar.[31] Anders als GEDCOM, in der die |
303 | einzelnen Informationen zu einer Person zwar zusammengeführt, die | 276 | einzelnen Informationen zu einer Person zwar zusammengeführt, die |
307 | konkret definiert wurden. Besonders für die Zeitangaben gibt es eine | 280 | konkret definiert wurden. Besonders für die Zeitangaben gibt es eine |
308 | detaillierte Normierung.[ | 281 | detaillierte Normierung.[32] Das Datenmodell enthält jedoch nicht zu |
309 | allen möglichen Variablen eine detaillierte Erläuterung. Zudem hat es noch | 282 | allen möglichen Variablen eine detaillierte Erläuterung. Zudem hat es noch |
310 | keine weite Verbreitung gefunden. | 283 | keine weite Verbreitung gefunden. |
311 | [ | 284 | [19]Es zeigt sich, dass kein allgemeingültiges und ausreichend detailliertes System |
312 | zur Definition vieler möglicher Schlüssel für ein Record Linkage auf Basis | 285 | zur Definition vieler möglicher Schlüssel für ein Record Linkage auf Basis |
318 | 291 | ||
319 | [ | 292 | [20]Die oben aufgeführten Algorithmen scheinen auf ihre jeweiligen Anwendungen bezogen |
320 | zwar effektiv zu sein, doch können sie nicht auf alle | 293 | zwar effektiv zu sein, doch können sie nicht auf alle |
338 | Lösungen als tauglich erwiesen haben. | 311 | Lösungen als tauglich erwiesen haben. |
339 | [ | 312 | [21]Der Algorithmus wird im Folgenden textuell erklärt. Die Erläuterung orientiert |
340 | sich am Aufbau der programmtechnischen Umsetzung. Es ist insbesondere auch ein | 313 | sich am Aufbau der programmtechnischen Umsetzung. Es ist insbesondere auch ein |
343 | Programmiersprache Python 3.8 umgesetzt. Dieser ist im Online-Repositorium verfügbar. | 316 | Programmiersprache Python 3.8 umgesetzt. Dieser ist im Online-Repositorium verfügbar. |
344 | [ | 317 | [22]Wesentliche Herausforderungen bestehen in der Normierung, Strukturierung und |
345 | Bereinigung von Eingangsdaten sowie der Prüfung einer Similarität zwischen | 318 | Bereinigung von Eingangsdaten sowie der Prüfung einer Similarität zwischen |
350 | wird eine Normalform der Daten definiert (im Weiteren Normform), in die die | 323 | wird eine Normalform der Daten definiert (im Weiteren Normform), in die die |
351 | Eingangsdaten gebracht werden müssen. Dies geschieht, damit die Datenfelder | 324 | Eingangsdaten gebracht werden müssen. Dies geschieht, damit die Datenfelder / |
352 | Spalten gleichartige Daten enthalten. Daran anschließend wird die Datenbereinigung | 325 | Spalten gleichartige Daten enthalten. Daran anschließend wird die Datenbereinigung |
357 | 330 | ||
358 | [ | 331 | [23]Der Algorithmus ist auf prosopographische Quellen angepasst, die genealogisch |
359 | relevante Daten enthalten. Es ist denkbar, dass es viele prosopographische | 332 | relevante Daten enthalten. Es ist denkbar, dass es viele prosopographische |
360 | Quellen gibt, die Daten enthalten, welche durch die Normform nicht adäquat | 333 | Quellen gibt, die Daten enthalten, welche durch die Normform nicht adäquat |
361 | abgebildet werden (z. | 334 | abgebildet werden (z. B. Immatrikulationslisten). Hier wird deutlich, dass |
362 | nicht alle erdenklichen (und praktisch auch irgendwo vorkommenden) Attribute | 335 | nicht alle erdenklichen (und praktisch auch irgendwo vorkommenden) Attribute |
367 | ergänzt werden. | 340 | ergänzt werden. |
368 | [ | 341 | [24]Der grundlegende Ablauf zur Verarbeitung der Daten ist in Abbildung 1 ersichtlich. Um den Algorithmus |
369 | ausführen zu können, müssen die Daten aufbereitet werden. Das kann manuell, | 342 | ausführen zu können, müssen die Daten aufbereitet werden. Das kann manuell, |
370 | aber auch durch ein gesondertes Programm geschehen.[ | 343 | aber auch durch ein gesondertes Programm geschehen.[33] Der Algorithmus ist darauf |
371 | ausgelegt, zwei in der Normform vorliegende Datensätze dem Record Linkage zu | 344 | ausgelegt, zwei in der Normform vorliegende Datensätze dem Record Linkage zu |
372 | unterziehen.[ | 345 | unterziehen.[34] Nach der Zusammenführung kann der entstandene, verknüpfte |
373 | Datensatz dann in weitere, übliche Formate wie z. | 346 | Datensatz dann in weitere, übliche Formate wie z. B. GEDCOM übertragen werden. |
374 | Zur Erstellung einer GEDCOM-Datei aus dem Ergebnis des Algorithmus kann | 347 | Zur Erstellung einer GEDCOM-Datei aus dem Ergebnis des Algorithmus kann |
376 | GEDCOM-Datei findet hier jedoch keine weitere Erläuterung, sondern ist der | 349 | GEDCOM-Datei findet hier jedoch keine weitere Erläuterung, sondern ist der |
377 | Bedienungsanleitung des Programms zu entnehmen.[ | 350 | Bedienungsanleitung des Programms zu entnehmen.[35] |
378 | 351 | ||
379 | 352 | ||
380 | Abb. | 353 | Abb. 1: Ablauf der |
381 | Datenverarbeitung. [Goldberg | 354 | Datenverarbeitung. [Goldberg / Mernitz 2023] |
382 | 355 | ||
383 | [ | 356 | [25]Nach der Transformation in die Normform wird eine Bereinigung und weitere |
384 | Strukturierung der Informationen vorgenommen. Dieser Schritt ist notwendig, | 357 | Strukturierung der Informationen vorgenommen. Dieser Schritt ist notwendig, |
386 | korrigieren. | 359 | korrigieren. |
387 | [ | 360 | [26]Nachfolgend wird ein Vergleich zwischen einzelnen Records erzeugt. Für jede |
388 | Zeile in der ersten Tabelle wird dazu geprüft, ob die einzelnen Records der | 361 | Zeile in der ersten Tabelle wird dazu geprüft, ob die einzelnen Records der |
391 | ausschließen sollen (z. B. ist eine Taufe nach dem Tod nicht möglich). | 364 | ausschließen sollen (z. B. ist eine Taufe nach dem Tod nicht möglich). |
392 | [ | 365 | [27]Danach wird für die nichtdisjunkten Records eine Similaritätsprüfung |
393 | durchgeführt. Hierdurch soll herausgefunden werden, ob die Personen similär | 366 | durchgeführt. Hierdurch soll herausgefunden werden, ob die Personen similär |
394 | sind | 367 | sind – also diese beiden Records dieselbe historisch existierende Person |
395 | beschreiben und die Informationen entsprechend zu verknüpfen sind. Hierzu | 368 | beschreiben und die Informationen entsprechend zu verknüpfen sind. Hierzu |
402 | Sicherheit von einer Similarität ausgegangen werden kann. | 375 | Sicherheit von einer Similarität ausgegangen werden kann. |
403 | [ | 376 | [28]Der grundlegende Ablauf ist in Abbildung 2 dargestellt. Eine ausführliche Erläuterung der einzelnen |
404 | Schritte findet in den folgenden Abschnitten statt. | 377 | Schritte findet in den folgenden Abschnitten statt. |
406 | 379 | ||
407 | Abb. | 380 | Abb. 2: Funktionsweise des |
408 | Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg | 381 | Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz 2023] |
409 | 382 | ||
412 | 385 | ||
413 | [ | 386 | [29]Um Daten in eine Normform zu überführen, ist die Definition einer solchen |
414 | notwendig. Das umfasst (1.) die Definition eines Formats und (2.) die | 387 | notwendig. Das umfasst (1.) die Definition eines Formats und (2.) die |
415 | Definition des Inhalts (die möglichen Schlüssel der Variablen | 388 | Definition des Inhalts (die möglichen Schlüssel der Variablen / Attribute). Zum |
416 | Format wird festgelegt, dass es sich bei der Normform um eine CSV-Datei | 389 | Format wird festgelegt, dass es sich bei der Normform um eine CSV-Datei |
482 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist | 455 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist |
483 | anzuwenden (z. | 456 | anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer |
484 | Zeitspanne). | 457 | Zeitspanne). |
511 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist | 484 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist |
512 | anzuwenden (z. | 485 | anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer |
513 | Zeitspanne). | 486 | Zeitspanne). |
529 | eine weitere Spezifikation der Uhrzeit. Die GEDCOM-Systematik zur | 502 | eine weitere Spezifikation der Uhrzeit. Die GEDCOM-Systematik zur |
530 | Beschreibung ungenauer Zeitpunkte ist anzuwenden (z. | 503 | Beschreibung ungenauer Zeitpunkte ist anzuwenden (z. B. ›BET … AND …‹ für |
531 | ein Ereignis in einer Zeitspanne). | 504 | ein Ereignis in einer Zeitspanne). |
564 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist | 537 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist |
565 | anzuwenden (z. | 538 | anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer |
566 | Zeitspanne). | 539 | Zeitspanne). |
598 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist | 571 | Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist |
599 | anzuwenden (z. | 572 | anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer |
600 | Zeitspanne). | 573 | Zeitspanne). |
627 | 600 | ||
628 | |||
629 | Tab. 1: Definition von Datenfeldern. | 601 | Tab. 1: Definition von Datenfeldern. |
630 | [Goldberg | 602 | [Goldberg / Mernitz 2023] |
631 | [ | 603 | [30]Die Normform enthält dabei nicht alle möglichen Bestandteile prosopographischer |
632 | Quellen. Daneben sind weitere Charakteristika denkbar, die sich auf das Leben | 604 | Quellen. Daneben sind weitere Charakteristika denkbar, die sich auf das Leben |
633 | von Personen beziehen und in prosopographischen Quellen vorkommen (u. | 605 | von Personen beziehen und in prosopographischen Quellen vorkommen (u. a. |
634 | Taufpaten, Trauzeugen, Täufer, weitere Bezugspersonen, Adressen zu bestimmten | 606 | Taufpaten, Trauzeugen, Täufer, weitere Bezugspersonen, Adressen zu bestimmten |
644 | 616 | ||
645 | [ | 617 | [31]Trotz der Normform können die Daten nicht immer direkt miteinander in einen |
646 | Vergleich gesetzt werden. Es ist eine weitere Bereinigung des Inhalts | 618 | Vergleich gesetzt werden. Es ist eine weitere Bereinigung des Inhalts |
647 | notwendig. Darunter gehört z. | 619 | notwendig. Darunter gehört z. B. die Veränderung des Datumsformats. Ferner |
648 | betrifft die Bereinigung insbesondere die Vornamen (siehe Abschnitt 3.3.1, ›Aufbereitung der | 620 | betrifft die Bereinigung insbesondere die Vornamen (siehe Abschnitt 3.3.1, ›Aufbereitung der |
653 | Zeitangaben‹). Die Bereinigung von Ortsangaben dahingegen ist derzeit nicht | 625 | Zeitangaben‹). Die Bereinigung von Ortsangaben dahingegen ist derzeit nicht |
654 | implementiert, kann aber ergänzt werden.[ | 626 | implementiert, kann aber ergänzt werden.[36] |
655 | 3.3.1 Aufbereitung der Namen | 627 | 3.3.1 Aufbereitung der Namen |
656 | 628 | ||
657 | [ | 629 | [32]Namensbezeichnungen können verschiedene Eigenschaften besitzen, die ein |
658 | Record Linkage erschweren. Ein Beispiel dafür sind Abkürzungen | 630 | Record Linkage erschweren. Ein Beispiel dafür sind Abkürzungen |
668 | Vornamen werden durch Leerzeichen separiert als Liste gespeichert. | 640 | Vornamen werden durch Leerzeichen separiert als Liste gespeichert. |
669 | [ | 641 | [33]Um den Nutzen der Vornamen für das Record Linkage zu erhöhen, wird aus den |
670 | Angaben zum Vornamen das Geschlecht erkannt | 642 | Angaben zum Vornamen das Geschlecht erkannt – sofern diese Information nicht |
671 | gesondert vorliegt. Hierzu werden die Vornamen, die auf ein A oder E enden, | 643 | gesondert vorliegt. Hierzu werden die Vornamen, die auf ein A oder E enden, |
672 | als weiblich erkannt. Dazu wird jeweils der erste Vorname herangezogen.[ | 644 | als weiblich erkannt. Dazu wird jeweils der erste Vorname herangezogen.[37] Etliche Ausnahmen sind gesondert |
673 | definiert (z. B. Ingeborg, Elisabeth). | 645 | definiert (z. B. Ingeborg, Elisabeth). |
676 | 648 | ||
677 | [ | 649 | [34]Ähnlich wie bei den Namen können auch Berufsangaben eine Abkürzung erfahren. |
678 | Auch diese werden mit Hilfe einer initial definierten Liste aufgelöst und | 650 | Auch diese werden mit Hilfe einer initial definierten Liste aufgelöst und |
685 | Tätigkeit, sondern weitergehende Informationen über den Rechtsstatus, | 657 | Tätigkeit, sondern weitergehende Informationen über den Rechtsstatus, |
686 | Wohnsitz oder einen Zeitbezug enthalten.[ | 658 | Wohnsitz oder einen Zeitbezug enthalten.[38] Mehrere Berufsangaben werden |
687 | anhand des Kommas oder eines ›und‹ aufgesplittet als Liste gespeichert. | 659 | anhand des Kommas oder eines ›und‹ aufgesplittet als Liste gespeichert. |
690 | 662 | ||
691 | [ | 663 | [35]Zeitangaben können verschiedene Formate aufweisen. Das liegt vor allem in |
692 | dem Umstand begründet, dass Zeitangaben nicht immer ein konkretes, | 664 | dem Umstand begründet, dass Zeitangaben nicht immer ein konkretes, |
702 | 674 | ||
703 | [ | 675 | [36]Genealogische Heuristiken helfen dabei, die Records zu identifizieren, die |
704 | dieselbe Entität beschreiben. Ihre Formalisierung führt zu Logikoperationen, | 676 | dieselbe Entität beschreiben. Ihre Formalisierung führt zu Logikoperationen, |
706 | auf den vorhandenen Variablen. Jedoch können schon bei einem Datensatz mit 30 | 678 | auf den vorhandenen Variablen. Jedoch können schon bei einem Datensatz mit 30 |
707 | verschiedenen zu vergleichenden Variablen (Variable vorhanden | 679 | verschiedenen zu vergleichenden Variablen (Variable vorhanden / nicht |
708 | vorhanden) insgesamt etwa eine Milliarde mögliche Kombinationen auftreten.[ | 680 | vorhanden) insgesamt etwa eine Milliarde mögliche Kombinationen auftreten.[39] Der |
709 | Vergleich von zwei Datensätzen erhöht diese Zahl der möglichen Kombinationen | 681 | Vergleich von zwei Datensätzen erhöht diese Zahl der möglichen Kombinationen |
710 | auf mehr als eine Trillion.[ | 682 | auf mehr als eine Trillion.[40] Für diese Anzahl an |
711 | Kombinationen ist eine manuelle Definition von Verarbeitungsfolgen nicht | 683 | Kombinationen ist eine manuelle Definition von Verarbeitungsfolgen nicht |
715 | keinen Schluss auf den Zusammenhang von Records zu. | 687 | keinen Schluss auf den Zusammenhang von Records zu. |
716 | [ | 688 | [37]Hierzu können zunächst verschiedene Variablen zusammengefasst werden, die |
717 | ähnliche Merkmale aufweisen (z. | 689 | ähnliche Merkmale aufweisen (z. B. Datumsangaben, Ortsangaben, Namen). |
718 | Vergleiche sind nur innerhalb dieser Gruppen sinnhaft. Diese Definition | 690 | Vergleiche sind nur innerhalb dieser Gruppen sinnhaft. Diese Definition |
721 | beschrieben: Wenn z. B. eine Taufe nach dem Tod stattfindet, dann ist eine | 693 | beschrieben: Wenn z. B. eine Taufe nach dem Tod stattfindet, dann ist eine |
722 | Similarität auszuschließen.[ | 694 | Similarität auszuschließen.[41] Es bleibt eine deutlich minimierte Anzahl an |
723 | Variablenkombinationen übrig, bei denen ein genauerer Vergleich sinnhaft | 695 | Variablenkombinationen übrig, bei denen ein genauerer Vergleich sinnhaft |
728 | 700 | ||
729 | [ | 701 | [38]Eine Gruppe von Vergleichen kann vorgenommen werden, wenn in beiden Records |
730 | gleichartige Variablen vorliegen. Dazu ist ein Wissen über die Beziehungen | 702 | gleichartige Variablen vorliegen. Dazu ist ein Wissen über die Beziehungen |
751 | Die (teilweise) Übereinstimmung von Vornamen kann Aufschluss | 723 | Die (teilweise) Übereinstimmung von Vornamen kann Aufschluss |
752 | über die Zusammenführung der Personen liefern.[ | 724 | über die Zusammenführung der Personen liefern.[42] |
753 | 725 | ||
765 | Übereinstimmung von Nachnamen in unterschiedlichen Kategorien nur | 737 | Übereinstimmung von Nachnamen in unterschiedlichen Kategorien nur |
766 | bei surnameUnknown ein Indiz für eine Übereinstimmung ist.[ | 738 | bei surnameUnknown ein Indiz für eine Übereinstimmung ist.[43] |
767 | 739 | ||
773 | birthday und baptismday: Taufdatum und Geburtsdatum liegen oft | 745 | birthday und baptismday: Taufdatum und Geburtsdatum liegen oft |
774 | nah beieinander.[ | 746 | nah beieinander.[44] Eine Person kann nicht vor |
775 | ihrer Geburt getauft werden. | 747 | ihrer Geburt getauft werden. |
866 | werden, die sich nicht ähnlich sind und dadurch nur schwer über | 838 | werden, die sich nicht ähnlich sind und dadurch nur schwer über |
867 | String-Matching-Methoden erkannt werden können (z. | 839 | String-Matching-Methoden erkannt werden können (z. B. |
868 | »Feuerwehrmann« und | 840 | »Feuerwehrmann« und |
873 | hier angenommen, dass es sich nicht um dieselbe Person handelt. Dabei | 845 | hier angenommen, dass es sich nicht um dieselbe Person handelt. Dabei |
874 | sind detaillierte Quellen gemeint (z. | 846 | sind detaillierte Quellen gemeint (z. B. ein konkreter Heiratseintrag mit |
875 | laufender Nummer in einem Heiratsregister). | 847 | laufender Nummer in einem Heiratsregister). |
879 | 851 | ||
880 | [ | 852 | [39]Sind im vorigen Abschnitt mögliche Vergleiche zwischen Variablen beschrieben |
881 | worden, findet nun eine Definition konkreter Kriterien statt, die ein | 853 | worden, findet nun eine Definition konkreter Kriterien statt, die ein |
890 | erheblichen Verbesserung der Laufzeit. | 862 | erheblichen Verbesserung der Laufzeit. |
891 | [ | 863 | [40]Die meisten hier vorgestellten Regeln sind in Hinblick auf die kulturelle |
892 | Praxis und den Ablauf von Lebensereignissen logisch. So kann eine Person | 864 | Praxis und den Ablauf von Lebensereignissen logisch. So kann eine Person |
900 | mit genealogischen Daten. | 872 | mit genealogischen Daten. |
901 | [ | 873 | [41]Zunächst sind Records disjunkt, wenn sie auf demselben Eintrag in einer |
902 | Quelle basieren. Das kann beispielsweise in Taufeinträgen der Fall sein, bei | 874 | Quelle basieren. Das kann beispielsweise in Taufeinträgen der Fall sein, bei |
909 | nicht in anderen Einträgen vorkommen können und ein weiterer Vergleich aus | 881 | nicht in anderen Einträgen vorkommen können und ein weiterer Vergleich aus |
910 | Laufzeitgründen deshalb nicht notwendig ist.[ | 882 | Laufzeitgründen deshalb nicht notwendig ist.[45] Wenn beide Records |
911 | ein Geschlecht aufweisen, dieses aber nicht dasselbe ist, so sind sie | 883 | ein Geschlecht aufweisen, dieses aber nicht dasselbe ist, so sind sie |
922 | sterben, bevor sie beerdigt werden kann. | 894 | sterben, bevor sie beerdigt werden kann. |
923 | [ | 895 | [42]Wenn die Geburtsdaten beider Personen vorhanden und trotzdem unterschiedlich |
924 | sind, so beschreiben sie nicht dieselbe Person. Ebenso verhält es sich mit | 896 | sind, so beschreiben sie nicht dieselbe Person. Ebenso verhält es sich mit |
928 | Abweichungen lässt. | 900 | Abweichungen lässt. |
929 | [ | 901 | [43]Aus dem Vergleich mit den Eltern ergeben sich einige Zustände, die ein |
930 | ausschließendes Kriterium darstellen. So kann der Tod des eigenen Vaters | 902 | ausschließendes Kriterium darstellen. So kann der Tod des eigenen Vaters |
939 | können. | 911 | können. |
940 | [ | 912 | [44]Folgende Regeln führen zur Ungleichheit der Records (similarity = 0): |
941 | 913 | ||
942 | Wenn sex ! | 914 | Wenn sex != sex |
943 | Wenn source | 915 | Wenn source == source |
944 | Wenn Differenz von birthday von id und deathday von idFather > 9 | 916 | Wenn Differenz von birthday von id und deathday von idFather > 9 |
951 | Monate | 923 | Monate |
952 | Wenn birthday von id > deathday von idMother[ | 924 | Wenn birthday von id > deathday von idMother[46] |
953 | Wenn birthday von id > burialday von idMother | 925 | Wenn birthday von id > burialday von idMother |
1046 | 1018 | ||
1047 | [48]Programmtechnisch sind die Vergleiche mit IF-ELSE-Anweisungen umgesetzt. Ferner ist | 1019 | [45]In der programmtechnischen Umsetzung ist ergänzend eine optionale Variable |
1048 | ergänzend eine optionale Variable | ||
1049 | (sortingBySurnameGiven) angelegt, mit der im Fall identischer zu | 1020 | (sortingBySurnameGiven) angelegt, mit der im Fall identischer zu |
1056 | 1027 | ||
1057 | [ | 1028 | [46]Kann nicht erkannt werden, dass zwei Records disjunkt sind, so wird die |
1058 | Similarität dieser weiter geprüft. Dazu wird ein Fuzzy-Vergleich der Vor- | 1029 | Similarität dieser weiter geprüft. Dazu wird ein Fuzzy-Vergleich der Vor- |
1059 | und Nachnamen vorgenommen. Zum Vergleich dieser Strings wird die | 1030 | und Nachnamen vorgenommen. Zum Vergleich dieser Strings wird die |
1060 | Jaro-Winkler-Distanz ausgewählt, weil diese bei Georgala et | 1031 | Jaro-Winkler-Distanz ausgewählt, weil diese bei Georgala et al. zu guten |
1061 | Ergebnissen führt.[ | 1032 | Ergebnissen führt.[47] Georgala et al. erzielen mittels einer ROC-Kurve[48] ein optimales Ergebnis bei einem Grenzwert von 0,70.[49] Um die Anzahl |
1062 | der falschpositiven Zuordnungen zu verringern, wird in unserem Ansatz jedoch | 1033 | der falschpositiven Zuordnungen zu verringern, wird in unserem Ansatz jedoch |
1073 | den deutschen Sprachraum ausgerichtet ist. Buchstaben werden dabei in Zahlen | 1044 | den deutschen Sprachraum ausgerichtet ist. Buchstaben werden dabei in Zahlen |
1074 | codiert.[ | 1045 | codiert.[50] Ist der |
1075 | Wert der Kölner Phonetik gleich und liegt die Jaro-Winkler-Distanz bei über | 1046 | Wert der Kölner Phonetik gleich und liegt die Jaro-Winkler-Distanz bei über |
1076 | 0,60, wird hier ebenfalls von einer Similarität ausgegangen. Der Wert der Kölner Phonetik | 1047 | 0,60, wird hier ebenfalls von einer Similarität ausgegangen. |
1077 | wird im Programmcode über die Bibliothek kph ermittelt. Für die Berechnung der Jaro-Winkler-Distanz wird hingegen die Bibliothek | 1048 | [47]Nach dem Test der Nachnamen wird zudem die Similarität der Vornamen |
1078 | distance genutzt. | ||
1079 | [50]Nach dem Test der Nachnamen wird zudem die Similarität der Vornamen | ||
1080 | überprüft. Überschreitet die Jaro-Winkler-Distanz auch bei einem Vergleich | 1049 | überprüft. Überschreitet die Jaro-Winkler-Distanz auch bei einem Vergleich |
1086 | erhält dann einen Wert von 0. | 1055 | erhält dann einen Wert von 0. |
1087 | [ | 1056 | [48]Die Similaritätsprüfung stützt sich im Algorithmus damit nur auf die |
1088 | Ähnlichkeit von Vor- und Nachnamen. Dabei können perspektivisch auch weitere | 1057 | Ähnlichkeit von Vor- und Nachnamen. Dabei können perspektivisch auch weitere |
1091 | eine Kombination dieser zu implementieren. | 1060 | eine Kombination dieser zu implementieren. |
1092 | [ | 1061 | [49]Wenn mehrere Matches vorhanden sind, wird geprüft, welches über die größte |
1093 | Übereinstimmung verfügt. Nur das passendste wird zusammengeführt. Es wird | 1062 | Übereinstimmung verfügt. Nur das passendste wird zusammengeführt. Es wird |
1100 | Ergebnistabelle wiederholt ausgeführt werden. | 1069 | Ergebnistabelle wiederholt ausgeführt werden. |
1101 | [ | 1070 | [50]Neben der Similaritätsprüfung gibt es noch einen sogenannten Prioritätswert. |
1102 | Dieser wird ermittelt, um nicht nur Disjunktionsregeln und die Ähnlichkeit | 1071 | Dieser wird ermittelt, um nicht nur Disjunktionsregeln und die Ähnlichkeit |
1109 | zusammengeführt, wenn sie zugleich verschiedene Variablenkombinationen | 1078 | zusammengeführt, wenn sie zugleich verschiedene Variablenkombinationen |
1110 | aufweisen (z. | 1079 | aufweisen (z. B. beide ein Geburts- und Taufdatum), die die |
1111 | Disjunktionsprüfung überstanden haben. Darunter fallen folgende | 1080 | Disjunktionsprüfung überstanden haben. Darunter fallen folgende |
1124 | 1093 | ||
1125 | [ | 1094 | [51]Wird erkannt, dass zwei Records dieselbe Entität beschreiben, sind diese |
1126 | zusammenzuführen. Es wird ein neuer Record in einer neuen Tabelle kreiert, die | 1095 | zusammenzuführen. Es wird ein neuer Record in einer neuen Tabelle kreiert, die |
1137 | separiert zusammengeführt. | 1106 | separiert zusammengeführt. |
1138 | [ | 1107 | [52]Die neue Tabelle enthält neben allen (wie oben beschrieben zusammengeführten) |
1139 | Variablen zudem die Spalte idGlobal. Diese globale ID stellt eine neu erzeugte | 1108 | Variablen zudem die Spalte idGlobal. Diese globale ID stellt eine neu erzeugte |
1145 | dieser Variablen. | 1114 | dieser Variablen. |
1146 | [ | 1115 | [53]Solche Records, zu denen kein Pendant im jeweils anderen Datensatz gefunden |
1147 | wird, werden unverändert in die neue Tabelle überführt. Ausnahme ist allerdings | 1116 | wird, werden unverändert in die neue Tabelle überführt. Ausnahme ist allerdings |
1172 | 1141 | ||
1173 | |||
1174 | Tab. 2: Zusätzliche Variablen eines | 1142 | Tab. 2: Zusätzliche Variablen eines |
1175 | zusammengeführten Datensatzes. [Goldberg | 1143 | zusammengeführten Datensatzes. [Goldberg / Mernitz 2023] |
1176 | 1144 | ||
1179 | 1147 | ||
1180 | [ | 1148 | [54]Leipzig ist eine Stadt, an der sich zwei große historische Handelsrouten Europas |
1181 | kreuzen: die Via Regia von Ost nach West sowie die Via Imperii von Nord nach | 1149 | kreuzen: die Via Regia von Ost nach West sowie die Via Imperii von Nord nach |
1182 | Süd.[ | 1150 | Süd.[51] Diese |
1183 | geografische Lage bot für die Entwicklung Leipzigs, vor allem als Messe- und | 1151 | geografische Lage bot für die Entwicklung Leipzigs, vor allem als Messe- und |
1188 | Informationen bietet Leipzig ein geeignetes Beispiel zur Validierung des | 1156 | Informationen bietet Leipzig ein geeignetes Beispiel zur Validierung des |
1189 | beschriebenen Algorithmus. Innerhalb dieser Validierung werden zwei Quellen | 1157 | beschriebenen Algorithmus. Innerhalb dieser Validierung werden zwei Quellen / |
1190 | Datenbestände betrachtet: die Kartei Leipziger Familien (KLF) und die Kartei | 1158 | Datenbestände betrachtet: die Kartei Leipziger Familien (KLF) und die Kartei |
1192 | zumindest teilweise Daten über dieselben Personen enthalten. Aufgrund des | 1160 | zumindest teilweise Daten über dieselben Personen enthalten. Aufgrund des |
1193 | unterschiedlichen Gegenstands,[ | 1161 | unterschiedlichen Gegenstands,[52] vor allem aber wegen unterschiedlicher Zeiträume, sind nicht |
1194 | alle Personen in beiden Datenbeständen zu finden. Zum Teil spielt auch eine | 1162 | alle Personen in beiden Datenbeständen zu finden. Zum Teil spielt auch eine |
1197 | ein. | 1165 | ein. |
1198 | [ | 1166 | [55]In dem folgenden Abschnitt wird zunächst die Struktur der hier verwendeten |
1199 | Datenbestände beschrieben, bevor der Algorithmus auf sie angewendet wird. Die | 1167 | Datenbestände beschrieben, bevor der Algorithmus auf sie angewendet wird. Die |
1205 | 1173 | ||
1206 | [ | 1174 | [56]Im Folgenden wird zunächst auf die KLF eingegangen. Danach folgt die KLK. |
1207 | 4.1.1 Kartei Leipziger Familien (ca. 1550–1850) | 1175 | 4.1.1 Kartei Leipziger Familien (ca. 1550–1850) |
1208 | 1176 | ||
1209 | [ | 1177 | [57]In der KLF sind viele Informationen über in Leipzig ansässige Familien |
1210 | enthalten. Die Kartei wurde von einer Mitarbeiterin der Deutschen | 1178 | enthalten. Die Kartei wurde von einer Mitarbeiterin der Deutschen |
1214 | Jahrhunderts. Auf 20.000 Karteikarten sind dort etwa 200.000 | 1182 | Jahrhunderts. Auf 20.000 Karteikarten sind dort etwa 200.000 |
1215 | Personen(einträge) dokumentiert.[ | 1183 | Personen(einträge) dokumentiert.[53] Die Karteikarten |
1216 | enthalten jeweils Angaben zu einem Ehemann, seiner Ehefrau und deren | 1184 | enthalten jeweils Angaben zu einem Ehemann, seiner Ehefrau und deren |
1218 | Karte verzeichnet. Die Karteikarten sind untereinander nicht über eindeutige | 1186 | Karte verzeichnet. Die Karteikarten sind untereinander nicht über eindeutige |
1219 | Identifikatoren wie Kartennummern verknüpft.[ | 1187 | Identifikatoren wie Kartennummern verknüpft.[54] |
1220 | [ | 1188 | [58]Im Rahmen eines Datenerfassungsprojekts durch den Verein für |
1221 | Computergenealogie wurde die Kartei digitalisiert.[ | 1189 | Computergenealogie wurde die Kartei digitalisiert.[55] Dazu wurden die Scans der Karteikarten manuell |
1222 | abgetippt. Datenfelder im genutzten Datenerfassungssystem (DES) sind der | 1190 | abgetippt. Datenfelder im genutzten Datenerfassungssystem (DES) sind der |
1227 | vergeben wird). Des Weiteren existieren besondere, KLF-spezifische Angaben | 1195 | vergeben wird). Des Weiteren existieren besondere, KLF-spezifische Angaben |
1228 | zur Rolle, zur Bezugsperson und zur Art der Beziehung zur Bezugsperson.[ | 1196 | zur Rolle, zur Bezugsperson und zur Art der Beziehung zur Bezugsperson.[56] Es gibt die Rollen |
1229 | Familienoberhaupt, Kind, Ehefrau und Drittperson. Ersteres beschreibt einen | 1197 | Familienoberhaupt, Kind, Ehefrau und Drittperson. Ersteres beschreibt einen |
1236 | der Beziehung beschreibt dahingegen das Verhältnis zur Drittperson (Ehemann | 1204 | der Beziehung beschreibt dahingegen das Verhältnis zur Drittperson (Ehemann |
1237 | | 1205 | / Ehefrau / Vater). Damit sind die Felder nicht direkt der definierten |
1238 | Normform zuzuordnen, sondern müssen zunächst umgewandelt werden. Dieses | 1206 | Normform zuzuordnen, sondern müssen zunächst umgewandelt werden. Dieses |
1240 | beispielhaft, dass die Umwandlung in die Normform aufwendig sein kann. | 1208 | beispielhaft, dass die Umwandlung in die Normform aufwendig sein kann. |
1241 | [ | 1209 | [59]Ein Schwerpunkt dieses Programms besteht dabei in der Umwandlung von |
1242 | Altersangaben: Dabei wird im Algorithmus der Sonderfall abgedeckt, dass in | 1210 | Altersangaben: Dabei wird im Algorithmus der Sonderfall abgedeckt, dass in |
1248 | Separierung wäre ein alternativ mögliches Vorgehen. | 1216 | Separierung wäre ein alternativ mögliches Vorgehen. |
1249 | [ | 1217 | [60]Da Altersangaben nur in Beziehung mit anderen Variablen interpretiert werden |
1250 | können, bezieht die Aufbereitung dieser Daten weitere Informationen eines | 1218 | können, bezieht die Aufbereitung dieser Daten weitere Informationen eines |
1251 | Records mit ein (z. | 1219 | Records mit ein (z. B. das Alter bei Tod und das Todesdatum zur Berechnung |
1252 | des Geburtszeitpunkts). Für die Aufbereitung ist aufgrund der relativen | 1220 | des Geburtszeitpunkts). Für die Aufbereitung ist aufgrund der relativen |
1254 | Datumsangaben des Records notwendig. | 1222 | Datumsangaben des Records notwendig. |
1255 | [ | 1223 | [61]Es wird zunächst geprüft, ob die Zeitangabe einer normierten Schreibweise |
1256 | entspricht. Diese wird hier als D.M.YYYY definiert und darüber ermittelt, ob | 1224 | entspricht. Diese wird hier als D.M.YYYY definiert und darüber ermittelt, ob |
1270 | 1238 | ||
1271 | [ | 1239 | [62]Bei den ersten vier der fünf Fälle kann eine Zeitangabe abgeleitet werden. |
1272 | Im fünften Fall besteht die Herausforderung darin, zu erkennen, dass es sich | 1240 | Im fünften Fall besteht die Herausforderung darin, zu erkennen, dass es sich |
1285 | Datumsformat vorliegt. | 1253 | Datumsformat vorliegt. |
1286 | [ | 1254 | [63]Die grundsätzliche Zuordnung der KLF zu den Datenfeldern der Normform wird |
1287 | wie in Tabelle 3 | 1255 | wie in Tabelle 3 |
1361 | 1329 | ||
1362 | |||
1363 | Tab. 3: Direkte Umwandlung der | 1330 | Tab. 3: Direkte Umwandlung der |
1364 | KLF-Struktur in die Normform. [Goldberg | 1331 | KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] |
1365 | [ | 1332 | [64]Die KLF-Variablen Rolle, Bezugsperson, Art der Beziehung und ID werden zudem |
1366 | herangezogen, um weitere Variablen der Normform zu füllen (vgl. Tabelle 4). | 1333 | herangezogen, um weitere Variablen der Normform zu füllen (vgl. Tabelle 4). |
1377 | Karteikarte. Eine Ehefrau erhält die ID des Familienoberhauptes auf | 1344 | Karteikarte. Eine Ehefrau erhält die ID des Familienoberhauptes auf |
1378 | derselben Karteikarte. Eine Drittperson vom Typ Ehefrau | 1345 | derselben Karteikarte. Eine Drittperson vom Typ Ehefrau / Ehemann |
1379 | führt dazu, dass bei der Drittperson wie auch bei der Bezugsperson | 1346 | führt dazu, dass bei der Drittperson wie auch bei der Bezugsperson |
1391 | 1358 | ||
1392 | |||
1393 | Tab. 4: Indirekte Umwandlung der | 1359 | Tab. 4: Indirekte Umwandlung der |
1394 | KLF-Struktur in die Normform. [Goldberg | 1360 | KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] |
1395 | 1361 | ||
1397 | 1363 | ||
1398 | [ | 1364 | [65]Für das Amt Leipzig liegen für die Zeit von 1696 bis 1829 Testamente |
1399 | innerhalb von 120 Bänden im Sächsischen Staatsarchiv vor.[ | 1365 | innerhalb von 120 Bänden im Sächsischen Staatsarchiv vor.[57] Zum Auffinden von Testamentsvorgängen existiert eine |
1400 | Kartei | 1366 | Kartei – die KLK. Auch die KLK ist im Rahmen eines Datenerfassungsprojektes |
1401 | des Vereins für Computergenealogie mit Hilfe des DES erfasst worden und online einsehbar.[ | 1367 | des Vereins für Computergenealogie mit Hilfe des DES erfasst worden und online einsehbar.[58] Sie umfasst 4.800 |
1402 | Karteikarten, auf denen jeweils zu einer Person die entsprechenden Vorgänge | 1368 | Karteikarten, auf denen jeweils zu einer Person die entsprechenden Vorgänge |
1404 | Jedoch können auch Drittpersonen auf den Karten erscheinen. Dazu gibt es in | 1370 | Jedoch können auch Drittpersonen auf den Karten erscheinen. Dazu gibt es in |
1405 | der KLK die Variable ›Rolle‹, in der zwischen Erblasser*innen und Drittpersonen | 1371 | der KLK die Variable ›Rolle‹, in der zwischen Erblasser*innen und Drittpersonen / |
1406 | Verwandten unterschieden wird. Dies führt dazu, dass ca. 6.500 | 1372 | Verwandten unterschieden wird. Dies führt dazu, dass ca. 6.500 |
1410 | dokumentiert. | 1376 | dokumentiert. |
1411 | [ | 1377 | [66]Auch die Variablen der KLK-Erfassung lassen sich in die Normform umwandeln. |
1412 | Wie bei der KLF gibt es dabei Variablen, die sich direkt auf die Normform | 1378 | Wie bei der KLF gibt es dabei Variablen, die sich direkt auf die Normform |
1486 | 1452 | ||
1487 | |||
1488 | Tab. 5: Direkte Umwandlung der | 1453 | Tab. 5: Direkte Umwandlung der |
1489 | KLK-Struktur in die Normform. [Goldberg | 1454 | KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] |
1490 | [ | 1455 | [67]Die indirekte Herleitung betrifft vor allem die Nachnamen. In der KLK sind |
1491 | nämlich die vorherigen Nachnamen mit abgebildet. Wenn der Teilstring | 1456 | nämlich die vorherigen Nachnamen mit abgebildet. Wenn der Teilstring |
1500 | angegebene Nachname immer der Geburtsname ist. | 1465 | angegebene Nachname immer der Geburtsname ist. |
1501 | [ | 1466 | [68]Auch bei den IDs findet eine indirekte Zuordnung statt. Wenn eine |
1502 | Drittperson definiert ist und diese den Typ ›Ehemann‹ oder ›Ehefrau‹ | 1467 | Drittperson definiert ist und diese den Typ ›Ehemann‹ oder ›Ehefrau‹ |
1503 | aufweist, dann wird die ID des Ehepartners | 1468 | aufweist, dann wird die ID des Ehepartners / der Ehepartnerin hinzugefügt. Gleiches |
1504 | erfolgt bei | 1469 | erfolgt bei |
1511 | Dubletten ist hierbei die Quellenangabe (Band und Blatt) der Testamente. | 1476 | Dubletten ist hierbei die Quellenangabe (Band und Blatt) der Testamente. |
1512 | Wenn nur die ID eines Ehepartners | 1477 | Wenn nur die ID eines Ehepartners / einer Ehepartnerin verändert wird, deutet es darauf |
1513 | hin, dass | 1478 | hin, dass |
1516 | Drittperson fehlt. | 1481 | Drittperson fehlt. |
1517 | [ | 1482 | [69]Des Weiteren wird angenommen, dass die Testamentseröffnung kurz nach dem Tod |
1518 | vorgenommen wird. Liegt also kein Todestag vor, so wird das Jahr der | 1483 | vorgenommen wird. Liegt also kein Todestag vor, so wird das Jahr der |
1529 | idSpouse1, idSpouse2, idSpouse3 | 1494 | idSpouse1, idSpouse2, idSpouse3 |
1530 | Wenn eine Drittperson (›Rolle‹ | 1495 | Wenn eine Drittperson (›Rolle‹ == Drittperson / Verwandter) vom Typ |
1531 | Ehefrau oder Ehemann vorhanden ist (›Art der Beziehung‹), dann wird | 1496 | Ehefrau oder Ehemann vorhanden ist (›Art der Beziehung‹), dann wird |
1535 | idFather, idMother | 1500 | idFather, idMother |
1536 | Wenn eine Drittperson vom Typ Vater | 1501 | Wenn eine Drittperson vom Typ Vater / Mutter / Sohn / Tochter |
1537 | vorhanden ist, dann wird die ID entsprechend ergänzt. | 1502 | vorhanden ist, dann wird die ID entsprechend ergänzt. |
1544 | lastname | 1509 | lastname |
1545 | | 1510 | surnamenGiven, surnameUnkown, surnameMarriage1, surnameMarriage2, |
1546 | surnameMarriage3 | 1511 | surnameMarriage3 |
1552 | 1517 | ||
1553 | |||
1554 | Tab. 6: Indirekte Umwandlung der | 1518 | Tab. 6: Indirekte Umwandlung der |
1555 | KLK-Struktur in die Normform. [Goldberg | 1519 | KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] |
1556 | 1520 | ||
1559 | 1523 | ||
1560 | [ | 1524 | [70]Da sowohl in der KLK und KLF Personen mehrfach genannt werden können, ist |
1561 | zunächst ein Vergleich der beiden normformatierten Datentabellen mit sich | 1525 | zunächst ein Vergleich der beiden normformatierten Datentabellen mit sich |
1570 | auch umgesetzt worden sind. | 1534 | auch umgesetzt worden sind. |
1571 | [ | 1535 | [71]Dennoch wird eine manuelle Überprüfung der zusammengeführten Records |
1572 | vorgenommen. Da nicht alle Records überprüft werden können, werden nur die | 1536 | vorgenommen. Da nicht alle Records überprüft werden können, werden nur die |
1573 | Personen behandelt, deren Geburtsname mit ›A‹ beginnt.[ | 1537 | Personen behandelt, deren Geburtsname mit ›A‹ beginnt.[59] Von diesen 4.251 Records werden 651 |
1574 | zusammengeführt (15,3 Prozent). Dabei konnten einige falschpositive Ergebnisse | 1538 | zusammengeführt (15,3 Prozent). Dabei konnten einige falschpositive Ergebnisse |
1582 | Abitzsch (14457495 und 14458366), Maria Arnst (14556375 und 14556424) und Paul | 1546 | Abitzsch (14457495 und 14458366), Maria Arnst (14556375 und 14556424) und Paul |
1583 | Arnst (14556496 und 14560610). Bei dem | 1547 | Arnst (14556496 und 14560610). Bei dem / den Bäcker(n) Anton Arnoldt (14554173 und |
1584 | 14554184) wird es sich | 1548 | 14554184) wird es sich |
1594 | Falschpositiven bei 1,7 Prozent. | 1558 | Falschpositiven bei 1,7 Prozent. |
1595 | [ | 1559 | [72]Weiterhin ist auffällig, dass bei vielen Personen ein positiver Prioritätswert |
1596 | aufgrund gleicher Heiratsdaten oder gleicher Berufsangaben zustande kommt. | 1560 | aufgrund gleicher Heiratsdaten oder gleicher Berufsangaben zustande kommt. |
1604 | darstellt. | 1568 | darstellt. |
1605 | [ | 1569 | [73]Die Relevanz von Berufsangaben für den Prioritätswert führt auch dazu, dass |
1606 | etwas mehr Männer (58,7 Prozent) als Frauen zusammengeführt werden. Um mehr | 1570 | etwas mehr Männer (58,7 Prozent) als Frauen zusammengeführt werden. Um mehr |
1614 | priorisiert werden. | 1578 | priorisiert werden. |
1615 | [ | 1579 | [74]Bemerkenswert ist auch, dass Vor- und Nachname bei den zusammengeführten |
1616 | Personen in 90,6 Prozent der Fälle exakt übereinstimmen. Das liegt auch darin | 1580 | Personen in 90,6 Prozent der Fälle exakt übereinstimmen. Das liegt auch darin |
1622 | »Christine« etc.). | 1586 | »Christine« etc.). |
1623 | [ | 1587 | [75]Zudem ist zu vermuten, dass es im gesamten Datensatz eine nicht näher bekannte |
1624 | Anzahl von falschnegativen Zuordnungen gibt | 1588 | Anzahl von falschnegativen Zuordnungen gibt – also Records, die zusammengeführt |
1625 | werden müssten, es aber nicht wurden. Für diesen Abgleich wäre eine | 1589 | werden müssten, es aber nicht wurden. Für diesen Abgleich wäre eine |
1631 | eine mehrfache Iteration also hilfreich sein. | 1595 | eine mehrfache Iteration also hilfreich sein. |
1632 | [ | 1596 | [76]Dass mit dem hier vorgestellten Algorithmus jedoch ein |
1633 | erheblicher Teil der tatsächlich zusammenzuführenden Records auch | 1597 | erheblicher Teil der tatsächlich zusammenzuführenden Records auch |
1634 | zusammengeführt wird, zeigt ein Vergleich mit der Personenzusammenführung des | 1598 | zusammengeführt wird, zeigt ein Vergleich mit der Personenzusammenführung des |
1635 | Genealogie-Programms Ahnenblatt 2.99[ | 1599 | Genealogie-Programms Ahnenblatt 2.99[60]: Wird die GEDCOM-Datei dort hineingeladen und werden die |
1636 | Vorschläge zur Zusammenführung der Personen ohne weiteren manuellen Eingriff | 1600 | Vorschläge zur Zusammenführung der Personen ohne weiteren manuellen Eingriff |
1637 | ausgeführt, werden 25.329 von 241.466 Personen zusammengeführt.[ | 1601 | ausgeführt, werden 25.329 von 241.466 Personen zusammengeführt.[61] Das entspricht mit 10,5 |
1638 | Prozent einem deutlich geringeren Anteil als im Test der mit »A« beginnenden | 1602 | Prozent einem deutlich geringeren Anteil als im Test der mit »A« beginnenden |
1660 | KLK | 1624 | KLK |
1661 | 413 zusammengeführt bei 5.761 Personen (Anteil: 7,2 Prozent)[63] | 1625 | 413 zusammengeführt bei 5.761 Personen (Anteil: 7,2 Prozent)[62] |
1662 | 41 zusammengeführt bei 5.802 Personen (Anteil: 0,7 Prozent)[64] | 1626 | 41 zusammengeführt bei 5.802 Personen (Anteil: 0,7 Prozent)[63] |
1663 | |||
1664 | 1627 | ||
1666 | Tab. 7: Übersicht über die Anzahl | 1629 | Tab. 7: Übersicht über die Anzahl |
1667 | der verknüpften Personen aus den Normformen. [Goldberg | 1630 | der verknüpften Personen aus den Normformen. [Goldberg / Mernitz 2023] |
1668 | [ | 1631 | [77]Insgesamt sind die Ergebnisse des Algorithmus also gut: Ein nicht näher zu |
1669 | quantifizierender, aber erheblicher Teil der tatsächlich zusammenzuführenden | 1632 | quantifizierender, aber erheblicher Teil der tatsächlich zusammenzuführenden |
1675 | die Formalisierung und Automatisierung genealogischer Heuristiken kann | 1638 | die Formalisierung und Automatisierung genealogischer Heuristiken kann |
1676 | erweitert und das Record Linkage somit verbessert werden.[ | 1639 | erweitert und das Record Linkage somit verbessert werden.[64] |
1677 | 1640 | ||
1680 | 1643 | ||
1681 | [ | 1644 | [78]Gleiches mit Gleichem zu verbinden – darin besteht eine Herausforderung im Umgang |
1682 | mit historischen Personendaten. Der vorgestellte Ansatz leistet einen Beitrag, | 1645 | mit historischen Personendaten. Der vorgestellte Ansatz leistet einen Beitrag, |
1698 | Anpassung an die jeweiligen Herausforderungen. | 1661 | Anpassung an die jeweiligen Herausforderungen. |
1699 | [ | 1662 | [79]Hierbei zeigt sich sowohl ein großer Vorteil als auch ein großer Nachteil der |
1700 | vorgestellten Lösung: Der Vorteil besteht darin, dass der Algorithmus besonders | 1663 | vorgestellten Lösung: Der Vorteil besteht darin, dass der Algorithmus besonders |
1710 | Der Algorithmus kann hier beispielsweise bei der Erstellung von | 1673 | Der Algorithmus kann hier beispielsweise bei der Erstellung von |
1711 | Ortsfamilienbüchern ein nützliches Werkzeug sein. Hierzu gilt es in einem nächsten | 1674 | Ortsfamilienbüchern ein nützliches Werkzeug sein. |
1712 | Schritt, die Nachnutzung des Programmcodes niederschwelliger möglich zu machen, beispielsweise | 1675 | [80]Nachteilig ist der Algorithmus dahingegen, wenn nur wenige Informationen über die |
1713 | durch ein Webinterface. Ziel ist es, dass zwei Normform-Tabellen als CSV-Dateien in | ||
1714 | einem Webbrowser hochgeladen werden können. Hier würde zudem die Möglichkeit bestehen, | ||
1715 | diverse Funktionen des Algorithmus ab- oder anzuschalten oder Grenzwerte zu variieren. | ||
1716 | [83]Nachteilig ist der Algorithmus dahingegen, wenn nur wenige Informationen über die | ||
1717 | durch die Records beschriebenen Personen vorhanden sind. Sind beispielsweise nur | 1676 | durch die Records beschriebenen Personen vorhanden sind. Sind beispielsweise nur |
1727 | Nichtsdestotrotz stellt das entwickelte Programm ein geeignetes Grundgerüst für | 1686 | Nichtsdestotrotz stellt das entwickelte Programm ein geeignetes Grundgerüst für |
1728 | die Anpassung dar. Weiteres Potenzial besteht in der Evaluation und Integration von | 1687 | die Anpassung dar. |
1729 | Methoden maschinellen Lernens, die hier, wie eingangs erläutert, bewusst nicht genutzt | 1688 | [81] |
1730 | worden sind. | ||
1731 | 1689 | ||
1743 | werden öffentlich zur Verfügung gestellt und können zur Forschung und Bildung | 1701 | werden öffentlich zur Verfügung gestellt und können zur Forschung und Bildung |
1744 | genutzt werden. Vgl. Kaplan 2015, S. | 1702 | genutzt werden. Vgl. Kaplan 2015, S. 73. |
1745 | 1703 | ||
1749 | [3] | 1707 | [3] |
1750 | Vgl. Hin et | 1708 | Vgl. Hin et al. 2016, S. 50. |
1751 | 1709 | ||
1753 | Vgl. Feigenbaum 2016; | 1711 | Vgl. Feigenbaum 2016; |
1754 | Hin et | 1712 | Hin et al. 2016, S. 50, 52; |
1755 | Massey 2017, S. | 1713 | Massey 2017, S. 129, 131. |
1756 | 1714 | ||
1758 | Vgl. Massey 2017, | 1716 | Vgl. Massey 2017, |
1759 | S. | 1717 | S. 130. |
1760 | 1718 | ||
1770 | [8] | 1728 | [8] |
1771 | Als Einführung in die Grundlagen des Themas vgl. Gu et | 1729 | Als Einführung in die Grundlagen des Themas vgl. Gu et al. |
1772 | 2003. | 1730 | 2003. |
1779 | Resultate erzielt sie mit probabilistischen Matching-Techniken. Vgl. Massey | 1737 | Resultate erzielt sie mit probabilistischen Matching-Techniken. Vgl. Massey |
1780 | 2017, S. | 1738 | 2017, S. 129, 140. |
1781 | 1739 | ||
1782 | [10] | 1740 | [10] |
1783 | Vgl. Gellatly 2015, S. | 1741 | Vgl. Gellatly 2015, S. 114, 122. |
1784 | 1742 | ||
1786 | Vgl. | 1744 | Vgl. |
1787 | Christen et | 1745 | Christen et al. 2015, S. 87. |
1788 | 1746 | ||
1790 | 1748 | ||
1791 | Vgl. Georgala et | 1749 | Vgl. Georgala et al. 2015, S. 173. |
1792 | 1750 | ||
1793 | [13] | 1751 | [13] |
1794 | Vgl. Baxter et | 1752 | Vgl. Baxter et al. |
1795 | 2003, S. | 1753 | 2003, S. 2. |
1796 | 1754 | ||
1800 | Restriktionen einbeziehe, beispielsweise des möglichen | 1758 | Restriktionen einbeziehe, beispielsweise des möglichen |
1801 | Schwangerschaftszeitraums der Frau. Vgl. Nanayakkara et | 1759 | Schwangerschaftszeitraums der Frau. Vgl. Nanayakkara et al. |
1802 | 2018. | 1760 | 2018. |
1804 | [15] | 1762 | [15] |
1805 | Vgl. Gellatly 2015, S. | 1763 | Vgl. Gellatly 2015, S. 116. |
1806 | 1764 | ||
1807 | [16] | 1765 | [16] |
1808 | Vgl. Gellatly 2015, S. | 1766 | Vgl. Gellatly 2015, S. 122f. |
1809 | 1767 | ||
1810 | [17] | 1768 | [17] |
1811 | Vgl. Efremova et | 1769 | Vgl. Efremova et al. 2015. |
1812 | 1770 | ||
1813 | [18] | 1771 | [18] |
1814 | Vgl. Thorvaldsen et | 1772 | Vgl. Thorvaldsen et al. 2015, S. |
1815 | 163f. | 1773 | 163f. |
1817 | [19] | 1775 | [19] |
1818 | Vgl. Thorvaldsen et | 1776 | Vgl. Thorvaldsen et al. 2015, S. |
1819 | 168. | 1777 | 168. |
1821 | [20] | 1779 | [20] |
1822 | Vgl. Georgala et | 1780 | Vgl. Georgala et al. 2015, S. 187. |
1823 | 1781 | ||
1837 | [24] | 1795 | [24] |
1838 | Vgl. Delpeuch et al. 2023. | 1796 | Vgl. |
1797 | Abramitzky et al. 2021. | ||
1839 | 1798 | ||
1840 | [25] | 1799 | [25] |
1841 | Vgl. | 1800 | Vgl. Abramitzky et al. 2021, S. 865. |
1842 | Abramitzky et al. 2021. | ||
1843 | 1801 | ||
1844 | [26] | 1802 | [26] |
1845 | Vgl. Abramitzky et | 1803 | Vgl. Abramitzky et al. 2020, S. 94. |
1846 | 1804 | ||
1847 | [27] | 1805 | [27] |
1848 | Vgl. Abramitzky et al. 2020, S. 94. | ||
1849 | |||
1850 | [28] | ||
1851 | Dieses stellt zugleich | 1806 | Dieses stellt zugleich |
1853 | Record-Linkage-Algorithmen in der ökonomischen Forschung dar. Vgl. | 1808 | Record-Linkage-Algorithmen in der ökonomischen Forschung dar. Vgl. |
1854 | Abramitzky et al. 2020, S. 106f. | 1809 | Abramitzky et al. 2020, S. 106f. |
1810 | |||
1811 | [28] | ||
1812 | |||
1813 | Efremova et al. nennen beispielsweise Variablen, die sie aus der Analyse von | ||
1814 | Geburts-, Todes- und Heiratsdokumenten erhalten. Vgl. Efremova et al. 2015, | ||
1815 | S. 132. | ||
1855 | 1816 | ||
1856 | [29] | 1817 | [29] |
1857 | 1818 | Vgl. Gellatly 2015, S. | |
1858 | Efremova et al. nennen beispielsweise Variablen, die sie aus der Analyse von | 1819 | 112; Harviainen / Björk 2018, S. 4. |
1859 | Geburts-, Todes- und Heiratsdokumenten erhalten. Vgl. Efremova et al. 2015, | ||
1860 | S. 132. | ||
1861 | 1820 | ||
1862 | [30] | 1821 | [30] |
1863 | Vgl. Gellatly 2015, S. | ||
1864 | 112; Harviainen / Björk 2018, S. 4. | ||
1865 | |||
1866 | [31] | ||
1867 | Vgl. The Church of Jesus | 1822 | Vgl. The Church of Jesus |
1869 | 1824 | ||
1870 | [ | 1825 | [31] |
1871 | Vgl. | 1826 | Vgl. |
1873 | 1828 | ||
1874 | [ | 1829 | [32] |
1875 | Vgl. Verein für | 1830 | Vgl. Verein für |
1877 | 1832 | ||
1878 | [ | 1833 | [33] |
1879 | In | 1834 | In |
1889 | 1844 | ||
1890 | [ | 1845 | [34] |
1891 | Sollten mehr als zwei Datensätze | 1846 | Sollten mehr als zwei Datensätze |
1897 | 1852 | ||
1898 | [ | 1853 | [35] |
1899 | Vgl. | 1854 | Vgl. |
1901 | 1856 | ||
1902 | [ | 1857 | [36] |
1903 | Ortsangaben | 1858 | Ortsangaben |
1914 | Bevölkerung ist es wahrscheinlicher, dass Lebensereignisse in einer | 1869 | Bevölkerung ist es wahrscheinlicher, dass Lebensereignisse in einer |
1915 | begrenzten geografischen Distanz stattgefunden haben. Vgl. Bähr et | 1870 | begrenzten geografischen Distanz stattgefunden haben. Vgl. Bähr et al. |
1916 | 1992; Kocka et | 1871 | 1992; Kocka et al. 1980. Für den Erfolg eines Record Linkage kann es also |
1917 | auch relevant sein, ob Orte geografisch nah beieinander zu finden sind. | 1872 | auch relevant sein, ob Orte geografisch nah beieinander zu finden sind. |
1918 | Vgl. Efremova et | 1873 | Vgl. Efremova et al. 2015, S. 135, 139–141. Die Aufbereitung der Ortsangaben |
1919 | kann an den von Goldberg definierten, auf den deutschen Sprachraum | 1874 | kann an den von Goldberg definierten, auf den deutschen Sprachraum |
1923 | 1878 | ||
1924 | [ | 1879 | [37] |
1925 | In der deutschen Sprache enden Frauennamen traditionell | 1880 | In der deutschen Sprache enden Frauennamen traditionell |
1931 | 1886 | ||
1887 | [38] | ||
1888 | Zur | ||
1889 | Separierung solcher berufsfernen Angaben kann auf Goldberg / Moeller 2022 hingewiesen werden, die Kriterien zur Bereinigung von Berufsangaben aufstellen. | ||
1890 | |||
1932 | [39] | 1891 | [39] |
1933 | Zur | 1892 | 230 = 1.073.741.824. |
1934 | Separierung solcher berufsfernen Angaben kann auf Goldberg / Moeller 2022 hingewiesen werden, die Kriterien zur Bereinigung von Berufsangaben aufstellen. | ||
1935 | 1893 | ||
1936 | [40] | 1894 | [40] |
1937 | | 1895 | 1.073.741.8242 = 1.152.921.504.606.850.000. |
1938 | 1896 | ||
1939 | [41] | 1897 | [41] |
1940 | 1.073.741.8242 = 1.152.921.504.606.850.000. | 1898 | Sonderformen bei einzelnen |
1899 | Glaubensgemeinschaften, z. B. die Totentaufe der Mormonen, bleiben | ||
1900 | unberücksichtigt. | ||
1941 | 1901 | ||
1942 | [42] | 1902 | [42] |
1943 | Sonderformen bei einzelnen | ||
1944 | Glaubensgemeinschaften, z. B. die Totentaufe der Mormonen, bleiben | ||
1945 | unberücksichtigt. | ||
1946 | |||
1947 | [43] | ||
1948 | Der Vergleich darf sich aber nicht nur auf einzelne Vornamen | 1903 | Der Vergleich darf sich aber nicht nur auf einzelne Vornamen |
1956 | 1911 | ||
1957 | [ | 1912 | [43] |
1958 | Beispielsweise ist eine Person, die als | 1913 | Beispielsweise ist eine Person, die als |
1963 | 1918 | ||
1964 | [ | 1919 | [44] |
1965 | Die hier definierten Regeln | 1920 | Die hier definierten Regeln |
1968 | 1923 | ||
1969 | [ | 1924 | [45] |
1970 | Wenn für | 1925 | Wenn für |
1975 | 1930 | ||
1976 | [ | 1931 | [46] |
1977 | 1932 | ||
1981 | 1936 | ||
1937 | [47] | ||
1938 | Vgl. Georgala et al. 2015, S. | ||
1939 | 187. | ||
1940 | |||
1982 | [48] | 1941 | [48] |
1983 | | 1942 | Receiver Operating Characteristic, vgl. Fan et al. |
1984 | | 1943 | 2006. |
1985 | 1944 | ||
1986 | [49] | 1945 | [49] |
1987 | Receiver Operating Characteristic, vgl. Fan et al. | 1946 | Vgl. Georgala et al. 2015, S. 185. |
1988 | 2006. | ||
1989 | 1947 | ||
1990 | [50] | 1948 | [50] |
1991 | Vgl. | 1949 | Vgl. Postel 1969, S. 928. |
1992 | 1950 | ||
1993 | [51] | 1951 | [51] |
1994 | Vgl. | 1952 | Vgl. Schönfelder / Börngen 2015, S. 39. |
1995 | 1953 | ||
1996 | [52] | 1954 | [52] |
1997 | Vgl. Schönfelder / Börngen 2015, S. 39. | ||
1998 | |||
1999 | [53] | ||
2000 | Bei der KLK ist vor allem | 1955 | Bei der KLK ist vor allem |
2003 | 1958 | ||
2004 | [ | 1959 | [53] |
2005 | Munke 2019, S. | 1960 | Munke 2019, S. 118. |
2006 | Personen innerhalb der KLF können also doppelt vorkommen, indem sie auf | 1961 | Personen innerhalb der KLF können also doppelt vorkommen, indem sie auf |
2011 | 1966 | ||
2012 | [ | 1967 | [54] |
2013 | Für eine | 1968 | Für eine |
2016 | 1971 | ||
2017 | [ | 1972 | [55] |
2018 | Online durchsuchbar, vgl. Verein für Computergenealogie | 1973 | Online durchsuchbar, vgl. Verein für Computergenealogie |
2020 | 1975 | ||
2021 | [ | 1976 | [56] |
2022 | Erwähnenswert ist, dass nicht jedes Feld einen Eintrag | 1977 | Erwähnenswert ist, dass nicht jedes Feld einen Eintrag |
2025 | 1980 | ||
2026 | [ | 1981 | [57] |
2027 | Sächsisches Staatsarchiv. Bestand 20009 Amt | 1982 | Sächsisches Staatsarchiv. Bestand 20009 Amt |
2029 | 1984 | ||
1985 | [58] | ||
1986 | Verein für Computergenealogie 2019–2021. | ||
1987 | |||
2030 | [59] | 1988 | [59] |
2031 | Verein für Computergenealogie 2019–2021. | ||
2032 | |||
2033 | [60] | ||
2034 | 1989 | ||
2039 | 1994 | ||
2040 | [ | 1995 | [60] |
2041 | Vgl. Böttcher | 1996 | Vgl. Böttcher |
2043 | 1998 | ||
1999 | [61] | ||
2000 | Die Zusammenführung basiert hierbei auf gleichen Namen und | ||
2001 | einem gleichen Ereignisdatum (z. B. das Taufdatum) und betrifft auch die | ||
2002 | nähere Verwandtschaft der betreffenden Personen wie die Eltern, Kinder oder | ||
2003 | Geschwister. Vgl. Böttcher 2018, S. 17. | ||
2004 | |||
2044 | [62] | 2005 | [62] |
2045 | Die Zusammenführung basiert hierbei auf gleichen Namen und | ||
2046 | einem gleichen Ereignisdatum (z. B. das Taufdatum) und betrifft auch die | ||
2047 | nähere Verwandtschaft der betreffenden Personen wie die Eltern, Kinder oder | ||
2048 | Geschwister. Vgl. Böttcher 2018, S. 17. | ||
2049 | |||
2050 | [63] | ||
2051 | Hier werden die Daten genutzt, nachdem die KLF und | 2006 | Hier werden die Daten genutzt, nachdem die KLF und |
2055 | 2010 | ||
2056 | [ | 2011 | [63] |
2057 | Die KLK enthält zwar 6.524 Personendatensätze. Die | 2012 | Die KLK enthält zwar 6.524 Personendatensätze. Die |
2061 | 2016 | ||
2062 | [ | 2017 | [64] |
2063 | 2018 | ||
2075 | 2030 | ||
2076 | Ran Abramitzky | 2031 | Ran Abramitzky / Leah Boustan / Katherine Eriksson / James Feigenbaum / |
2077 | Santiago Pérez: Automated Linking of Historical Data. In: Journal of Economic | 2032 | Santiago Pérez: Automated Linking of Historical Data. In: Journal of Economic |
2078 | Literature 59 (2021), H. 3, S. | 2033 | Literature 59 (2021), H. 3, S. 865–918. DOI: 10.1257/jel.20201599 |
2079 | [Nachweis im GVK] Ran Abramitzky | 2034 | [Nachweis im GVK] Ran Abramitzky / Roy Mill / Santiago Pérez: Linking individuals across |
2080 | historical sources: A fully automated approach. In: Historical Methods: A Journal | 2035 | historical sources: A fully automated approach. In: Historical Methods: A Journal |
2081 | of Quantitative and Interdisciplinary History 53 (2020), H. 2, S. | 2036 | of Quantitative and Interdisciplinary History 53 (2020), H. 2, S. 94–111. DOI: 10.1080/01615440.2018.1543034 |
2082 | [Nachweis im GVK] Jürgen Bähr | 2037 | [Nachweis im GVK] Jürgen Bähr / Christoph Jentsch / Wolfgang Kuls: Bevölkerungsgeographie. Berlin |
2083 | u. | 2038 | u. a. 1992. (= Lehrbuch der allgemeinen Geographie, 9). [Nachweis im GVK] Rohan Baxter / Peter Christen / Tim Churches: A Comparison of Fast Blocking |
2084 | Methods for Record Linkage. 2003. PDF. [online]Dirk Böttcher: Ahnenblatt Handbuch. 2018. PDF. [online]Peter Christen | 2039 | Methods for Record Linkage. 2003. PDF. [online]Dirk Böttcher: Ahnenblatt Handbuch. 2018. PDF. [online]Peter Christen / Dinusha Vatsalan / Zhichun Fu: Advanced Record Linkage Methods |
2085 | and Privacy Aspects for Population Reconstruction. A Survey and Case Studies. In: | 2040 | and Privacy Aspects for Population Reconstruction. A Survey and Case Studies. In: |
2086 | Population Reconstruction. Hg. von Gerrit Bloothooft | 2041 | Population Reconstruction. Hg. von Gerrit Bloothooft / Peter Christen / Kees |
2087 | Mandemakers | 2042 | Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 87–110. DOI: 10.1007/978-3-319-19884-2_5 |
2088 | [Nachweis im GVK] The Church of Jesus Christ of Latter-day Saints: The GEDCOM Standard. Salt Lake City | 2043 | [Nachweis im GVK] The Church of Jesus Christ of Latter-day Saints: The GEDCOM Standard. Salt Lake City |
2089 | 2019. Release | 2044 | 2019. Release |
2090 | 5.5.1. vom 15.11.2019. PDF. [online]Antonin Delpeuch / Adrian Pohl / Fabian Steeg / Thad Guidry Sr. / Osma Suominen: Reconciliation | 2045 | 5.5.1. vom 15.11.2019. PDF. [online]Julia Efremova / Bijan Ranjbar-Sahraei / Hossein Rahmani / Frans A. Oliehoek / |
2091 | Service API v0.2. A Protocol for Data Matching on the Web. Final Community Group Report. | 2046 | Toon Calders / Karl Tuyls / Gerhard Weiss: Multi-Source Entity Resolution for |
2092 | 10.04.2023. HTML. [online]Julia Efremova / Bijan Ranjbar-Sahraei / Hossein Rahmani / Frans A. Oliehoek / | 2047 | Genealogical Data. In: Population Reconstruction. Hg. von Gerrit Bloothooft / |
2093 | Toon Calders / Karl Tuyls / Gerhard Weiss: Multi-Source Entity Resolution for | 2048 | Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 129–154. |
2094 | Genealogical Data. In: Population Reconstruction. Hg. von Gerrit Bloothooft / | 2049 | DOI: 10.1007/978-3-319-19884-2_7 [Nachweis im GVK] Jerome Fan / Suneel Upadhye / Andrew Worster: Understanding receiver operating |
2095 | Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 129–154. | ||
2096 | DOI: 10.1007/978-3-319-19884-2_7 [Nachweis im GVK] Jerome Fan / Suneel Upadhye / Andrew Worster: Understanding receiver operating | ||
2097 | characteristic (ROC) curves. In: Canadian Journal of Emergency Medicine 8 (2006), | 2050 | characteristic (ROC) curves. In: Canadian Journal of Emergency Medicine 8 (2006), |
2098 | H. | 2051 | H. 1, S. 19–20. DOI: 10.1017/S1481803500013336 [Nachweis im GVK] James J. Feigenbaum: Automated census record linking: a machine learning |
2099 | approach. 2016. Handle: 2144/27526Eli Fure: Interactive Record Linkage: The Cumulative Construction of Life | 2052 | approach. 2016. Handle: 2144/27526Eli Fure: Interactive Record Linkage: The Cumulative Construction of Life |
2100 | Courses. In: Demographic Research 3 (2000). 12.12.2000. DOI: 10.4054/DemRes.2000.3.11Corry Gellatly: Reconstructing Historical Populations from Genealogical Data | 2053 | Courses. In: Demographic Research 3 (2000). 12.12.2000. DOI: 10.4054/DemRes.2000.3.11Corry Gellatly: Reconstructing Historical Populations from Genealogical Data |
2101 | Files. In: Population Reconstruction. Hg. von Gerrit Bloothooft | 2054 | Files. In: Population Reconstruction. Hg. von Gerrit Bloothooft / Peter Christen / |
2102 | Kees Mandemakers | 2055 | Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 111–128. DOI: 10.1007/978-3-319-19884-2_6 |
2103 | [Nachweis im GVK] Kleanthi Georgala | 2056 | [Nachweis im GVK] Kleanthi Georgala / Benjamin van der Burgh / Marvin Meeng / Arno Knobbe: Record |
2104 | Linkage in Medieval and Early Modern Text. In: Population Reconstruction. Hg. von | 2057 | Linkage in Medieval and Early Modern Text. In: Population Reconstruction. Hg. von |
2105 | Gerrit Bloothooft | 2058 | Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u. |
2106 | a. 2015, S. | 2059 | a. 2015, S. 173–195. DOI: 10.1007/978-3-319-19884-2_9 [Nachweis im GVK] Jan Michael Goldberg: Kontextsensitive Entscheidungsfindung zur automatisierten |
2107 | Identifizierung und Clusterung deutschsprachiger Urbanonyme. In: Zeitschrift für | 2060 | Identifizierung und Clusterung deutschsprachiger Urbanonyme. In: Zeitschrift für |
2108 | digitale Geisteswissenschaften 7 (2022). 10.10.2022. DOI: 10.17175/2022_005Jan Michael Goldberg | 2061 | digitale Geisteswissenschaften 7 (2022). 10.10.2022. DOI: 10.17175/2022_005Jan Michael Goldberg / Katrin Moeller: Automatisierte Identifikation und |
2109 | Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen | 2062 | Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen |
2110 | Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 08.03.2022. | 2063 | Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 08.03.2022. |
2111 | DOI: 10.17175/2022_002Lifang Gu | 2064 | DOI: 10.17175/2022_002Lifang Gu / Rohan Baxter / Deanne Vickers / Chris Rainsford: Record Linkage: |
2112 | Current Practice and Future Directions. In: CMIS Technical Report 03/83 (2003). | 2065 | Current Practice and Future Directions. In: CMIS Technical Report 03/83 (2003). |
2113 | PDF. [online]J. Tuomas Harviainen | 2066 | PDF. [online]J. Tuomas Harviainen / Bo-Christer Björk: Genealogy, GEDCOM, and popularity |
2114 | implications. In: Informaatiotutkimus 37 (2018), H. | 2067 | implications. In: Informaatiotutkimus 37 (2018), H. 3, S. 4–14. DOI: 10.23978/inf.76066 [Nachweis im GVK] Saskia Hin / Dalia A. Conde / Adam Lenart: New light on Roman census papyri |
2115 | through semi-automated record linkage. In: Historical Methods: A Journal of | 2068 | through semi-automated record linkage. In: Historical Methods: A Journal of |
2116 | Quantitative and Interdisciplinary History 49 (2016), H. 1, S. | 2069 | Quantitative and Interdisciplinary History 49 (2016), H. 1, S. 50–65. DOI: 10.1080/01615440.2015.1071226 |
2117 | [Nachweis im GVK] Frédéric Kaplan: The Venice Time Machine. In: DocEng ’15: Proceedings of the | 2070 | [Nachweis im GVK] Frédéric Kaplan: The Venice Time Machine. In: DocEng ’15: Proceedings of the |
2118 | 2015 ACM Symposium on Document Engineering (DocEng, Lausanne, 08.–11.09.2015). New | 2071 | 2015 ACM Symposium on Document Engineering (DocEng, Lausanne, 08.–11.09.2015). New |
2119 | York 2015, S. | 2072 | York 2015, S. 73. DOI: 10.1145/2682571.2797071Jürgen Kocka / Karl Ditt / Josef Mooser / Heinz Reif / Reinhard Schüren: |
2120 | Familie und soziale Platzierung. Studien zum Verhältnis von Familie, sozialer | 2073 | Familie und soziale Platzierung. Studien zum Verhältnis von Familie, sozialer |
2121 | Mobilität und Heiratsverhalten an westfälischen Beispielen im späten 18. und 19. | 2074 | Mobilität und Heiratsverhalten an westfälischen Beispielen im späten 18. und 19. |
2122 | Jahrhundert. Wiesbaden 1980 (= | 2075 | Jahrhundert. Wiesbaden 1980 (= Forschungsberichte des Landes Nordrhein-Westfalen, |
2123 | 2953). DOI: 10.1007/978-3-322-87746-8Catherine G. Massey: Playing with matches: An assessment of accuracy in linked | 2076 | 2953). DOI: 10.1007/978-3-322-87746-8Catherine G. Massey: Playing with matches: An assessment of accuracy in linked |
2124 | historical data. In: Historical Methods: A Journal of Quantitative and | 2077 | historical data. In: Historical Methods: A Journal of Quantitative and |
2125 | Interdisciplinary History 50 (2017), H. 3, S. | 2078 | Interdisciplinary History 50 (2017), H. 3, S. 129–143. DOI: 10.1080/01615440.2017.1288598 |
2126 | [Nachweis im GVK] Martin Munke: Citizen Science | 2079 | [Nachweis im GVK] Martin Munke: Citizen Science / Bürgerwissenschaft. Projekte, Probleme, |
2127 | Perspektiven am Beispiel Sachsen. In: Forschungsdesign 4.0. Datengenerierung und | 2080 | Perspektiven am Beispiel Sachsen. In: Forschungsdesign 4.0. Datengenerierung und |
2128 | Wissenstransfer in interdisziplinärer Perspektive. Hg. von Jens Klingner | 2081 | Wissenstransfer in interdisziplinärer Perspektive. Hg. von Jens Klingner / Merve |
2129 | Lühr (Dresden, 19.–21.04.2018). Dresden 2019, S. | 2082 | Lühr (Dresden, 19.–21.04.2018). Dresden 2019, S. 107–124. DOI: 10.25366/2019.11Charini Nanayakkara / Peter Christen / Thilina Ranbaduge: Temporal graph-based |
2130 | clustering for historical record linkage. In: Proceedings of 14th International | 2083 | clustering for historical record linkage. In: Proceedings of 14th International |
2133 | Personennamen auf der Grundlage der Gestaltanalyse. In: IBM-Nachrichten 19 (1969), | 2086 | Personennamen auf der Grundlage der Gestaltanalyse. In: IBM-Nachrichten 19 (1969), |
2134 | S. | 2087 | S. 925–931. [Nachweis im GVK] Günther Schönfelder / Michael Börngen: Naturräumliche Grundlagen. Landschaft |
2135 | und Klima. In: Geschichte der Stadt Leipzig. Hg. von Uwe John | 2088 | und Klima. In: Geschichte der Stadt Leipzig. Hg. von Uwe John / Enno Bünz. 4 Bde. |
2136 | Leipzig 2015–2019. Bd. 1 (2015): Von den Anfängen bis zur Reformation, S. | 2089 | Leipzig 2015–2019. Bd. 1 (2015): Von den Anfängen bis zur Reformation, S. 33–47. |
2137 | [Nachweis im GVK] Peter Schulz: GEDTOOL. Makrosammlung für GEDCOM-Dateien. V. 2.7 vom 14.09.2017. | 2090 | [Nachweis im GVK] Peter Schulz: GEDTOOL. Makrosammlung für GEDCOM-Dateien. V. 2.7 vom 14.09.2017. |
2138 | PDF. [online] Gunnar Thorvaldsen | 2091 | PDF. [online] Gunnar Thorvaldsen / Andersen Trygve / Hilde L. Sommerseth: Record Linkage in |
2139 | the Historical Population Register for Norway. In: Population Reconstruction. | 2092 | the Historical Population Register for Norway. In: Population Reconstruction. |
2140 | Hg. von Gerrit Bloothooft | 2093 | Hg. von Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn Schraagen. |
2141 | Cham u. | 2094 | Cham u. a. 2015, S. 155–171. DOI: 10.1007/978-3-319-19884-2_8 [Nachweis im GVK] Time Machine Organisation: Local Time Machines. 2022. HTML. [online]Verein für Computergenealogie (2016a): Gedbas4all / Datenmodell. In: GenWiki. |
2142 | Das Genealogie-Wiki. 2016. HTML. [online] Verein für Computergenealogie (2016b): Gedbas4all | 2095 | Das Genealogie-Wiki. 2016. HTML. [online] Verein für Computergenealogie (2016b): Gedbas4all / Datumsangaben. In: GenWiki. |
2143 | Das Genealogie-Wiki. 2016. HTML. [online]Verein für Computergenealogie: Kartei Leipziger Familien. In: GenWiki. Das | 2096 | Das Genealogie-Wiki. 2016. HTML. [online]Verein für Computergenealogie: Kartei Leipziger Familien. In: GenWiki. Das |
2149 | 2102 | ||
2150 | |||
2151 | |||
2152 | Abbildungs- und Tabellenverzeichnis | 2103 | Abbildungs- und Tabellenverzeichnis |
2153 | 2104 | ||
2154 | Abb. 1: Ablauf der Datenverarbeitung. [Goldberg / Mernitz 2023] | 2105 | |
2155 | Abb. 2: Funktionsweise des Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz | 2106 | Abb. 1: |
2107 | Ablauf der Datenverarbeitung. [Goldberg / Mernitz 2023] | ||
2108 | |||
2109 | |||
2110 | Abb. 2: | ||
2111 | Funktionsweise des Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz | ||
2156 | 2023] | 2112 | 2023] |
2113 | |||
2114 | |||
2157 | Tab. 1: | 2115 | Tab. 1: |
2158 | Definition von Datenfeldern. [Goldberg / Mernitz 2023] | 2116 | Definition von Datenfeldern. [Goldberg / Mernitz 2023] |
2117 | |||
2118 | |||
2159 | Tab. 2: | 2119 | Tab. 2: |
2160 | Zusätzliche Variablen eines zusammengeführten Datensatzes. [Goldberg / Mernitz 2023] | 2120 | Zusätzliche Variablen eines zusammengeführten Datensatzes. [Goldberg / Mernitz 2023] |
2121 | |||
2122 | |||
2161 | Tab. 3: | 2123 | Tab. 3: |
2162 | Direkte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] | 2124 | Direkte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] |
2125 | |||
2126 | |||
2163 | Tab. 4: | 2127 | Tab. 4: |
2164 | Indirekte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] | 2128 | Indirekte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] |
2129 | |||
2130 | |||
2165 | Tab. 5: | 2131 | Tab. 5: |
2166 | Direkte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] | 2132 | Direkte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] |
2133 | |||
2134 | |||
2167 | Tab. 6: | 2135 | Tab. 6: |
2168 | Indirekte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] | 2136 | Indirekte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] |
2137 | |||
2138 | |||
2169 | Tab. 7: | 2139 | Tab. 7: |
2170 | Übersicht über die Anzahl der verknüpften Personen aus den Normformen. [Goldberg | 2140 | Übersicht über die Anzahl der verknüpften Personen aus den Normformen. [Goldberg / |
2171 | Mernitz 2023] | 2141 | Mernitz 2023] |