Versionen vergleichen von : Automatisiertes Record Linkage in prosopographischen Datenbeständen am Beispiel historischer Quellen Leipzigs

AltNeu
1Automatisiertes Record Linkage in prosopographischen Datenbeständen am Beispiel historischer Quellen Leipzigs 1Automatisiertes Record Linkage in prosopographischen Datenbeständen am Beispiel historischer Quellen Leipzigs
2
3 2
10 9
11 DOI: 10.17175/2023_001_v2 10 DOI: 10.17175/2023_001
12 Nachweis im OPAC der Herzog August Bibliothek: 185844733X 11 Nachweis im OPAC der Herzog August Bibliothek: 1819370283
13 Erstveröffentlichung: 26.01.2023 12 Erstveröffentlichung: 26.01.2023
14 Version 2.0: 29.09.2023
15 Lizenz: Sofern nicht anders angegeben 13 Lizenz: Sofern nicht anders angegeben
18 Medienlizenzen: Medienrechte liegen bei den Autor*innen 16 Medienlizenzen: Medienrechte liegen bei den Autor*innen
19 Letzte Überprüfung aller Verweise: 31.08.2023 17 Letzte Überprüfung aller Verweise: 12.01.2023
20 GND-Verschlagwortung: Duplikaterkennung | Datenverknüpfung | Personenbezogene Daten | Algorithmus | Genealogie | Geschichtswissenschaft |  18 GND-Verschlagwortung: Duplikaterkennung | Datenverknüpfung | Personenbezogene Daten | Algorithmus | Genealogie | Geschichtswissenschaft | 
21 Empfohlene Zitierweise: Jan Michael Goldberg / Marcel Mernitz: Automatisiertes Record Linkage in prosopographischen 19 Empfohlene Zitierweise: Jan Michael Goldberg, Marcel Mernitz: Automatisiertes Record Linkage in prosopographischen
22 Datenbeständen am Beispiel historischer Quellen Leipzigs. In: Zeitschrift für digitale Geisteswissenschaften 8 (2023). 26.01.2023. Version 2.0 vom 29.09.2023. HTML / XML / PDF. DOI: 10.17175/2023_001_v2 20 Datenbeständen am Beispiel historischer Quellen Leipzigs. In: Zeitschrift für digitale Geisteswissenschaften 8 (2023). HTML / XML / PDF. DOI: 10.17175/2023_001
21
23 22
27 Abstract 26 Abstract
28
29 In dieser Studie wird ein automatisierter Ansatz zum Record Linkage in 27 In dieser Studie wird ein automatisierter Ansatz zum Record Linkage in
55 53
56
57
58
59 Version 2.0 (29.09.2023)
60 Inhaltliche Ergänzungen an mehreren Stellen gemäß Gutachten.
61 54
142 historischen Leipziger Quellen unterzieht. Abschließend wird das Ergebnis 135 historischen Leipziger Quellen unterzieht. Abschließend wird das Ergebnis
143 zusammengefasst. Der Algorithmus selbst wird in der Programmiersprache Python 3.8 136 zusammengefasst. Der Algorithmus selbst wird in der Programmiersprache Python 3.6
144 umgesetzt und ist im Online-Repositorium zu finden. 137 umgesetzt und ist im Online-Repositorium zu finden.
167 [6]Zum Record Linkage können verschiedenste Variablen herangezogen werden. 160 [6]Zum Record Linkage können verschiedenste Variablen herangezogen werden.
168 Grundlegend dabei ist, dass Variablen / Attribute zur Verfügung stehen, die 161 Grundlegend dabei ist, dass Variablen / Attribute zur Verfügung stehen, die
169 einen identischen Schlüssel aufweisen.[13] Dies kann beispielsweise der Name, das Geburtsdatum 162 einen identischen Schlüssel aufweisen.[13] Dies kann beispielsweise der Name, das Geburtsdatum
178 Vornamens.[16] 171 Vornamens.[16]
179 [8]Efremova et al. nutzen dahingegen ein ›disjunctive blocking‹.[17] Darin werden die ersten 172 [8]Efremova et al. nutzen dahingegen ein ›disjunctive blocking‹.[17] Darin werden die ersten
180 Buchstaben eines Namens einer phonetischen Analyse unterzogen. Nur, wenn diese 173 Buchstaben eines Namens einer phonetischen Analyse unterzogen. Nur, wenn diese
185 Distanz. 178 Distanz.
186 [9]Statt einer binären Verknüpfung (Zuordnung / keine Zuordnung) gibt es auch 179 [9]Statt einer binären Verknüpfung (Zuordnung / keine Zuordnung) gibt es auch
187 Systeme, die Abstufungen verwenden. Sichere Verknüpfungen werden darin anders 180 Systeme, die Abstufungen verwenden. Sichere Verknüpfungen werden darin anders
191 Verknüpfung.[19] 184 Verknüpfung.[19]
192 [10]Anhand englischer Daten zeigen Georgala et al., dass String-Metriken wie die 185 [10]Anhand englischer Daten zeigen Georgala et al., dass String-Metriken wie die
193 Levenshtein- oder Jaro-Winkler-Distanz besser als phonetische 186 Levenshtein- oder Jaro-Winkler-Distanz besser als phonetische
196 [11]Zur Unterstützung des Record Linkage existieren verschiedene Programme. In 189 [11]Zur Unterstützung des Record Linkage existieren verschiedene Programme. In
197 diese wird hier nicht im Detail eingeführt. Lediglich beispielhaft genannt werden 190 diese soll hier nicht im Detail eingeführt werden. Beispielhaft genannt wird
198 drei Lösungen. Eine Lösung, die explizit auf das Record Linkage von genealogischen 191 eine Lösung, die explizit auf das Record Linkage von genealogischen
199 GEDCOM-Dateien (GEnealogical Data COMmunication, siehe unten) ausgelegt ist: GedTool.[21] Zur Identifizierung von Dateneinträgen zu gleichen Personen können darin bis zu acht 192 GEDCOM-Dateien (GEnealogical Data COMmunication, siehe unten) ausgelegt ist: GedTool.[21] Zur Verschmelzung
200 Kriterien wie der Vorname, der Nachname 193 von Personen können darin bis zu acht Kriterien wie der Vorname, der Nachname
201 oder eine ID bestimmt werden. Stimmen diese überein, kann ein Record Linkage stattfinden. 194 oder eine ID bestimmt werden, die übereinstimmen müssen, damit Personen
202 Alle Einträge, die den definierten Kriterien entsprechen, 195 verschmolzen werden können. Die Einträge, auf die die Kriterien zutreffen,
203 werden gemeinsam angezeigt und können nachfolgend manuell zusammengeführt 196 werden gemeinsam angezeigt und können dann nachfolgend manuell zusammengeführt
204 werden. Eine phonetische Suche mit den Algorithmen Soundex, Kölner 197 werden. Eine phonetische Suche mit den Algorithmen Soundex, Kölner
205 Phonetik und Double Metaphone kann ebenfalls ausgeführt werden.[22] Hierbei handelt es 198 Phonetik und Double Metaphone kann ebenfalls ausgeführt werden.[22] Hierbei handelt es
206 sich demnach um eine semi-automatisierte Lösung. 199 sich also um eine semi-automatisierte Lösung.
207 [12]Ein weiteres Record-Linkage-Programm stellt Demolink dar. Eli Fure evaluiert dieses anhand norwegischer Daten. Sie kommt zu dem 200 [12]Ein weiteres Record-Linkage-Programm stellt Demolink dar. Fure evaluiert dieses anhand norwegischer Daten und kommt zu dem
208 Schluss, dass für die Anwendung eine Vorstellung über den historischen Kontext einer 201 Schluss, dass eine Vorstellung über den historischen Kontext einer Quelle
209 Quelle 202 notwendig ist, um – im Vergleich mit einer automatisierten Lösung – gute
210 notwendig ist, um bessere Ergebnisse als eine automatisierte Lösung zu erzielen. Damit 203 Ergebnisse zu erzielen. Damit meint sie, dass die Forschenden z. B. Wissen
211 meint sie, dass die Forschenden u. a. Wissen
212 darüber haben müssen, welche Namen im untersuchten Gebiet gleich sind, ohne 204 darüber haben müssen, welche Namen im untersuchten Gebiet gleich sind, ohne
213 dass ein Algorithmus sie zuordnen kann. Hierzu seien 205 dass ein Algorithmus sie zuordnen kann. Ein Beispiel dafür ist, dass die Namen
214 menschliche Eigenschaften notwendig.[23] Ein Beispiel dafür sind die Namen 206 Goldberg und Goldbrich in Nordböhmen und der südlichen Oberlausitz bis etwa zur
215 Goldberg und Goldbrich, die in Nordböhmen und der südlichen Oberlausitz bis etwa zur 207 zweiten Hälfte des 18. Jahrhunderts synonym verwendet werden. Hierzu seien
216 zweiten Hälfte des 18. Jahrhunderts synonym verwendet werden. 208 menschliche Eigenschaften notwendig.[23]
217 [13]Zuletzt genannt wird OpenRefine. Zwar hat OpenRefine ein breiteres Anwendungsgebiet, kann jedoch auch zum Rekord Linkage verwendet werden. 209 [13]Abramitzky et al. zeigen jedoch auf, dass auch automatisierte Vorgehensweisen
218 Ein Vorteil ist, dass hierdurch eigene Daten mit Referenzressourcen wie Wikidata abgeglichen 210 zufriedenstellende Ergebnisse erzielen können.[24] Da nie mit Sicherheit bestimmt werden kann,
219 und verbunden werden können. Auch unterstützt OpenRefine die Reconciliation Service API, ein Protokoll zum Datenmatching im Web.[24]
220 [14]Abramitzky et al. zeigen jedoch auf, dass auch automatisierte Vorgehensweisen
221 zufriedenstellende Ergebnisse erzielen können.[25] Da nie mit Sicherheit bestimmt werden kann,
222 ob zwei Records tatsächlich dieselbe Entität beschreiben, sind solche Vorgehen 211 ob zwei Records tatsächlich dieselbe Entität beschreiben, sind solche Vorgehen
223 probabilistisch. Bei einem Vergleich verschiedener Methoden durch Abramitzky et al. 212 probabilistisch. Bei einem Vergleich verschiedener Methoden durch Abramitzky et al.
224 erreichen auch automatisierte Ansätze Falschpositivraten von unter fünf Prozent. Zudem 213 erreichen auch automatisierte Ansätze Falschpositivraten von unter fünf Prozent. Zudem
225 zeigen sie, dass auch Menschen nicht frei von Fehlern sind und ebenfalls falschpositive 214 zeigen sie, dass auch Menschen nicht frei von Fehlern sind und ebenfalls falschpositive
226 Ergebnisse erzeugen.[26] In ihrem 215 Ergebnisse erzeugen.[25] In ihrem
227 automatischen Ansatz demonstrieren Abramitzky et al. ein dreischrittiges 216 automatischen Ansatz demonstrieren Abramitzky et al. ein dreischrittiges
228 Verfahren: Zunächst sind (1.) Variablen für die Verknüpfung auszuwählen, dann 217 Verfahren: Zunächst sind (1.) Variablen für die Verknüpfung auszuwählen, dann
231 ein, schließlich wird (3.) die Wahrscheinlichkeit der Übereinstimmung 220 ein, schließlich wird (3.) die Wahrscheinlichkeit der Übereinstimmung
232 bewertet.[27] 221 bewertet.[26]
233 Die hohe Verlässlichkeit ihrer Vorgehensweise zeigt sich darin, dass sie bei 222 Die hohe Verlässlichkeit ihrer Vorgehensweise zeigt sich darin, dass sie bei
235 Verknüpfungen ihrer Daten ähnliche Resultate wie in bereits bestehenden, 224 Verknüpfungen ihrer Daten ähnliche Resultate wie in bereits bestehenden,
236 manuellen Verknüpfungen erhalten.[28] 225 manuellen Verknüpfungen erhalten.[27]
237 [15]Da der Algorithmus mit der Programmiersprache Python umgesetzt wird, liegt auch die
238 Verwendung Python-spezifischer Bibliotheken nahe (z. B. RecordLinkage von Jonathan de Bruin). Zunächst jedoch wird der Algorithmus fernab von den Möglichkeiten
239 oder Restriktionen programmiersprachenspezifischer Bibliotheken entwickelt. Deswegen
240 findet keine Vorfestlegung auf solche statt. Zugleich aber sind solche Bibliotheken
241 sinnvolle Werkzeuge, um Record-Linkage-Herausforderungen praktisch zu begegnen; auch
242 zur Umsetzung des Algorithmus in diesem Fall.
243 [16]Grundsätzlich ist es zudem möglich, Methoden des maschinellen Lernens auf Record-Linkage-Herausforderungen
244 anzuwenden. So könnte beispielsweise die Ähnlichkeit manuell verknüpfter Datensätze
245 ausgewertet werden, um die Systematik der Verknüpfungen zu erkennen auch auf weitere
246 Daten anzuwenden. Solchen Ansätzen gemein ist jedoch, dass das erzeugte Modell – und
247 somit das Ergebnis – von den Trainingsdaten abhängig ist. Aus diesem Grund wird in
248 diesem Algorithmus bewusst darauf verzichtet, da bekannte genealogische Heuristiken
249 zunächst in einem statischen Modell formalisiert werden sollen. Darauf aufbauend kann
250 nachfolgende Forschung diese Ergebnisse nutzen, Verfahren maschinellen Lernens zu
251 implementieren.
252
253 226
255 228
256 [17]Besonders interessant erscheint die Anwendung eines automatisierten Record 229 [14]Besonders interessant erscheint die Anwendung eines automatisierten Record
257 Linkage auf große Datenbestände mit genealogisch relevanten Daten. Das Record 230 Linkage auf große Datenbestände mit genealogisch relevanten Daten. Das Record
266 zu den Eltern und Kindern ergänzt. 239 zu den Eltern und Kindern ergänzt.
267 [18]Quellen, die genealogisch relevante Daten enthalten, sind sehr unterschiedlich 240 [15]Quellen, die genealogisch relevante Daten enthalten, sind sehr unterschiedlich
268 strukturiert. Die zugrundeliegenden Primärquellen sind oftmals Manuskripte. 241 strukturiert. Die zugrundeliegenden Primärquellen sind oftmals Manuskripte.
269 Hier sind vorwiegend Kirchenbücher zu nennen. Verschiedene prosopographische 242 Hier sind vorwiegend Kirchenbücher zu nennen. Verschiedene prosopographische
270 Quellen enthalten dabei unterschiedliche Informationen.[29] Allerdings existiert auch eine große Menge an 243 Quellen enthalten dabei unterschiedliche Informationen.[28] Allerdings existiert auch eine große Menge an
271 Sekundärquellen, die bereits aufgearbeitete Daten präsentieren. Solche Daten 244 Sekundärquellen, die bereits aufgearbeitete Daten präsentieren. Solche Daten
276 entwickelt. 249 entwickelt.
277 [19]Für diese Studie wird davon ausgegangen, dass einzelne Quellen so aufgearbeitet 250 [16]Für diese Studie wird davon ausgegangen, dass einzelne Quellen so aufgearbeitet
278 werden können, dass sie in einer Tabelle vorliegen. Jeder Eintrag der Quelle 251 werden können, dass sie in einer Tabelle vorliegen. Jeder Eintrag der Quelle
281 Weiteren als Record bezeichnet. Herausforderung hierbei ist, dass die 254 Weiteren als Record bezeichnet. Herausforderung hierbei ist, dass die
282 Datenfelder / Spalten tatsächlich vergleichbare Informationen enthalten müssen. Die 255 Datenfelder / Spalten tatsächlich vergleichbare Informationen enthalten müssen. Die
283 Zuordnung von Informationen aus einer Quelle in die korrekten Datenfelder ist 256 Zuordnung von Informationen aus einer Quelle in die korrekten Datenfelder ist
289 Definition des Inhalts der Datenfelder unerlässlich. 262 Definition des Inhalts der Datenfelder unerlässlich.
290 [20]Als wesentlicher Standard zum Austausch genealogischer Informationen hat sich 263 [17]Als wesentlicher Standard zum Austausch genealogischer Informationen hat sich
291 das GEDCOM-Format herausgebildet.[30] In diesem werden einzelne 264 das GEDCOM-Format herausgebildet.[29] In diesem werden einzelne
292 Informationen sogenannten Tags zugewiesen, die eine ähnliche Funktion wie 265 Informationen sogenannten Tags zugewiesen, die eine ähnliche Funktion wie
293 Datenfelder / Spalten haben (z. B. beschreibt der Tag OCCU eine Berufsangabe). 266 Datenfelder / Spalten haben (z. B. beschreibt der Tag OCCU eine Berufsangabe).
294 Aber auch aus GEDCOM-Daten ergeben sich Probleme: Zwar sind diese strukturiert, 267 Aber auch aus GEDCOM-Daten ergeben sich Probleme: Zwar sind diese strukturiert,
295 doch gibt es nicht für alle Informationen eigene Tags. Auch wenn mit GEDCOM 5.5.1 268 doch gibt es nicht für alle Informationen eigene Tags. Auch wenn mit GEDCOM 5.5.1
296 ein Standard existiert,[31] legt dieser nicht immer fest, welcher Inhalt den Tags zugeordnet werden darf. Im 269 ein Standard existiert,[30] legt dieser nicht immer fest, welcher Inhalt den Tags zugeordnet werden darf. Im
297 Standard ist 270 Standard ist
301 ausfüllen, wie es ihnen beliebt und wie sie diese interpretieren. 274 ausfüllen, wie es ihnen beliebt und wie sie diese interpretieren.
302 [21]Einen weiteren Standard stellt Gedbas4all dar.[32] Anders als GEDCOM, in der die 275 [18]Einen weiteren Standard stellt Gedbas4all dar.[31] Anders als GEDCOM, in der die
303 einzelnen Informationen zu einer Person zwar zusammengeführt, die 276 einzelnen Informationen zu einer Person zwar zusammengeführt, die
307 konkret definiert wurden. Besonders für die Zeitangaben gibt es eine 280 konkret definiert wurden. Besonders für die Zeitangaben gibt es eine
308 detaillierte Normierung.[33] Das Datenmodell enthält jedoch nicht zu 281 detaillierte Normierung.[32] Das Datenmodell enthält jedoch nicht zu
309 allen möglichen Variablen eine detaillierte Erläuterung. Zudem hat es noch 282 allen möglichen Variablen eine detaillierte Erläuterung. Zudem hat es noch
310 keine weite Verbreitung gefunden. 283 keine weite Verbreitung gefunden.
311 [22]Es zeigt sich, dass kein allgemeingültiges und ausreichend detailliertes System 284 [19]Es zeigt sich, dass kein allgemeingültiges und ausreichend detailliertes System
312 zur Definition vieler möglicher Schlüssel für ein Record Linkage auf Basis 285 zur Definition vieler möglicher Schlüssel für ein Record Linkage auf Basis
318 291
319 [23]Die oben aufgeführten Algorithmen scheinen auf ihre jeweiligen Anwendungen bezogen 292 [20]Die oben aufgeführten Algorithmen scheinen auf ihre jeweiligen Anwendungen bezogen
320 zwar effektiv zu sein, doch können sie nicht auf alle 293 zwar effektiv zu sein, doch können sie nicht auf alle
338 Lösungen als tauglich erwiesen haben. 311 Lösungen als tauglich erwiesen haben.
339 [24]Der Algorithmus wird im Folgenden textuell erklärt. Die Erläuterung orientiert 312 [21]Der Algorithmus wird im Folgenden textuell erklärt. Die Erläuterung orientiert
340 sich am Aufbau der programmtechnischen Umsetzung. Es ist insbesondere auch ein 313 sich am Aufbau der programmtechnischen Umsetzung. Es ist insbesondere auch ein
343 Programmiersprache Python 3.8 umgesetzt. Dieser ist im Online-Repositorium verfügbar. 316 Programmiersprache Python 3.8 umgesetzt. Dieser ist im Online-Repositorium verfügbar.
344 [25]Wesentliche Herausforderungen bestehen in der Normierung, Strukturierung und 317 [22]Wesentliche Herausforderungen bestehen in der Normierung, Strukturierung und
345 Bereinigung von Eingangsdaten sowie der Prüfung einer Similarität zwischen 318 Bereinigung von Eingangsdaten sowie der Prüfung einer Similarität zwischen
350 wird eine Normalform der Daten definiert (im Weiteren Normform), in die die 323 wird eine Normalform der Daten definiert (im Weiteren Normform), in die die
351 Eingangsdaten gebracht werden müssen. Dies geschieht, damit die Datenfelder /  324 Eingangsdaten gebracht werden müssen. Dies geschieht, damit die Datenfelder /
352 Spalten gleichartige Daten enthalten. Daran anschließend wird die Datenbereinigung 325 Spalten gleichartige Daten enthalten. Daran anschließend wird die Datenbereinigung
357 330
358 [26]Der Algorithmus ist auf prosopographische Quellen angepasst, die genealogisch 331 [23]Der Algorithmus ist auf prosopographische Quellen angepasst, die genealogisch
359 relevante Daten enthalten. Es ist denkbar, dass es viele prosopographische 332 relevante Daten enthalten. Es ist denkbar, dass es viele prosopographische
360 Quellen gibt, die Daten enthalten, welche durch die Normform nicht adäquat 333 Quellen gibt, die Daten enthalten, welche durch die Normform nicht adäquat
361 abgebildet werden (z. B. Immatrikulationslisten). Hier wird deutlich, dass 334 abgebildet werden (z. B. Immatrikulationslisten). Hier wird deutlich, dass
362 nicht alle erdenklichen (und praktisch auch irgendwo vorkommenden) Attribute 335 nicht alle erdenklichen (und praktisch auch irgendwo vorkommenden) Attribute
367 ergänzt werden. 340 ergänzt werden.
368 [27]Der grundlegende Ablauf zur Verarbeitung der Daten ist in Abbildung 1 ersichtlich. Um den Algorithmus 341 [24]Der grundlegende Ablauf zur Verarbeitung der Daten ist in Abbildung 1 ersichtlich. Um den Algorithmus
369 ausführen zu können, müssen die Daten aufbereitet werden. Das kann manuell, 342 ausführen zu können, müssen die Daten aufbereitet werden. Das kann manuell,
370 aber auch durch ein gesondertes Programm geschehen.[34] Der Algorithmus ist darauf 343 aber auch durch ein gesondertes Programm geschehen.[33] Der Algorithmus ist darauf
371 ausgelegt, zwei in der Normform vorliegende Datensätze dem Record Linkage zu 344 ausgelegt, zwei in der Normform vorliegende Datensätze dem Record Linkage zu
372 unterziehen.[35] Nach der Zusammenführung kann der entstandene, verknüpfte 345 unterziehen.[34] Nach der Zusammenführung kann der entstandene, verknüpfte
373 Datensatz dann in weitere, übliche Formate wie z. B. GEDCOM übertragen werden. 346 Datensatz dann in weitere, übliche Formate wie z. B. GEDCOM übertragen werden.
374 Zur Erstellung einer GEDCOM-Datei aus dem Ergebnis des Algorithmus kann 347 Zur Erstellung einer GEDCOM-Datei aus dem Ergebnis des Algorithmus kann
376 GEDCOM-Datei findet hier jedoch keine weitere Erläuterung, sondern ist der 349 GEDCOM-Datei findet hier jedoch keine weitere Erläuterung, sondern ist der
377 Bedienungsanleitung des Programms zu entnehmen.[36] 350 Bedienungsanleitung des Programms zu entnehmen.[35]
378 351
379 352
380 Abb. 1: Ablauf der 353 Abb. 1: Ablauf der
381 Datenverarbeitung. [Goldberg / Mernitz 2023] 354 Datenverarbeitung. [Goldberg / Mernitz 2023]
382 355
383 [28]Nach der Transformation in die Normform wird eine Bereinigung und weitere 356 [25]Nach der Transformation in die Normform wird eine Bereinigung und weitere
384 Strukturierung der Informationen vorgenommen. Dieser Schritt ist notwendig, 357 Strukturierung der Informationen vorgenommen. Dieser Schritt ist notwendig,
386 korrigieren. 359 korrigieren.
387 [29]Nachfolgend wird ein Vergleich zwischen einzelnen Records erzeugt. Für jede 360 [26]Nachfolgend wird ein Vergleich zwischen einzelnen Records erzeugt. Für jede
388 Zeile in der ersten Tabelle wird dazu geprüft, ob die einzelnen Records der 361 Zeile in der ersten Tabelle wird dazu geprüft, ob die einzelnen Records der
391 ausschließen sollen (z. B. ist eine Taufe nach dem Tod nicht möglich). 364 ausschließen sollen (z. B. ist eine Taufe nach dem Tod nicht möglich).
392 [30]Danach wird für die nichtdisjunkten Records eine Similaritätsprüfung 365 [27]Danach wird für die nichtdisjunkten Records eine Similaritätsprüfung
393 durchgeführt. Hierdurch soll herausgefunden werden, ob die Personen similär 366 durchgeführt. Hierdurch soll herausgefunden werden, ob die Personen similär
394 sind – also diese beiden Records dieselbe historisch existierende Person 367 sind – also diese beiden Records dieselbe historisch existierende Person
395 beschreiben und die Informationen entsprechend zu verknüpfen sind. Hierzu 368 beschreiben und die Informationen entsprechend zu verknüpfen sind. Hierzu
402 Sicherheit von einer Similarität ausgegangen werden kann. 375 Sicherheit von einer Similarität ausgegangen werden kann.
403 [31]Der grundlegende Ablauf ist in Abbildung 2 dargestellt. Eine ausführliche Erläuterung der einzelnen 376 [28]Der grundlegende Ablauf ist in Abbildung 2 dargestellt. Eine ausführliche Erläuterung der einzelnen
404 Schritte findet in den folgenden Abschnitten statt. 377 Schritte findet in den folgenden Abschnitten statt.
406 379
407 Abb. 2: Funktionsweise des 380 Abb. 2: Funktionsweise des
408 Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz 2023] 381 Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz 2023]
409 382
412 385
413 [32]Um Daten in eine Normform zu überführen, ist die Definition einer solchen 386 [29]Um Daten in eine Normform zu überführen, ist die Definition einer solchen
414 notwendig. Das umfasst (1.) die Definition eines Formats und (2.) die 387 notwendig. Das umfasst (1.) die Definition eines Formats und (2.) die
415 Definition des Inhalts (die möglichen Schlüssel der Variablen / Attribute). Zum 388 Definition des Inhalts (die möglichen Schlüssel der Variablen / Attribute). Zum
416 Format wird festgelegt, dass es sich bei der Normform um eine CSV-Datei 389 Format wird festgelegt, dass es sich bei der Normform um eine CSV-Datei
482 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist 455 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist
483 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer 456 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer
484 Zeitspanne). 457 Zeitspanne).
511 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist 484 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist
512 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer 485 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer
513 Zeitspanne). 486 Zeitspanne).
529 eine weitere Spezifikation der Uhrzeit. Die GEDCOM-Systematik zur 502 eine weitere Spezifikation der Uhrzeit. Die GEDCOM-Systematik zur
530 Beschreibung ungenauer Zeitpunkte ist anzuwenden (z. B. ›BET … AND …‹ für 503 Beschreibung ungenauer Zeitpunkte ist anzuwenden (z. B. ›BET … AND …‹ für
531 ein Ereignis in einer Zeitspanne). 504 ein Ereignis in einer Zeitspanne).
564 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist 537 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist
565 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer 538 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer
566 Zeitspanne). 539 Zeitspanne).
598 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist 571 Uhrzeit. Die GEDCOM-Systematik zur Beschreibung ungenauer Zeitpunkte ist
599 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer 572 anzuwenden (z. B. ›BET … AND …‹ für ein Ereignis in einer
600 Zeitspanne). 573 Zeitspanne).
627 600
628
629 Tab. 1: Definition von Datenfeldern. 601 Tab. 1: Definition von Datenfeldern.
630 [Goldberg / Mernitz 2023] 602 [Goldberg / Mernitz 2023]
631 [33]Die Normform enthält dabei nicht alle möglichen Bestandteile prosopographischer 603 [30]Die Normform enthält dabei nicht alle möglichen Bestandteile prosopographischer
632 Quellen. Daneben sind weitere Charakteristika denkbar, die sich auf das Leben 604 Quellen. Daneben sind weitere Charakteristika denkbar, die sich auf das Leben
633 von Personen beziehen und in prosopographischen Quellen vorkommen (u. a. 605 von Personen beziehen und in prosopographischen Quellen vorkommen (u. a.
634 Taufpaten, Trauzeugen, Täufer, weitere Bezugspersonen, Adressen zu bestimmten 606 Taufpaten, Trauzeugen, Täufer, weitere Bezugspersonen, Adressen zu bestimmten
644 616
645 [34]Trotz der Normform können die Daten nicht immer direkt miteinander in einen 617 [31]Trotz der Normform können die Daten nicht immer direkt miteinander in einen
646 Vergleich gesetzt werden. Es ist eine weitere Bereinigung des Inhalts 618 Vergleich gesetzt werden. Es ist eine weitere Bereinigung des Inhalts
647 notwendig. Darunter gehört z. B. die Veränderung des Datumsformats. Ferner 619 notwendig. Darunter gehört z. B. die Veränderung des Datumsformats. Ferner
648 betrifft die Bereinigung insbesondere die Vornamen (siehe Abschnitt 3.3.1, ›Aufbereitung der 620 betrifft die Bereinigung insbesondere die Vornamen (siehe Abschnitt 3.3.1, ›Aufbereitung der
653 Zeitangaben‹). Die Bereinigung von Ortsangaben dahingegen ist derzeit nicht 625 Zeitangaben‹). Die Bereinigung von Ortsangaben dahingegen ist derzeit nicht
654 implementiert, kann aber ergänzt werden.[37] 626 implementiert, kann aber ergänzt werden.[36]
655 3.3.1 Aufbereitung der Namen 627 3.3.1 Aufbereitung der Namen
656 628
657 [35]Namensbezeichnungen können verschiedene Eigenschaften besitzen, die ein 629 [32]Namensbezeichnungen können verschiedene Eigenschaften besitzen, die ein
658 Record Linkage erschweren. Ein Beispiel dafür sind Abkürzungen 630 Record Linkage erschweren. Ein Beispiel dafür sind Abkürzungen
668 Vornamen werden durch Leerzeichen separiert als Liste gespeichert. 640 Vornamen werden durch Leerzeichen separiert als Liste gespeichert.
669 [36]Um den Nutzen der Vornamen für das Record Linkage zu erhöhen, wird aus den 641 [33]Um den Nutzen der Vornamen für das Record Linkage zu erhöhen, wird aus den
670 Angaben zum Vornamen das Geschlecht erkannt – sofern diese Information nicht 642 Angaben zum Vornamen das Geschlecht erkannt – sofern diese Information nicht
671 gesondert vorliegt. Hierzu werden die Vornamen, die auf ein A oder E enden, 643 gesondert vorliegt. Hierzu werden die Vornamen, die auf ein A oder E enden,
672 als weiblich erkannt. Dazu wird jeweils der erste Vorname herangezogen.[38] Etliche Ausnahmen sind gesondert 644 als weiblich erkannt. Dazu wird jeweils der erste Vorname herangezogen.[37] Etliche Ausnahmen sind gesondert
673 definiert (z. B. Ingeborg, Elisabeth). 645 definiert (z. B. Ingeborg, Elisabeth).
676 648
677 [37]Ähnlich wie bei den Namen können auch Berufsangaben eine Abkürzung erfahren. 649 [34]Ähnlich wie bei den Namen können auch Berufsangaben eine Abkürzung erfahren.
678 Auch diese werden mit Hilfe einer initial definierten Liste aufgelöst und 650 Auch diese werden mit Hilfe einer initial definierten Liste aufgelöst und
685 Tätigkeit, sondern weitergehende Informationen über den Rechtsstatus, 657 Tätigkeit, sondern weitergehende Informationen über den Rechtsstatus,
686 Wohnsitz oder einen Zeitbezug enthalten.[39] Mehrere Berufsangaben werden 658 Wohnsitz oder einen Zeitbezug enthalten.[38] Mehrere Berufsangaben werden
687 anhand des Kommas oder eines ›und‹ aufgesplittet als Liste gespeichert. 659 anhand des Kommas oder eines ›und‹ aufgesplittet als Liste gespeichert.
690 662
691 [38]Zeitangaben können verschiedene Formate aufweisen. Das liegt vor allem in 663 [35]Zeitangaben können verschiedene Formate aufweisen. Das liegt vor allem in
692 dem Umstand begründet, dass Zeitangaben nicht immer ein konkretes, 664 dem Umstand begründet, dass Zeitangaben nicht immer ein konkretes,
702 674
703 [39]Genealogische Heuristiken helfen dabei, die Records zu identifizieren, die 675 [36]Genealogische Heuristiken helfen dabei, die Records zu identifizieren, die
704 dieselbe Entität beschreiben. Ihre Formalisierung führt zu Logikoperationen, 676 dieselbe Entität beschreiben. Ihre Formalisierung führt zu Logikoperationen,
706 auf den vorhandenen Variablen. Jedoch können schon bei einem Datensatz mit 30 678 auf den vorhandenen Variablen. Jedoch können schon bei einem Datensatz mit 30
707 verschiedenen zu vergleichenden Variablen (Variable vorhanden / nicht 679 verschiedenen zu vergleichenden Variablen (Variable vorhanden / nicht
708 vorhanden) insgesamt etwa eine Milliarde mögliche Kombinationen auftreten.[40] Der 680 vorhanden) insgesamt etwa eine Milliarde mögliche Kombinationen auftreten.[39] Der
709 Vergleich von zwei Datensätzen erhöht diese Zahl der möglichen Kombinationen 681 Vergleich von zwei Datensätzen erhöht diese Zahl der möglichen Kombinationen
710 auf mehr als eine Trillion.[41] Für diese Anzahl an 682 auf mehr als eine Trillion.[40] Für diese Anzahl an
711 Kombinationen ist eine manuelle Definition von Verarbeitungsfolgen nicht 683 Kombinationen ist eine manuelle Definition von Verarbeitungsfolgen nicht
715 keinen Schluss auf den Zusammenhang von Records zu. 687 keinen Schluss auf den Zusammenhang von Records zu.
716 [40]Hierzu können zunächst verschiedene Variablen zusammengefasst werden, die 688 [37]Hierzu können zunächst verschiedene Variablen zusammengefasst werden, die
717 ähnliche Merkmale aufweisen (z. B. Datumsangaben, Ortsangaben, Namen). 689 ähnliche Merkmale aufweisen (z. B. Datumsangaben, Ortsangaben, Namen).
718 Vergleiche sind nur innerhalb dieser Gruppen sinnhaft. Diese Definition 690 Vergleiche sind nur innerhalb dieser Gruppen sinnhaft. Diese Definition
721 beschrieben: Wenn z. B. eine Taufe nach dem Tod stattfindet, dann ist eine 693 beschrieben: Wenn z. B. eine Taufe nach dem Tod stattfindet, dann ist eine
722 Similarität auszuschließen.[42] Es bleibt eine deutlich minimierte Anzahl an 694 Similarität auszuschließen.[41] Es bleibt eine deutlich minimierte Anzahl an
723 Variablenkombinationen übrig, bei denen ein genauerer Vergleich sinnhaft 695 Variablenkombinationen übrig, bei denen ein genauerer Vergleich sinnhaft
728 700
729 [41]Eine Gruppe von Vergleichen kann vorgenommen werden, wenn in beiden Records 701 [38]Eine Gruppe von Vergleichen kann vorgenommen werden, wenn in beiden Records
730 gleichartige Variablen vorliegen. Dazu ist ein Wissen über die Beziehungen 702 gleichartige Variablen vorliegen. Dazu ist ein Wissen über die Beziehungen
751 Die (teilweise) Übereinstimmung von Vornamen kann Aufschluss 723 Die (teilweise) Übereinstimmung von Vornamen kann Aufschluss
752 über die Zusammenführung der Personen liefern.[43] 724 über die Zusammenführung der Personen liefern.[42]
753 725
765 Übereinstimmung von Nachnamen in unterschiedlichen Kategorien nur 737 Übereinstimmung von Nachnamen in unterschiedlichen Kategorien nur
766 bei surnameUnknown ein Indiz für eine Übereinstimmung ist.[44] 738 bei surnameUnknown ein Indiz für eine Übereinstimmung ist.[43]
767 739
773 birthday und baptismday: Taufdatum und Geburtsdatum liegen oft 745 birthday und baptismday: Taufdatum und Geburtsdatum liegen oft
774 nah beieinander.[45] Eine Person kann nicht vor 746 nah beieinander.[44] Eine Person kann nicht vor
775 ihrer Geburt getauft werden. 747 ihrer Geburt getauft werden.
866 werden, die sich nicht ähnlich sind und dadurch nur schwer über 838 werden, die sich nicht ähnlich sind und dadurch nur schwer über
867 String-Matching-Methoden erkannt werden können (z. B. 839 String-Matching-Methoden erkannt werden können (z. B.
868 »Feuerwehrmann« und 840 »Feuerwehrmann« und
873 hier angenommen, dass es sich nicht um dieselbe Person handelt. Dabei 845 hier angenommen, dass es sich nicht um dieselbe Person handelt. Dabei
874 sind detaillierte Quellen gemeint (z. B. ein konkreter Heiratseintrag mit 846 sind detaillierte Quellen gemeint (z. B. ein konkreter Heiratseintrag mit
875 laufender Nummer in einem Heiratsregister). 847 laufender Nummer in einem Heiratsregister).
879 851
880 [42]Sind im vorigen Abschnitt mögliche Vergleiche zwischen Variablen beschrieben 852 [39]Sind im vorigen Abschnitt mögliche Vergleiche zwischen Variablen beschrieben
881 worden, findet nun eine Definition konkreter Kriterien statt, die ein 853 worden, findet nun eine Definition konkreter Kriterien statt, die ein
890 erheblichen Verbesserung der Laufzeit. 862 erheblichen Verbesserung der Laufzeit.
891 [43]Die meisten hier vorgestellten Regeln sind in Hinblick auf die kulturelle 863 [40]Die meisten hier vorgestellten Regeln sind in Hinblick auf die kulturelle
892 Praxis und den Ablauf von Lebensereignissen logisch. So kann eine Person 864 Praxis und den Ablauf von Lebensereignissen logisch. So kann eine Person
900 mit genealogischen Daten. 872 mit genealogischen Daten.
901 [44]Zunächst sind Records disjunkt, wenn sie auf demselben Eintrag in einer 873 [41]Zunächst sind Records disjunkt, wenn sie auf demselben Eintrag in einer
902 Quelle basieren. Das kann beispielsweise in Taufeinträgen der Fall sein, bei 874 Quelle basieren. Das kann beispielsweise in Taufeinträgen der Fall sein, bei
909 nicht in anderen Einträgen vorkommen können und ein weiterer Vergleich aus 881 nicht in anderen Einträgen vorkommen können und ein weiterer Vergleich aus
910 Laufzeitgründen deshalb nicht notwendig ist.[46] Wenn beide Records 882 Laufzeitgründen deshalb nicht notwendig ist.[45] Wenn beide Records
911 ein Geschlecht aufweisen, dieses aber nicht dasselbe ist, so sind sie 883 ein Geschlecht aufweisen, dieses aber nicht dasselbe ist, so sind sie
922 sterben, bevor sie beerdigt werden kann. 894 sterben, bevor sie beerdigt werden kann.
923 [45]Wenn die Geburtsdaten beider Personen vorhanden und trotzdem unterschiedlich 895 [42]Wenn die Geburtsdaten beider Personen vorhanden und trotzdem unterschiedlich
924 sind, so beschreiben sie nicht dieselbe Person. Ebenso verhält es sich mit 896 sind, so beschreiben sie nicht dieselbe Person. Ebenso verhält es sich mit
928 Abweichungen lässt. 900 Abweichungen lässt.
929 [46]Aus dem Vergleich mit den Eltern ergeben sich einige Zustände, die ein 901 [43]Aus dem Vergleich mit den Eltern ergeben sich einige Zustände, die ein
930 ausschließendes Kriterium darstellen. So kann der Tod des eigenen Vaters 902 ausschließendes Kriterium darstellen. So kann der Tod des eigenen Vaters
939 können. 911 können.
940 [47]Folgende Regeln führen zur Ungleichheit der Records (similarity = 0): 912 [44]Folgende Regeln führen zur Ungleichheit der Records (similarity = 0):
941 913
942 Wenn sex ! = sex 914 Wenn sex != sex
943 Wenn source = = source 915 Wenn source == source
944 Wenn Differenz von birthday von id und deathday von idFather > 9 916 Wenn Differenz von birthday von id und deathday von idFather > 9
951 Monate 923 Monate
952 Wenn birthday von id > deathday von idMother[47] 924 Wenn birthday von id > deathday von idMother[46]
953 Wenn birthday von id > burialday von idMother 925 Wenn birthday von id > burialday von idMother
1046 1018
1047 [48]Programmtechnisch sind die Vergleiche mit IF-ELSE-Anweisungen umgesetzt. Ferner ist 1019 [45]In der programmtechnischen Umsetzung ist ergänzend eine optionale Variable
1048 ergänzend eine optionale Variable
1049 (sortingBySurnameGiven) angelegt, mit der im Fall identischer zu 1020 (sortingBySurnameGiven) angelegt, mit der im Fall identischer zu
1056 1027
1057 [49]Kann nicht erkannt werden, dass zwei Records disjunkt sind, so wird die 1028 [46]Kann nicht erkannt werden, dass zwei Records disjunkt sind, so wird die
1058 Similarität dieser weiter geprüft. Dazu wird ein Fuzzy-Vergleich der Vor- 1029 Similarität dieser weiter geprüft. Dazu wird ein Fuzzy-Vergleich der Vor-
1059 und Nachnamen vorgenommen. Zum Vergleich dieser Strings wird die 1030 und Nachnamen vorgenommen. Zum Vergleich dieser Strings wird die
1060 Jaro-Winkler-Distanz ausgewählt, weil diese bei Georgala et al. zu guten 1031 Jaro-Winkler-Distanz ausgewählt, weil diese bei Georgala et al. zu guten
1061 Ergebnissen führt.[48] Georgala et al. erzielen mittels einer ROC-Kurve[49] ein optimales Ergebnis bei einem Grenzwert von 0,70.[50] Um die Anzahl 1032 Ergebnissen führt.[47] Georgala et al. erzielen mittels einer ROC-Kurve[48] ein optimales Ergebnis bei einem Grenzwert von 0,70.[49] Um die Anzahl
1062 der falschpositiven Zuordnungen zu verringern, wird in unserem Ansatz jedoch 1033 der falschpositiven Zuordnungen zu verringern, wird in unserem Ansatz jedoch
1073 den deutschen Sprachraum ausgerichtet ist. Buchstaben werden dabei in Zahlen 1044 den deutschen Sprachraum ausgerichtet ist. Buchstaben werden dabei in Zahlen
1074 codiert.[51] Ist der 1045 codiert.[50] Ist der
1075 Wert der Kölner Phonetik gleich und liegt die Jaro-Winkler-Distanz bei über 1046 Wert der Kölner Phonetik gleich und liegt die Jaro-Winkler-Distanz bei über
1076 0,60, wird hier ebenfalls von einer Similarität ausgegangen. Der Wert der Kölner Phonetik 1047 0,60, wird hier ebenfalls von einer Similarität ausgegangen.
1077 wird im Programmcode über die Bibliothek kph ermittelt. Für die Berechnung der Jaro-Winkler-Distanz wird hingegen die Bibliothek 1048 [47]Nach dem Test der Nachnamen wird zudem die Similarität der Vornamen
1078 distance genutzt.
1079 [50]Nach dem Test der Nachnamen wird zudem die Similarität der Vornamen
1080 überprüft. Überschreitet die Jaro-Winkler-Distanz auch bei einem Vergleich 1049 überprüft. Überschreitet die Jaro-Winkler-Distanz auch bei einem Vergleich
1086 erhält dann einen Wert von 0. 1055 erhält dann einen Wert von 0.
1087 [51]Die Similaritätsprüfung stützt sich im Algorithmus damit nur auf die 1056 [48]Die Similaritätsprüfung stützt sich im Algorithmus damit nur auf die
1088 Ähnlichkeit von Vor- und Nachnamen. Dabei können perspektivisch auch weitere 1057 Ähnlichkeit von Vor- und Nachnamen. Dabei können perspektivisch auch weitere
1091 eine Kombination dieser zu implementieren. 1060 eine Kombination dieser zu implementieren.
1092 [52]Wenn mehrere Matches vorhanden sind, wird geprüft, welches über die größte 1061 [49]Wenn mehrere Matches vorhanden sind, wird geprüft, welches über die größte
1093 Übereinstimmung verfügt. Nur das passendste wird zusammengeführt. Es wird 1062 Übereinstimmung verfügt. Nur das passendste wird zusammengeführt. Es wird
1100 Ergebnistabelle wiederholt ausgeführt werden. 1069 Ergebnistabelle wiederholt ausgeführt werden.
1101 [53]Neben der Similaritätsprüfung gibt es noch einen sogenannten Prioritätswert. 1070 [50]Neben der Similaritätsprüfung gibt es noch einen sogenannten Prioritätswert.
1102 Dieser wird ermittelt, um nicht nur Disjunktionsregeln und die Ähnlichkeit 1071 Dieser wird ermittelt, um nicht nur Disjunktionsregeln und die Ähnlichkeit
1109 zusammengeführt, wenn sie zugleich verschiedene Variablenkombinationen 1078 zusammengeführt, wenn sie zugleich verschiedene Variablenkombinationen
1110 aufweisen (z. B. beide ein Geburts- und Taufdatum), die die 1079 aufweisen (z. B. beide ein Geburts- und Taufdatum), die die
1111 Disjunktionsprüfung überstanden haben. Darunter fallen folgende 1080 Disjunktionsprüfung überstanden haben. Darunter fallen folgende
1124 1093
1125 [54]Wird erkannt, dass zwei Records dieselbe Entität beschreiben, sind diese 1094 [51]Wird erkannt, dass zwei Records dieselbe Entität beschreiben, sind diese
1126 zusammenzuführen. Es wird ein neuer Record in einer neuen Tabelle kreiert, die 1095 zusammenzuführen. Es wird ein neuer Record in einer neuen Tabelle kreiert, die
1137 separiert zusammengeführt. 1106 separiert zusammengeführt.
1138 [55]Die neue Tabelle enthält neben allen (wie oben beschrieben zusammengeführten) 1107 [52]Die neue Tabelle enthält neben allen (wie oben beschrieben zusammengeführten)
1139 Variablen zudem die Spalte idGlobal. Diese globale ID stellt eine neu erzeugte 1108 Variablen zudem die Spalte idGlobal. Diese globale ID stellt eine neu erzeugte
1145 dieser Variablen. 1114 dieser Variablen.
1146 [56]Solche Records, zu denen kein Pendant im jeweils anderen Datensatz gefunden 1115 [53]Solche Records, zu denen kein Pendant im jeweils anderen Datensatz gefunden
1147 wird, werden unverändert in die neue Tabelle überführt. Ausnahme ist allerdings 1116 wird, werden unverändert in die neue Tabelle überführt. Ausnahme ist allerdings
1172 1141
1173
1174 Tab. 2: Zusätzliche Variablen eines 1142 Tab. 2: Zusätzliche Variablen eines
1175 zusammengeführten Datensatzes. [Goldberg / Mernitz 2023] 1143 zusammengeführten Datensatzes. [Goldberg / Mernitz 2023]
1176 1144
1179 1147
1180 [57]Leipzig ist eine Stadt, an der sich zwei große historische Handelsrouten Europas 1148 [54]Leipzig ist eine Stadt, an der sich zwei große historische Handelsrouten Europas
1181 kreuzen: die Via Regia von Ost nach West sowie die Via Imperii von Nord nach 1149 kreuzen: die Via Regia von Ost nach West sowie die Via Imperii von Nord nach
1182 Süd.[52] Diese 1150 Süd.[51] Diese
1183 geografische Lage bot für die Entwicklung Leipzigs, vor allem als Messe- und 1151 geografische Lage bot für die Entwicklung Leipzigs, vor allem als Messe- und
1188 Informationen bietet Leipzig ein geeignetes Beispiel zur Validierung des 1156 Informationen bietet Leipzig ein geeignetes Beispiel zur Validierung des
1189 beschriebenen Algorithmus. Innerhalb dieser Validierung werden zwei Quellen /  1157 beschriebenen Algorithmus. Innerhalb dieser Validierung werden zwei Quellen /
1190 Datenbestände betrachtet: die Kartei Leipziger Familien (KLF) und die Kartei 1158 Datenbestände betrachtet: die Kartei Leipziger Familien (KLF) und die Kartei
1192 zumindest teilweise Daten über dieselben Personen enthalten. Aufgrund des 1160 zumindest teilweise Daten über dieselben Personen enthalten. Aufgrund des
1193 unterschiedlichen Gegenstands,[53] vor allem aber wegen unterschiedlicher Zeiträume, sind nicht 1161 unterschiedlichen Gegenstands,[52] vor allem aber wegen unterschiedlicher Zeiträume, sind nicht
1194 alle Personen in beiden Datenbeständen zu finden. Zum Teil spielt auch eine 1162 alle Personen in beiden Datenbeständen zu finden. Zum Teil spielt auch eine
1197 ein. 1165 ein.
1198 [58]In dem folgenden Abschnitt wird zunächst die Struktur der hier verwendeten 1166 [55]In dem folgenden Abschnitt wird zunächst die Struktur der hier verwendeten
1199 Datenbestände beschrieben, bevor der Algorithmus auf sie angewendet wird. Die 1167 Datenbestände beschrieben, bevor der Algorithmus auf sie angewendet wird. Die
1205 1173
1206 [59]Im Folgenden wird zunächst auf die KLF eingegangen. Danach folgt die KLK. 1174 [56]Im Folgenden wird zunächst auf die KLF eingegangen. Danach folgt die KLK.
1207 4.1.1 Kartei Leipziger Familien (ca. 1550–1850) 1175 4.1.1 Kartei Leipziger Familien (ca. 1550–1850)
1208 1176
1209 [60]In der KLF sind viele Informationen über in Leipzig ansässige Familien 1177 [57]In der KLF sind viele Informationen über in Leipzig ansässige Familien
1210 enthalten. Die Kartei wurde von einer Mitarbeiterin der Deutschen 1178 enthalten. Die Kartei wurde von einer Mitarbeiterin der Deutschen
1214 Jahrhunderts. Auf 20.000 Karteikarten sind dort etwa 200.000 1182 Jahrhunderts. Auf 20.000 Karteikarten sind dort etwa 200.000
1215 Personen(einträge) dokumentiert.[54] Die Karteikarten 1183 Personen(einträge) dokumentiert.[53] Die Karteikarten
1216 enthalten jeweils Angaben zu einem Ehemann, seiner Ehefrau und deren 1184 enthalten jeweils Angaben zu einem Ehemann, seiner Ehefrau und deren
1218 Karte verzeichnet. Die Karteikarten sind untereinander nicht über eindeutige 1186 Karte verzeichnet. Die Karteikarten sind untereinander nicht über eindeutige
1219 Identifikatoren wie Kartennummern verknüpft.[55] 1187 Identifikatoren wie Kartennummern verknüpft.[54]
1220 [61]Im Rahmen eines Datenerfassungsprojekts durch den Verein für 1188 [58]Im Rahmen eines Datenerfassungsprojekts durch den Verein für
1221 Computergenealogie wurde die Kartei digitalisiert.[56] Dazu wurden die Scans der Karteikarten manuell 1189 Computergenealogie wurde die Kartei digitalisiert.[55] Dazu wurden die Scans der Karteikarten manuell
1222 abgetippt. Datenfelder im genutzten Datenerfassungssystem (DES) sind der 1190 abgetippt. Datenfelder im genutzten Datenerfassungssystem (DES) sind der
1227 vergeben wird). Des Weiteren existieren besondere, KLF-spezifische Angaben 1195 vergeben wird). Des Weiteren existieren besondere, KLF-spezifische Angaben
1228 zur Rolle, zur Bezugsperson und zur Art der Beziehung zur Bezugsperson.[57] Es gibt die Rollen 1196 zur Rolle, zur Bezugsperson und zur Art der Beziehung zur Bezugsperson.[56] Es gibt die Rollen
1229 Familienoberhaupt, Kind, Ehefrau und Drittperson. Ersteres beschreibt einen 1197 Familienoberhaupt, Kind, Ehefrau und Drittperson. Ersteres beschreibt einen
1236 der Beziehung beschreibt dahingegen das Verhältnis zur Drittperson (Ehemann 1204 der Beziehung beschreibt dahingegen das Verhältnis zur Drittperson (Ehemann
1237  / Ehefrau / Vater). Damit sind die Felder nicht direkt der definierten 1205 / Ehefrau / Vater). Damit sind die Felder nicht direkt der definierten
1238 Normform zuzuordnen, sondern müssen zunächst umgewandelt werden. Dieses 1206 Normform zuzuordnen, sondern müssen zunächst umgewandelt werden. Dieses
1240 beispielhaft, dass die Umwandlung in die Normform aufwendig sein kann. 1208 beispielhaft, dass die Umwandlung in die Normform aufwendig sein kann.
1241 [62]Ein Schwerpunkt dieses Programms besteht dabei in der Umwandlung von 1209 [59]Ein Schwerpunkt dieses Programms besteht dabei in der Umwandlung von
1242 Altersangaben: Dabei wird im Algorithmus der Sonderfall abgedeckt, dass in 1210 Altersangaben: Dabei wird im Algorithmus der Sonderfall abgedeckt, dass in
1248 Separierung wäre ein alternativ mögliches Vorgehen. 1216 Separierung wäre ein alternativ mögliches Vorgehen.
1249 [63]Da Altersangaben nur in Beziehung mit anderen Variablen interpretiert werden 1217 [60]Da Altersangaben nur in Beziehung mit anderen Variablen interpretiert werden
1250 können, bezieht die Aufbereitung dieser Daten weitere Informationen eines 1218 können, bezieht die Aufbereitung dieser Daten weitere Informationen eines
1251 Records mit ein (z. B. das Alter bei Tod und das Todesdatum zur Berechnung 1219 Records mit ein (z. B. das Alter bei Tod und das Todesdatum zur Berechnung
1252 des Geburtszeitpunkts). Für die Aufbereitung ist aufgrund der relativen 1220 des Geburtszeitpunkts). Für die Aufbereitung ist aufgrund der relativen
1254 Datumsangaben des Records notwendig. 1222 Datumsangaben des Records notwendig.
1255 [64]Es wird zunächst geprüft, ob die Zeitangabe einer normierten Schreibweise 1223 [61]Es wird zunächst geprüft, ob die Zeitangabe einer normierten Schreibweise
1256 entspricht. Diese wird hier als D.M.YYYY definiert und darüber ermittelt, ob 1224 entspricht. Diese wird hier als D.M.YYYY definiert und darüber ermittelt, ob
1270 1238
1271 [65]Bei den ersten vier der fünf Fälle kann eine Zeitangabe abgeleitet werden. 1239 [62]Bei den ersten vier der fünf Fälle kann eine Zeitangabe abgeleitet werden.
1272 Im fünften Fall besteht die Herausforderung darin, zu erkennen, dass es sich 1240 Im fünften Fall besteht die Herausforderung darin, zu erkennen, dass es sich
1285 Datumsformat vorliegt. 1253 Datumsformat vorliegt.
1286 [66]Die grundsätzliche Zuordnung der KLF zu den Datenfeldern der Normform wird 1254 [63]Die grundsätzliche Zuordnung der KLF zu den Datenfeldern der Normform wird
1287 wie in Tabelle 3 1255 wie in Tabelle 3
1361 1329
1362
1363 Tab. 3: Direkte Umwandlung der 1330 Tab. 3: Direkte Umwandlung der
1364 KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] 1331 KLF-Struktur in die Normform. [Goldberg / Mernitz 2023]
1365 [67]Die KLF-Variablen Rolle, Bezugsperson, Art der Beziehung und ID werden zudem 1332 [64]Die KLF-Variablen Rolle, Bezugsperson, Art der Beziehung und ID werden zudem
1366 herangezogen, um weitere Variablen der Normform zu füllen (vgl. Tabelle 4). 1333 herangezogen, um weitere Variablen der Normform zu füllen (vgl. Tabelle 4).
1377 Karteikarte. Eine Ehefrau erhält die ID des Familienoberhauptes auf 1344 Karteikarte. Eine Ehefrau erhält die ID des Familienoberhauptes auf
1378 derselben Karteikarte. Eine Drittperson vom Typ Ehefrau / Ehemann 1345 derselben Karteikarte. Eine Drittperson vom Typ Ehefrau / Ehemann
1379 führt dazu, dass bei der Drittperson wie auch bei der Bezugsperson 1346 führt dazu, dass bei der Drittperson wie auch bei der Bezugsperson
1391 1358
1392
1393 Tab. 4: Indirekte Umwandlung der 1359 Tab. 4: Indirekte Umwandlung der
1394 KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] 1360 KLF-Struktur in die Normform. [Goldberg / Mernitz 2023]
1395 1361
1397 1363
1398 [68]Für das Amt Leipzig liegen für die Zeit von 1696 bis 1829 Testamente 1364 [65]Für das Amt Leipzig liegen für die Zeit von 1696 bis 1829 Testamente
1399 innerhalb von 120 Bänden im Sächsischen Staatsarchiv vor.[58] Zum Auffinden von Testamentsvorgängen existiert eine 1365 innerhalb von 120 Bänden im Sächsischen Staatsarchiv vor.[57] Zum Auffinden von Testamentsvorgängen existiert eine
1400 Kartei – die KLK. Auch die KLK ist im Rahmen eines Datenerfassungsprojektes 1366 Kartei – die KLK. Auch die KLK ist im Rahmen eines Datenerfassungsprojektes
1401 des Vereins für Computergenealogie mit Hilfe des DES erfasst worden und online einsehbar.[59] Sie umfasst 4.800 1367 des Vereins für Computergenealogie mit Hilfe des DES erfasst worden und online einsehbar.[58] Sie umfasst 4.800
1402 Karteikarten, auf denen jeweils zu einer Person die entsprechenden Vorgänge 1368 Karteikarten, auf denen jeweils zu einer Person die entsprechenden Vorgänge
1404 Jedoch können auch Drittpersonen auf den Karten erscheinen. Dazu gibt es in 1370 Jedoch können auch Drittpersonen auf den Karten erscheinen. Dazu gibt es in
1405 der KLK die Variable ›Rolle‹, in der zwischen Erblasser*innen und Drittpersonen /  1371 der KLK die Variable ›Rolle‹, in der zwischen Erblasser*innen und Drittpersonen /
1406 Verwandten unterschieden wird. Dies führt dazu, dass ca. 6.500 1372 Verwandten unterschieden wird. Dies führt dazu, dass ca. 6.500
1410 dokumentiert. 1376 dokumentiert.
1411 [69]Auch die Variablen der KLK-Erfassung lassen sich in die Normform umwandeln. 1377 [66]Auch die Variablen der KLK-Erfassung lassen sich in die Normform umwandeln.
1412 Wie bei der KLF gibt es dabei Variablen, die sich direkt auf die Normform 1378 Wie bei der KLF gibt es dabei Variablen, die sich direkt auf die Normform
1486 1452
1487
1488 Tab. 5: Direkte Umwandlung der 1453 Tab. 5: Direkte Umwandlung der
1489 KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] 1454 KLK-Struktur in die Normform. [Goldberg / Mernitz 2023]
1490 [70]Die indirekte Herleitung betrifft vor allem die Nachnamen. In der KLK sind 1455 [67]Die indirekte Herleitung betrifft vor allem die Nachnamen. In der KLK sind
1491 nämlich die vorherigen Nachnamen mit abgebildet. Wenn der Teilstring 1456 nämlich die vorherigen Nachnamen mit abgebildet. Wenn der Teilstring
1500 angegebene Nachname immer der Geburtsname ist. 1465 angegebene Nachname immer der Geburtsname ist.
1501 [71]Auch bei den IDs findet eine indirekte Zuordnung statt. Wenn eine 1466 [68]Auch bei den IDs findet eine indirekte Zuordnung statt. Wenn eine
1502 Drittperson definiert ist und diese den Typ ›Ehemann‹ oder ›Ehefrau‹ 1467 Drittperson definiert ist und diese den Typ ›Ehemann‹ oder ›Ehefrau‹
1503 aufweist, dann wird die ID des Ehepartners / der Ehepartnerin hinzugefügt. Gleiches 1468 aufweist, dann wird die ID des Ehepartners / der Ehepartnerin hinzugefügt. Gleiches
1504 erfolgt bei 1469 erfolgt bei
1511 Dubletten ist hierbei die Quellenangabe (Band und Blatt) der Testamente. 1476 Dubletten ist hierbei die Quellenangabe (Band und Blatt) der Testamente.
1512 Wenn nur die ID eines Ehepartners / einer Ehepartnerin verändert wird, deutet es darauf 1477 Wenn nur die ID eines Ehepartners / einer Ehepartnerin verändert wird, deutet es darauf
1513 hin, dass 1478 hin, dass
1516 Drittperson fehlt. 1481 Drittperson fehlt.
1517 [72]Des Weiteren wird angenommen, dass die Testamentseröffnung kurz nach dem Tod 1482 [69]Des Weiteren wird angenommen, dass die Testamentseröffnung kurz nach dem Tod
1518 vorgenommen wird. Liegt also kein Todestag vor, so wird das Jahr der 1483 vorgenommen wird. Liegt also kein Todestag vor, so wird das Jahr der
1529 idSpouse1, idSpouse2, idSpouse3 1494 idSpouse1, idSpouse2, idSpouse3
1530 Wenn eine Drittperson (›Rolle‹ = = Drittperson / Verwandter) vom Typ 1495 Wenn eine Drittperson (›Rolle‹ == Drittperson / Verwandter) vom Typ
1531 Ehefrau oder Ehemann vorhanden ist (›Art der Beziehung‹), dann wird 1496 Ehefrau oder Ehemann vorhanden ist (›Art der Beziehung‹), dann wird
1535 idFather, idMother 1500 idFather, idMother
1536 Wenn eine Drittperson vom Typ Vater / Mutter / Sohn / Tochter 1501 Wenn eine Drittperson vom Typ Vater / Mutter / Sohn / Tochter
1537 vorhanden ist, dann wird die ID entsprechend ergänzt. 1502 vorhanden ist, dann wird die ID entsprechend ergänzt.
1544 lastname 1509 lastname
1545 surnameGiven, surnameUnkown, surnameMarriage1, surnameMarriage2, 1510 surnamenGiven, surnameUnkown, surnameMarriage1, surnameMarriage2,
1546 surnameMarriage3 1511 surnameMarriage3
1552 1517
1553
1554 Tab. 6: Indirekte Umwandlung der 1518 Tab. 6: Indirekte Umwandlung der
1555 KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] 1519 KLK-Struktur in die Normform. [Goldberg / Mernitz 2023]
1556 1520
1559 1523
1560 [73]Da sowohl in der KLK und KLF Personen mehrfach genannt werden können, ist 1524 [70]Da sowohl in der KLK und KLF Personen mehrfach genannt werden können, ist
1561 zunächst ein Vergleich der beiden normformatierten Datentabellen mit sich 1525 zunächst ein Vergleich der beiden normformatierten Datentabellen mit sich
1570 auch umgesetzt worden sind. 1534 auch umgesetzt worden sind.
1571 [74]Dennoch wird eine manuelle Überprüfung der zusammengeführten Records 1535 [71]Dennoch wird eine manuelle Überprüfung der zusammengeführten Records
1572 vorgenommen. Da nicht alle Records überprüft werden können, werden nur die 1536 vorgenommen. Da nicht alle Records überprüft werden können, werden nur die
1573 Personen behandelt, deren Geburtsname mit ›A‹ beginnt.[60] Von diesen 4.251 Records werden 651 1537 Personen behandelt, deren Geburtsname mit ›A‹ beginnt.[59] Von diesen 4.251 Records werden 651
1574 zusammengeführt (15,3 Prozent). Dabei konnten einige falschpositive Ergebnisse 1538 zusammengeführt (15,3 Prozent). Dabei konnten einige falschpositive Ergebnisse
1582 Abitzsch (14457495 und 14458366), Maria Arnst (14556375 und 14556424) und Paul 1546 Abitzsch (14457495 und 14458366), Maria Arnst (14556375 und 14556424) und Paul
1583 Arnst (14556496 und 14560610). Bei dem / den Bäcker(n) Anton Arnoldt (14554173 und 1547 Arnst (14556496 und 14560610). Bei dem / den Bäcker(n) Anton Arnoldt (14554173 und
1584 14554184) wird es sich 1548 14554184) wird es sich
1594 Falschpositiven bei 1,7 Prozent. 1558 Falschpositiven bei 1,7 Prozent.
1595 [75]Weiterhin ist auffällig, dass bei vielen Personen ein positiver Prioritätswert 1559 [72]Weiterhin ist auffällig, dass bei vielen Personen ein positiver Prioritätswert
1596 aufgrund gleicher Heiratsdaten oder gleicher Berufsangaben zustande kommt. 1560 aufgrund gleicher Heiratsdaten oder gleicher Berufsangaben zustande kommt.
1604 darstellt. 1568 darstellt.
1605 [76]Die Relevanz von Berufsangaben für den Prioritätswert führt auch dazu, dass 1569 [73]Die Relevanz von Berufsangaben für den Prioritätswert führt auch dazu, dass
1606 etwas mehr Männer (58,7 Prozent) als Frauen zusammengeführt werden. Um mehr 1570 etwas mehr Männer (58,7 Prozent) als Frauen zusammengeführt werden. Um mehr
1614 priorisiert werden. 1578 priorisiert werden.
1615 [77]Bemerkenswert ist auch, dass Vor- und Nachname bei den zusammengeführten 1579 [74]Bemerkenswert ist auch, dass Vor- und Nachname bei den zusammengeführten
1616 Personen in 90,6 Prozent der Fälle exakt übereinstimmen. Das liegt auch darin 1580 Personen in 90,6 Prozent der Fälle exakt übereinstimmen. Das liegt auch darin
1622 »Christine« etc.). 1586 »Christine« etc.).
1623 [78]Zudem ist zu vermuten, dass es im gesamten Datensatz eine nicht näher bekannte 1587 [75]Zudem ist zu vermuten, dass es im gesamten Datensatz eine nicht näher bekannte
1624 Anzahl von falschnegativen Zuordnungen gibt – also Records, die zusammengeführt 1588 Anzahl von falschnegativen Zuordnungen gibt – also Records, die zusammengeführt
1625 werden müssten, es aber nicht wurden. Für diesen Abgleich wäre eine 1589 werden müssten, es aber nicht wurden. Für diesen Abgleich wäre eine
1631 eine mehrfache Iteration also hilfreich sein. 1595 eine mehrfache Iteration also hilfreich sein.
1632 [79]Dass mit dem hier vorgestellten Algorithmus jedoch ein 1596 [76]Dass mit dem hier vorgestellten Algorithmus jedoch ein
1633 erheblicher Teil der tatsächlich zusammenzuführenden Records auch 1597 erheblicher Teil der tatsächlich zusammenzuführenden Records auch
1634 zusammengeführt wird, zeigt ein Vergleich mit der Personenzusammenführung des 1598 zusammengeführt wird, zeigt ein Vergleich mit der Personenzusammenführung des
1635 Genealogie-Programms Ahnenblatt 2.99[61]: Wird die GEDCOM-Datei dort hineingeladen und werden die 1599 Genealogie-Programms Ahnenblatt 2.99[60]: Wird die GEDCOM-Datei dort hineingeladen und werden die
1636 Vorschläge zur Zusammenführung der Personen ohne weiteren manuellen Eingriff 1600 Vorschläge zur Zusammenführung der Personen ohne weiteren manuellen Eingriff
1637 ausgeführt, werden 25.329 von 241.466 Personen zusammengeführt.[62] Das entspricht mit 10,5 1601 ausgeführt, werden 25.329 von 241.466 Personen zusammengeführt.[61] Das entspricht mit 10,5
1638 Prozent einem deutlich geringeren Anteil als im Test der mit »A« beginnenden 1602 Prozent einem deutlich geringeren Anteil als im Test der mit »A« beginnenden
1660 KLK 1624 KLK
1661 413 zusammengeführt bei 5.761 Personen (Anteil: 7,2 Prozent)[63] 1625 413 zusammengeführt bei 5.761 Personen (Anteil: 7,2 Prozent)[62]
1662 41 zusammengeführt bei 5.802 Personen (Anteil: 0,7 Prozent)[64] 1626 41 zusammengeführt bei 5.802 Personen (Anteil: 0,7 Prozent)[63]
1663
1664 1627
1666 Tab. 7: Übersicht über die Anzahl 1629 Tab. 7: Übersicht über die Anzahl
1667 der verknüpften Personen aus den Normformen. [Goldberg / Mernitz 2023] 1630 der verknüpften Personen aus den Normformen. [Goldberg / Mernitz 2023]
1668 [80]Insgesamt sind die Ergebnisse des Algorithmus also gut: Ein nicht näher zu 1631 [77]Insgesamt sind die Ergebnisse des Algorithmus also gut: Ein nicht näher zu
1669 quantifizierender, aber erheblicher Teil der tatsächlich zusammenzuführenden 1632 quantifizierender, aber erheblicher Teil der tatsächlich zusammenzuführenden
1675 die Formalisierung und Automatisierung genealogischer Heuristiken kann 1638 die Formalisierung und Automatisierung genealogischer Heuristiken kann
1676 erweitert und das Record Linkage somit verbessert werden.[65] 1639 erweitert und das Record Linkage somit verbessert werden.[64]
1677 1640
1680 1643
1681 [81]Gleiches mit Gleichem zu verbinden – darin besteht eine Herausforderung im Umgang 1644 [78]Gleiches mit Gleichem zu verbinden – darin besteht eine Herausforderung im Umgang
1682 mit historischen Personendaten. Der vorgestellte Ansatz leistet einen Beitrag, 1645 mit historischen Personendaten. Der vorgestellte Ansatz leistet einen Beitrag,
1698 Anpassung an die jeweiligen Herausforderungen. 1661 Anpassung an die jeweiligen Herausforderungen.
1699 [82]Hierbei zeigt sich sowohl ein großer Vorteil als auch ein großer Nachteil der 1662 [79]Hierbei zeigt sich sowohl ein großer Vorteil als auch ein großer Nachteil der
1700 vorgestellten Lösung: Der Vorteil besteht darin, dass der Algorithmus besonders 1663 vorgestellten Lösung: Der Vorteil besteht darin, dass der Algorithmus besonders
1710 Der Algorithmus kann hier beispielsweise bei der Erstellung von 1673 Der Algorithmus kann hier beispielsweise bei der Erstellung von
1711 Ortsfamilienbüchern ein nützliches Werkzeug sein. Hierzu gilt es in einem nächsten 1674 Ortsfamilienbüchern ein nützliches Werkzeug sein.
1712 Schritt, die Nachnutzung des Programmcodes niederschwelliger möglich zu machen, beispielsweise 1675 [80]Nachteilig ist der Algorithmus dahingegen, wenn nur wenige Informationen über die
1713 durch ein Webinterface. Ziel ist es, dass zwei Normform-Tabellen als CSV-Dateien in
1714 einem Webbrowser hochgeladen werden können. Hier würde zudem die Möglichkeit bestehen,
1715 diverse Funktionen des Algorithmus ab- oder anzuschalten oder Grenzwerte zu variieren.
1716 [83]Nachteilig ist der Algorithmus dahingegen, wenn nur wenige Informationen über die
1717 durch die Records beschriebenen Personen vorhanden sind. Sind beispielsweise nur 1676 durch die Records beschriebenen Personen vorhanden sind. Sind beispielsweise nur
1727 Nichtsdestotrotz stellt das entwickelte Programm ein geeignetes Grundgerüst für 1686 Nichtsdestotrotz stellt das entwickelte Programm ein geeignetes Grundgerüst für
1728 die Anpassung dar. Weiteres Potenzial besteht in der Evaluation und Integration von 1687 die Anpassung dar.
1729 Methoden maschinellen Lernens, die hier, wie eingangs erläutert, bewusst nicht genutzt 1688 [81]
1730 worden sind.
1731 1689
1743 werden öffentlich zur Verfügung gestellt und können zur Forschung und Bildung 1701 werden öffentlich zur Verfügung gestellt und können zur Forschung und Bildung
1744 genutzt werden. Vgl. Kaplan 2015, S. 73. 1702 genutzt werden. Vgl. Kaplan 2015, S. 73.
1745 1703
1749 [3] 1707 [3]
1750 Vgl. Hin et al. 2016, S. 50. 1708 Vgl. Hin et al. 2016, S. 50.
1751 1709
1753 Vgl. Feigenbaum 2016; 1711 Vgl. Feigenbaum 2016;
1754 Hin et al. 2016, S. 50, 52; 1712 Hin et al. 2016, S. 50, 52;
1755 Massey 2017, S. 129, 131. 1713 Massey 2017, S. 129, 131.
1756 1714
1758 Vgl. Massey 2017, 1716 Vgl. Massey 2017,
1759 S. 130. 1717 S. 130.
1760 1718
1770 [8] 1728 [8]
1771 Als Einführung in die Grundlagen des Themas vgl. Gu et al. 1729 Als Einführung in die Grundlagen des Themas vgl. Gu et al.
1772 2003. 1730 2003.
1779 Resultate erzielt sie mit probabilistischen Matching-Techniken. Vgl. Massey 1737 Resultate erzielt sie mit probabilistischen Matching-Techniken. Vgl. Massey
1780 2017, S. 129, 140. 1738 2017, S. 129, 140.
1781 1739
1782 [10] 1740 [10]
1783 Vgl. Gellatly 2015, S. 114, 122. 1741 Vgl. Gellatly 2015, S. 114, 122.
1784 1742
1786 Vgl. 1744 Vgl.
1787 Christen et al. 2015, S. 87. 1745 Christen et al. 2015, S. 87.
1788 1746
1790 1748
1791 Vgl. Georgala et al. 2015, S. 173. 1749 Vgl. Georgala et al. 2015, S. 173.
1792 1750
1793 [13] 1751 [13]
1794 Vgl. Baxter et al. 1752 Vgl. Baxter et al.
1795 2003, S. 2. 1753 2003, S. 2.
1796 1754
1800 Restriktionen einbeziehe, beispielsweise des möglichen 1758 Restriktionen einbeziehe, beispielsweise des möglichen
1801 Schwangerschaftszeitraums der Frau. Vgl. Nanayakkara et al. 1759 Schwangerschaftszeitraums der Frau. Vgl. Nanayakkara et al.
1802 2018. 1760 2018.
1804 [15] 1762 [15]
1805 Vgl. Gellatly 2015, S. 116. 1763 Vgl. Gellatly 2015, S. 116.
1806 1764
1807 [16] 1765 [16]
1808 Vgl. Gellatly 2015, S. 122f. 1766 Vgl. Gellatly 2015, S. 122f.
1809 1767
1810 [17] 1768 [17]
1811 Vgl. Efremova et al. 2015. 1769 Vgl. Efremova et al. 2015.
1812 1770
1813 [18] 1771 [18]
1814 Vgl. Thorvaldsen et al. 2015, S. 1772 Vgl. Thorvaldsen et al. 2015, S.
1815 163f. 1773 163f.
1817 [19] 1775 [19]
1818 Vgl. Thorvaldsen et al. 2015, S. 1776 Vgl. Thorvaldsen et al. 2015, S.
1819 168. 1777 168.
1821 [20] 1779 [20]
1822 Vgl. Georgala et al. 2015, S. 187. 1780 Vgl. Georgala et al. 2015, S. 187.
1823 1781
1837 [24] 1795 [24]
1838 Vgl. Delpeuch et al. 2023. 1796 Vgl.
1797 Abramitzky et al. 2021.
1839 1798
1840 [25] 1799 [25]
1841 Vgl. 1800 Vgl. Abramitzky et al. 2021, S. 865.
1842 Abramitzky et al. 2021.
1843 1801
1844 [26] 1802 [26]
1845 Vgl. Abramitzky et al. 2021, S. 865. 1803 Vgl. Abramitzky et al. 2020, S. 94.
1846 1804
1847 [27] 1805 [27]
1848 Vgl. Abramitzky et al. 2020, S. 94.
1849
1850 [28]
1851 Dieses stellt zugleich 1806 Dieses stellt zugleich
1853 Record-Linkage-Algorithmen in der ökonomischen Forschung dar. Vgl. 1808 Record-Linkage-Algorithmen in der ökonomischen Forschung dar. Vgl.
1854 Abramitzky et al. 2020, S. 106f. 1809 Abramitzky et al. 2020, S. 106f.
1810
1811 [28]
1812
1813 Efremova et al. nennen beispielsweise Variablen, die sie aus der Analyse von
1814 Geburts-, Todes- und Heiratsdokumenten erhalten. Vgl. Efremova et al. 2015,
1815 S. 132.
1855 1816
1856 [29] 1817 [29]
1857 1818 Vgl. Gellatly 2015, S.
1858 Efremova et al. nennen beispielsweise Variablen, die sie aus der Analyse von 1819 112; Harviainen / Björk 2018, S. 4.
1859 Geburts-, Todes- und Heiratsdokumenten erhalten. Vgl. Efremova et al. 2015,
1860 S. 132.
1861 1820
1862 [30] 1821 [30]
1863 Vgl. Gellatly 2015, S.
1864 112; Harviainen / Björk 2018, S. 4.
1865
1866 [31]
1867 Vgl. The Church of Jesus 1822 Vgl. The Church of Jesus
1869 1824
1870 [32] 1825 [31]
1871 Vgl. 1826 Vgl.
1873 1828
1874 [33] 1829 [32]
1875 Vgl. Verein für 1830 Vgl. Verein für
1877 1832
1878 [34] 1833 [33]
1879 In 1834 In
1889 1844
1890 [35] 1845 [34]
1891 Sollten mehr als zwei Datensätze 1846 Sollten mehr als zwei Datensätze
1897 1852
1898 [36] 1853 [35]
1899 Vgl. 1854 Vgl.
1901 1856
1902 [37] 1857 [36]
1903 Ortsangaben 1858 Ortsangaben
1914 Bevölkerung ist es wahrscheinlicher, dass Lebensereignisse in einer 1869 Bevölkerung ist es wahrscheinlicher, dass Lebensereignisse in einer
1915 begrenzten geografischen Distanz stattgefunden haben. Vgl. Bähr et al. 1870 begrenzten geografischen Distanz stattgefunden haben. Vgl. Bähr et al.
1916 1992; Kocka et al. 1980. Für den Erfolg eines Record Linkage kann es also 1871 1992; Kocka et al. 1980. Für den Erfolg eines Record Linkage kann es also
1917 auch relevant sein, ob Orte geografisch nah beieinander zu finden sind. 1872 auch relevant sein, ob Orte geografisch nah beieinander zu finden sind.
1918 Vgl. Efremova et al. 2015, S. 135, 139–141. Die Aufbereitung der Ortsangaben 1873 Vgl. Efremova et al. 2015, S. 135, 139–141. Die Aufbereitung der Ortsangaben
1919 kann an den von Goldberg definierten, auf den deutschen Sprachraum 1874 kann an den von Goldberg definierten, auf den deutschen Sprachraum
1923 1878
1924 [38] 1879 [37]
1925 In der deutschen Sprache enden Frauennamen traditionell 1880 In der deutschen Sprache enden Frauennamen traditionell
1931 1886
1887 [38]
1888 Zur
1889 Separierung solcher berufsfernen Angaben kann auf Goldberg / Moeller 2022 hingewiesen werden, die Kriterien zur Bereinigung von Berufsangaben aufstellen.
1890
1932 [39] 1891 [39]
1933 Zur 1892 230 = 1.073.741.824.
1934 Separierung solcher berufsfernen Angaben kann auf Goldberg / Moeller 2022 hingewiesen werden, die Kriterien zur Bereinigung von Berufsangaben aufstellen.
1935 1893
1936 [40] 1894 [40]
1937 230 = 1.073.741.824. 1895 1.073.741.8242 = 1.152.921.504.606.850.000.
1938 1896
1939 [41] 1897 [41]
1940 1.073.741.8242  = 1.152.921.504.606.850.000. 1898 Sonderformen bei einzelnen
1899 Glaubensgemeinschaften, z. B. die Totentaufe der Mormonen, bleiben
1900 unberücksichtigt.
1941 1901
1942 [42] 1902 [42]
1943 Sonderformen bei einzelnen
1944 Glaubensgemeinschaften, z. B. die Totentaufe der Mormonen, bleiben
1945 unberücksichtigt.
1946
1947 [43]
1948 Der Vergleich darf sich aber nicht nur auf einzelne Vornamen 1903 Der Vergleich darf sich aber nicht nur auf einzelne Vornamen
1956 1911
1957 [44] 1912 [43]
1958 Beispielsweise ist eine Person, die als 1913 Beispielsweise ist eine Person, die als
1963 1918
1964 [45] 1919 [44]
1965 Die hier definierten Regeln 1920 Die hier definierten Regeln
1968 1923
1969 [46] 1924 [45]
1970 Wenn für 1925 Wenn für
1975 1930
1976 [47] 1931 [46]
1977 1932
1981 1936
1937 [47]
1938 Vgl. Georgala et al. 2015, S.
1939 187.
1940
1982 [48] 1941 [48]
1983 Vgl. Georgala et al. 2015, S. 1942 Receiver Operating Characteristic, vgl. Fan et al.
1984 187. 1943 2006.
1985 1944
1986 [49] 1945 [49]
1987 Receiver Operating Characteristic, vgl. Fan et al. 1946 Vgl. Georgala et al. 2015, S. 185.
1988 2006.
1989 1947
1990 [50] 1948 [50]
1991 Vgl. Georgala et al. 2015, S. 185. 1949 Vgl. Postel 1969, S. 928.
1992 1950
1993 [51] 1951 [51]
1994 Vgl. Postel 1969, S. 928. 1952 Vgl. Schönfelder / Börngen 2015, S. 39.
1995 1953
1996 [52] 1954 [52]
1997 Vgl. Schönfelder / Börngen 2015, S. 39.
1998
1999 [53]
2000 Bei der KLK ist vor allem 1955 Bei der KLK ist vor allem
2003 1958
2004 [54] 1959 [53]
2005 Munke 2019, S. 118. 1960 Munke 2019, S. 118.
2006 Personen innerhalb der KLF können also doppelt vorkommen, indem sie auf 1961 Personen innerhalb der KLF können also doppelt vorkommen, indem sie auf
2011 1966
2012 [55] 1967 [54]
2013 Für eine 1968 Für eine
2016 1971
2017 [56] 1972 [55]
2018 Online durchsuchbar, vgl. Verein für Computergenealogie 1973 Online durchsuchbar, vgl. Verein für Computergenealogie
2020 1975
2021 [57] 1976 [56]
2022 Erwähnenswert ist, dass nicht jedes Feld einen Eintrag 1977 Erwähnenswert ist, dass nicht jedes Feld einen Eintrag
2025 1980
2026 [58] 1981 [57]
2027 Sächsisches Staatsarchiv. Bestand 20009 Amt 1982 Sächsisches Staatsarchiv. Bestand 20009 Amt
2029 1984
1985 [58]
1986 Verein für Computergenealogie 2019–2021.
1987
2030 [59] 1988 [59]
2031 Verein für Computergenealogie 2019–2021.
2032
2033 [60]
2034 1989
2039 1994
2040 [61] 1995 [60]
2041 Vgl. Böttcher 1996 Vgl. Böttcher
2043 1998
1999 [61]
2000 Die Zusammenführung basiert hierbei auf gleichen Namen und
2001 einem gleichen Ereignisdatum (z. B. das Taufdatum) und betrifft auch die
2002 nähere Verwandtschaft der betreffenden Personen wie die Eltern, Kinder oder
2003 Geschwister. Vgl. Böttcher 2018, S. 17.
2004
2044 [62] 2005 [62]
2045 Die Zusammenführung basiert hierbei auf gleichen Namen und
2046 einem gleichen Ereignisdatum (z. B. das Taufdatum) und betrifft auch die
2047 nähere Verwandtschaft der betreffenden Personen wie die Eltern, Kinder oder
2048 Geschwister. Vgl. Böttcher 2018, S. 17.
2049
2050 [63]
2051 Hier werden die Daten genutzt, nachdem die KLF und 2006 Hier werden die Daten genutzt, nachdem die KLF und
2055 2010
2056 [64] 2011 [63]
2057 Die KLK enthält zwar 6.524 Personendatensätze. Die 2012 Die KLK enthält zwar 6.524 Personendatensätze. Die
2061 2016
2062 [65] 2017 [64]
2063 2018
2075 2030
2076 Ran Abramitzky / Leah Boustan / Katherine Eriksson / James Feigenbaum / 2031 Ran Abramitzky / Leah Boustan / Katherine Eriksson / James Feigenbaum /
2077 Santiago Pérez: Automated Linking of Historical Data. In: Journal of Economic 2032 Santiago Pérez: Automated Linking of Historical Data. In: Journal of Economic
2078 Literature 59 (2021), H. 3, S. 865–918. DOI: 10.1257/jel.20201599 2033 Literature 59 (2021), H. 3, S. 865–918. DOI: 10.1257/jel.20201599
2079 [Nachweis im GVK] Ran Abramitzky / Roy Mill / Santiago Pérez: Linking individuals across 2034 [Nachweis im GVK] Ran Abramitzky / Roy Mill / Santiago Pérez: Linking individuals across
2080 historical sources: A fully automated approach. In: Historical Methods: A Journal 2035 historical sources: A fully automated approach. In: Historical Methods: A Journal
2081 of Quantitative and Interdisciplinary History 53 (2020), H. 2, S. 94–111. DOI: 10.1080/01615440.2018.1543034 2036 of Quantitative and Interdisciplinary History 53 (2020), H. 2, S. 94–111. DOI: 10.1080/01615440.2018.1543034
2082 [Nachweis im GVK] Jürgen Bähr / Christoph Jentsch / Wolfgang Kuls: Bevölkerungsgeographie. Berlin 2037 [Nachweis im GVK] Jürgen Bähr / Christoph Jentsch / Wolfgang Kuls: Bevölkerungsgeographie. Berlin
2083 u. a. 1992. (= Lehrbuch der allgemeinen Geographie, 9). [Nachweis im GVK] Rohan Baxter / Peter Christen / Tim Churches: A Comparison of Fast Blocking 2038 u. a. 1992. (= Lehrbuch der allgemeinen Geographie, 9). [Nachweis im GVK] Rohan Baxter / Peter Christen / Tim Churches: A Comparison of Fast Blocking
2084 Methods for Record Linkage. 2003. PDF. [online]Dirk Böttcher: Ahnenblatt Handbuch. 2018. PDF. [online]Peter Christen / Dinusha Vatsalan / Zhichun Fu: Advanced Record Linkage Methods 2039 Methods for Record Linkage. 2003. PDF. [online]Dirk Böttcher: Ahnenblatt Handbuch. 2018. PDF. [online]Peter Christen / Dinusha Vatsalan / Zhichun Fu: Advanced Record Linkage Methods
2085 and Privacy Aspects for Population Reconstruction. A Survey and Case Studies. In: 2040 and Privacy Aspects for Population Reconstruction. A Survey and Case Studies. In:
2086 Population Reconstruction. Hg. von Gerrit Bloothooft / Peter Christen / Kees 2041 Population Reconstruction. Hg. von Gerrit Bloothooft / Peter Christen / Kees
2087 Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 87–110. DOI: 10.1007/978-3-319-19884-2_5 2042 Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 87–110. DOI: 10.1007/978-3-319-19884-2_5
2088 [Nachweis im GVK] The Church of Jesus Christ of Latter-day Saints: The GEDCOM Standard. Salt Lake City 2043 [Nachweis im GVK] The Church of Jesus Christ of Latter-day Saints: The GEDCOM Standard. Salt Lake City
2089 2019. Release 2044 2019. Release
2090 5.5.1. vom 15.11.2019. PDF. [online]Antonin Delpeuch / Adrian Pohl / Fabian Steeg / Thad Guidry Sr. / Osma Suominen: Reconciliation 2045 5.5.1. vom 15.11.2019. PDF. [online]Julia Efremova / Bijan Ranjbar-Sahraei / Hossein Rahmani / Frans A. Oliehoek /
2091 Service API v0.2. A Protocol for Data Matching on the Web. Final Community Group Report. 2046 Toon Calders / Karl Tuyls / Gerhard Weiss: Multi-Source Entity Resolution for
2092 10.04.2023. HTML. [online]Julia Efremova / Bijan Ranjbar-Sahraei / Hossein Rahmani / Frans A. Oliehoek / 2047 Genealogical Data. In: Population Reconstruction. Hg. von Gerrit Bloothooft /
2093 Toon Calders / Karl Tuyls / Gerhard Weiss: Multi-Source Entity Resolution for 2048 Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 129–154.
2094 Genealogical Data. In: Population Reconstruction. Hg. von Gerrit Bloothooft / 2049 DOI: 10.1007/978-3-319-19884-2_7 [Nachweis im GVK] Jerome Fan / Suneel Upadhye / Andrew Worster: Understanding receiver operating
2095 Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 129–154.
2096 DOI: 10.1007/978-3-319-19884-2_7 [Nachweis im GVK] Jerome Fan / Suneel Upadhye / Andrew Worster: Understanding receiver operating
2097 characteristic (ROC) curves. In: Canadian Journal of Emergency Medicine 8 (2006), 2050 characteristic (ROC) curves. In: Canadian Journal of Emergency Medicine 8 (2006),
2098 H. 1, S. 19–20. DOI: 10.1017/S1481803500013336 [Nachweis im GVK] James J. Feigenbaum: Automated census record linking: a machine learning 2051 H. 1, S. 19–20. DOI: 10.1017/S1481803500013336 [Nachweis im GVK] James J. Feigenbaum: Automated census record linking: a machine learning
2099 approach. 2016. Handle: 2144/27526Eli Fure: Interactive Record Linkage: The Cumulative Construction of Life 2052 approach. 2016. Handle: 2144/27526Eli Fure: Interactive Record Linkage: The Cumulative Construction of Life
2100 Courses. In: Demographic Research 3 (2000). 12.12.2000. DOI: 10.4054/DemRes.2000.3.11Corry Gellatly: Reconstructing Historical Populations from Genealogical Data 2053 Courses. In: Demographic Research 3 (2000). 12.12.2000. DOI: 10.4054/DemRes.2000.3.11Corry Gellatly: Reconstructing Historical Populations from Genealogical Data
2101 Files. In: Population Reconstruction. Hg. von Gerrit Bloothooft / Peter Christen / 2054 Files. In: Population Reconstruction. Hg. von Gerrit Bloothooft / Peter Christen /
2102 Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 111–128. DOI: 10.1007/978-3-319-19884-2_6 2055 Kees Mandemakers / Marijn Schraagen. Cham u. a. 2015, S. 111–128. DOI: 10.1007/978-3-319-19884-2_6
2103 [Nachweis im GVK] Kleanthi Georgala / Benjamin van der Burgh / Marvin Meeng / Arno Knobbe: Record 2056 [Nachweis im GVK] Kleanthi Georgala / Benjamin van der Burgh / Marvin Meeng / Arno Knobbe: Record
2104 Linkage in Medieval and Early Modern Text. In: Population Reconstruction. Hg. von 2057 Linkage in Medieval and Early Modern Text. In: Population Reconstruction. Hg. von
2105 Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u. 2058 Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn Schraagen. Cham u.
2106 a. 2015, S. 173–195. DOI: 10.1007/978-3-319-19884-2_9 [Nachweis im GVK] Jan Michael Goldberg: Kontextsensitive Entscheidungsfindung zur automatisierten 2059 a. 2015, S. 173–195. DOI: 10.1007/978-3-319-19884-2_9 [Nachweis im GVK] Jan Michael Goldberg: Kontextsensitive Entscheidungsfindung zur automatisierten
2107 Identifizierung und Clusterung deutschsprachiger Urbanonyme. In: Zeitschrift für 2060 Identifizierung und Clusterung deutschsprachiger Urbanonyme. In: Zeitschrift für
2108 digitale Geisteswissenschaften 7 (2022). 10.10.2022. DOI: 10.17175/2022_005Jan Michael Goldberg / Katrin Moeller: Automatisierte Identifikation und 2061 digitale Geisteswissenschaften 7 (2022). 10.10.2022. DOI: 10.17175/2022_005Jan Michael Goldberg / Katrin Moeller: Automatisierte Identifikation und
2109 Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen 2062 Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen
2110 Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 08.03.2022. 2063 Datenbeständen. In: Zeitschrift für digitale Geisteswissenschaften 7 (2022). 08.03.2022.
2111 DOI: 10.17175/2022_002Lifang Gu / Rohan Baxter / Deanne Vickers / Chris Rainsford: Record Linkage: 2064 DOI: 10.17175/2022_002Lifang Gu / Rohan Baxter / Deanne Vickers / Chris Rainsford: Record Linkage:
2112 Current Practice and Future Directions. In: CMIS Technical Report 03/83 (2003). 2065 Current Practice and Future Directions. In: CMIS Technical Report 03/83 (2003).
2113 PDF. [online]J. Tuomas Harviainen / Bo-Christer Björk: Genealogy, GEDCOM, and popularity 2066 PDF. [online]J. Tuomas Harviainen / Bo-Christer Björk: Genealogy, GEDCOM, and popularity
2114 implications. In: Informaatiotutkimus 37 (2018), H. 3, S. 4–14. DOI: 10.23978/inf.76066 [Nachweis im GVK] Saskia Hin / Dalia A. Conde / Adam Lenart: New light on Roman census papyri 2067 implications. In: Informaatiotutkimus 37 (2018), H. 3, S. 4–14. DOI: 10.23978/inf.76066 [Nachweis im GVK] Saskia Hin / Dalia A. Conde / Adam Lenart: New light on Roman census papyri
2115 through semi-automated record linkage. In: Historical Methods: A Journal of 2068 through semi-automated record linkage. In: Historical Methods: A Journal of
2116 Quantitative and Interdisciplinary History 49 (2016), H. 1, S. 50–65. DOI: 10.1080/01615440.2015.1071226 2069 Quantitative and Interdisciplinary History 49 (2016), H. 1, S. 50–65. DOI: 10.1080/01615440.2015.1071226
2117 [Nachweis im GVK] Frédéric Kaplan: The Venice Time Machine. In: DocEng ’15: Proceedings of the 2070 [Nachweis im GVK] Frédéric Kaplan: The Venice Time Machine. In: DocEng ’15: Proceedings of the
2118 2015 ACM Symposium on Document Engineering (DocEng, Lausanne, 08.–11.09.2015). New 2071 2015 ACM Symposium on Document Engineering (DocEng, Lausanne, 08.–11.09.2015). New
2119 York 2015, S. 73. DOI: 10.1145/2682571.2797071Jürgen Kocka / Karl Ditt / Josef Mooser / Heinz Reif / Reinhard Schüren: 2072 York 2015, S. 73. DOI: 10.1145/2682571.2797071Jürgen Kocka / Karl Ditt / Josef Mooser / Heinz Reif / Reinhard Schüren:
2120 Familie und soziale Platzierung. Studien zum Verhältnis von Familie, sozialer 2073 Familie und soziale Platzierung. Studien zum Verhältnis von Familie, sozialer
2121 Mobilität und Heiratsverhalten an westfälischen Beispielen im späten 18. und 19. 2074 Mobilität und Heiratsverhalten an westfälischen Beispielen im späten 18. und 19.
2122 Jahrhundert. Wiesbaden 1980 (= Forschungsberichte des Landes Nordrhein-Westfalen, 2075 Jahrhundert. Wiesbaden 1980 (= Forschungsberichte des Landes Nordrhein-Westfalen,
2123 2953). DOI: 10.1007/978-3-322-87746-8Catherine G. Massey: Playing with matches: An assessment of accuracy in linked 2076 2953). DOI: 10.1007/978-3-322-87746-8Catherine G. Massey: Playing with matches: An assessment of accuracy in linked
2124 historical data. In: Historical Methods: A Journal of Quantitative and 2077 historical data. In: Historical Methods: A Journal of Quantitative and
2125 Interdisciplinary History 50 (2017), H. 3, S. 129–143. DOI: 10.1080/01615440.2017.1288598 2078 Interdisciplinary History 50 (2017), H. 3, S. 129–143. DOI: 10.1080/01615440.2017.1288598
2126 [Nachweis im GVK] Martin Munke: Citizen Science / Bürgerwissenschaft. Projekte, Probleme, 2079 [Nachweis im GVK] Martin Munke: Citizen Science / Bürgerwissenschaft. Projekte, Probleme,
2127 Perspektiven am Beispiel Sachsen. In: Forschungsdesign 4.0. Datengenerierung und 2080 Perspektiven am Beispiel Sachsen. In: Forschungsdesign 4.0. Datengenerierung und
2128 Wissenstransfer in interdisziplinärer Perspektive. Hg. von Jens Klingner / Merve 2081 Wissenstransfer in interdisziplinärer Perspektive. Hg. von Jens Klingner / Merve
2129 Lühr (Dresden, 19.–21.04.2018). Dresden 2019, S. 107–124. DOI: 10.25366/2019.11Charini Nanayakkara / Peter Christen / Thilina Ranbaduge: Temporal graph-based 2082 Lühr (Dresden, 19.–21.04.2018). Dresden 2019, S. 107–124. DOI: 10.25366/2019.11Charini Nanayakkara / Peter Christen / Thilina Ranbaduge: Temporal graph-based
2130 clustering for historical record linkage. In: Proceedings of 14th International 2083 clustering for historical record linkage. In: Proceedings of 14th International
2133 Personennamen auf der Grundlage der Gestaltanalyse. In: IBM-Nachrichten 19 (1969), 2086 Personennamen auf der Grundlage der Gestaltanalyse. In: IBM-Nachrichten 19 (1969),
2134 S. 925–931. [Nachweis im GVK] Günther Schönfelder / Michael Börngen: Naturräumliche Grundlagen. Landschaft 2087 S. 925–931. [Nachweis im GVK] Günther Schönfelder / Michael Börngen: Naturräumliche Grundlagen. Landschaft
2135 und Klima. In: Geschichte der Stadt Leipzig. Hg. von Uwe John / Enno Bünz. 4 Bde. 2088 und Klima. In: Geschichte der Stadt Leipzig. Hg. von Uwe John / Enno Bünz. 4 Bde.
2136 Leipzig 2015–2019. Bd. 1 (2015): Von den Anfängen bis zur Reformation, S. 33–47. 2089 Leipzig 2015–2019. Bd. 1 (2015): Von den Anfängen bis zur Reformation, S. 33–47.
2137 [Nachweis im GVK] Peter Schulz: GEDTOOL. Makrosammlung für GEDCOM-Dateien. V. 2.7 vom 14.09.2017. 2090 [Nachweis im GVK] Peter Schulz: GEDTOOL. Makrosammlung für GEDCOM-Dateien. V. 2.7 vom 14.09.2017.
2138 PDF. [online] Gunnar Thorvaldsen / Andersen Trygve / Hilde L. Sommerseth: Record Linkage in 2091 PDF. [online] Gunnar Thorvaldsen / Andersen Trygve / Hilde L. Sommerseth: Record Linkage in
2139 the Historical Population Register for Norway. In: Population Reconstruction. 2092 the Historical Population Register for Norway. In: Population Reconstruction.
2140 Hg. von Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn Schraagen. 2093 Hg. von Gerrit Bloothooft / Peter Christen / Kees Mandemakers / Marijn Schraagen.
2141 Cham u. a. 2015, S. 155–171. DOI: 10.1007/978-3-319-19884-2_8 [Nachweis im GVK] Time Machine Organisation: Local Time Machines. 2022. HTML. [online]Verein für Computergenealogie (2016a): Gedbas4all / Datenmodell. In: GenWiki. 2094 Cham u. a. 2015, S. 155–171. DOI: 10.1007/978-3-319-19884-2_8 [Nachweis im GVK] Time Machine Organisation: Local Time Machines. 2022. HTML. [online]Verein für Computergenealogie (2016a): Gedbas4all / Datenmodell. In: GenWiki.
2142 Das Genealogie-Wiki. 2016. HTML. [online] Verein für Computergenealogie (2016b): Gedbas4all / Datumsangaben. In: GenWiki. 2095 Das Genealogie-Wiki. 2016. HTML. [online] Verein für Computergenealogie (2016b): Gedbas4all / Datumsangaben. In: GenWiki.
2143 Das Genealogie-Wiki. 2016. HTML. [online]Verein für Computergenealogie: Kartei Leipziger Familien. In: GenWiki. Das 2096 Das Genealogie-Wiki. 2016. HTML. [online]Verein für Computergenealogie: Kartei Leipziger Familien. In: GenWiki. Das
2149 2102
2150
2151
2152 Abbildungs- und Tabellenverzeichnis 2103 Abbildungs- und Tabellenverzeichnis
2153 2104
2154 Abb. 1: Ablauf der Datenverarbeitung. [Goldberg / Mernitz 2023] 2105
2155 Abb. 2: Funktionsweise des Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz 2106 Abb. 1:
2107 Ablauf der Datenverarbeitung. [Goldberg / Mernitz 2023]
2108
2109
2110 Abb. 2:
2111 Funktionsweise des Algorithmus als Nassi-Shneiderman-Diagramm. [Goldberg / Mernitz
2156 2023] 2112 2023]
2113
2114
2157 Tab. 1: 2115 Tab. 1:
2158 Definition von Datenfeldern. [Goldberg / Mernitz 2023] 2116 Definition von Datenfeldern. [Goldberg / Mernitz 2023]
2117
2118
2159 Tab. 2: 2119 Tab. 2:
2160 Zusätzliche Variablen eines zusammengeführten Datensatzes. [Goldberg / Mernitz 2023] 2120 Zusätzliche Variablen eines zusammengeführten Datensatzes. [Goldberg / Mernitz 2023]
2121
2122
2161 Tab. 3: 2123 Tab. 3:
2162 Direkte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] 2124 Direkte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023]
2125
2126
2163 Tab. 4: 2127 Tab. 4:
2164 Indirekte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023] 2128 Indirekte Umwandlung der KLF-Struktur in die Normform. [Goldberg / Mernitz 2023]
2129
2130
2165 Tab. 5: 2131 Tab. 5:
2166 Direkte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] 2132 Direkte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023]
2133
2134
2167 Tab. 6: 2135 Tab. 6:
2168 Indirekte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023] 2136 Indirekte Umwandlung der KLK-Struktur in die Normform. [Goldberg / Mernitz 2023]
2137
2138
2169 Tab. 7: 2139 Tab. 7:
2170 Übersicht über die Anzahl der verknüpften Personen aus den Normformen. [Goldberg / 2140 Übersicht über die Anzahl der verknüpften Personen aus den Normformen. [Goldberg /
2171 Mernitz 2023] 2141 Mernitz 2023]