Versionen vergleichen von : Vorstellung eines (teil-)automatisierten Verfahrens zur Analyse der Multimodalität von Webseiten
Alt | Neu | ||
---|---|---|---|
7 | 7 | ||
8 | DOI: 10.17175/2021_003 | 8 | DOI: 10.17175/2021_003 |
9 | Nachweis im OPAC der Herzog August Bibliothek: | 9 | Nachweis im OPAC der Herzog August Bibliothek: ppn 1749189682 |
10 | Erstveröffentlichung: 09.09.2021 | 10 | Erstveröffentlichung: 09.09.2021 |
11 | | 11 | |
12 | Lizenz: Sofern nicht anders angegeben | 12 | Lizenz: Sofern nicht anders angegeben |
15 | Medienlizenzen: Medienrechte liegen bei den Autor*innen | 15 | Medienlizenzen: Medienrechte liegen bei den Autor*innen |
16 | |||
16 | Letzte Überprüfung aller Verweise: 23.08.2021 | 17 | Letzte Überprüfung aller Verweise: 23.08.2021 |
18 | |||
17 | GND-Verschlagwortung: Cluster-Analyse | Maschinelles Lernen | Multimodalität | Sozialwissenschaften | Website | | 19 | GND-Verschlagwortung: Cluster-Analyse | Maschinelles Lernen | Multimodalität | Sozialwissenschaften | Website | |
20 | |||
18 | Empfohlene Zitierweise: Thomas Jurczyk: Vorstellung eines (teil-)automatisierten Verfahrens zur | 21 | Empfohlene Zitierweise: Thomas Jurczyk: Vorstellung eines (teil-)automatisierten Verfahrens zur |
19 | Analyse der Multimodalität von Webseiten. In: Zeitschrift für digitale Geisteswissenschaften 6 (2021). Erstveröffentlichung 09.09.2021. Version 2.0 vom 21.03.2023. HTML / XML / PDF. DOI: 10.17175/2021_003_v2 | 22 | Analyse der Multimodalität von Webseiten. In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2021. text/html Format. DOI: 10.17175/2021_003 |
20 | 23 | ||
21 | 24 | ||
22 | 25 | ||
23 | 26 | ||
24 | 27 | ||
25 | Abstract | 28 | AbstractDer vorliegende Artikel möchte ein Verfahren zur (teil-)automatisierten Analyse |
26 | Der vorliegende Artikel beschreibt ein Verfahren zur (teil-)automatisierten Analyse | 29 | der Multimodalität von Webseiten vorstellen und diskutieren. Dabei steht im |
27 | der Multimodalität von Webseiten. Dabei steht im | 30 | Fokus, unbekannte Webseiten auf deren Multimodalität hin zu untersuchen, ohne |
28 | Fokus, unbekannte Webseiten auf deren multimodale Grundstrukturen hin zu untersuchen, | ||
29 | ohne | ||
30 | dass diese vorher annotiert oder sonst anderweitig in Bezug auf ihre | 31 | dass diese vorher annotiert oder sonst anderweitig in Bezug auf ihre |
31 | Multimodalität analysiert worden wären. Zusätzlich zur Etablierung eines | 32 | Multimodalität analysiert worden wären. Zusätzlich zur Etablierung eines |
32 | 33 | (teil-)automatisierten Verfahrens möchte dieser Artikel die Frage diskutieren, | |
33 | | 34 | inwiefern die Klassifizierung der Multimodalität von Webseiten im Zusammenhang |
34 | | 35 | mit den gesellschaftlichen Domänen steht, aus denen die Webseiten stammen |
35 | (Politik, Wirtschaft, Religion etc.). | 36 | (Politik, Wirtschaft, Religion etc.). |
38 | 39 | ||
39 | 40 | This article presents and discusses a method for the (partially) automated | |
40 | This article presents a method for the (partially) automated | ||
41 | analysis of the multimodality of web pages. The focus lies on analyzing unknown | 41 | analysis of the multimodality of web pages. The focus lies on analyzing unknown |
42 | 42 | web pages for their multimodality without annotating them beforehand. In | |
43 | 43 | addition to establishing a (partially) automated procedure, this article wants | |
44 | | 44 | to discuss the question to what extent the classification of the multimodality |
45 | of web pages is related to the social domains from which the web pages | 45 | of web pages is related to the social domains from which the web pages |
47 | 47 | ||
48 | |||
49 | |||
50 | Version 2.0 (21.03.2023) | ||
51 | Es wurden folgende Änderungen vorgenommen: Inhaltliche und strukturelle Anpassungen, | ||
52 | wie sie von den Gutachten angemerkt worden sind. Aktualisierung und Ergänzung der | ||
53 | Fußnoten und der bibliografischen Angaben. Formale Korrekturen. | ||
54 | 48 | ||
80 | sowie audio-visuelle Elemente wie Videos untersucht. | 74 | sowie audio-visuelle Elemente wie Videos untersucht. |
75 | |||
81 | [2]Aufgrund der Komplexität multimodaler Strukturen, die teils sehr diverse modes | 76 | [2]Aufgrund der Komplexität multimodaler Strukturen, die teils sehr diverse modes |
82 | miteinander kombinieren, konzentriert sich die Forschung zum Beispiel im Bereich | 77 | miteinander kombinieren, konzentriert sich die Forschung zum Beispiel im Bereich |
83 | der Bildlinguistik oder der Analyse von Webseiten zumeist auf eine | 78 | der Bildlinguistik oder im Kontext der Analyse von Webseiten zumeist auf eine |
84 | qualitativ-manuelle Analyse des Zusammenspiels der verschiedenen modes, wobei die | 79 | qualitativ-manuelle Analyse des Zusammenspiels der verschiedenen modes, wobei die |
85 | Ergebnisse der Einzelanalysen dann durchaus quantitativ synthetisiert für | 80 | Ergebnisse der Einzelanalysen dann durchaus quantitativ synthetisiert für |
86 | allgemeinere Aussagen herangezogen werden.[2] Um die komplexe Rolle multimodaler Strukturen für | 81 | allgemeinere Aussagen herangezogen werden.[2] Um die Komplexität der Multimodalität für |
87 | den Prozess der Zeichengenerierung adäquat zu | 82 | den Prozess der Zeichengenerierung beispielsweise auf Webseiten adäquat zu |
88 | besprechen, ist eine manuell-qualitative Untersuchung oft unersetzlich, da deren | 83 | besprechen, ist eine manuell-qualitative Untersuchung durchaus sinnvoll, da deren |
89 | Automatisierung derzeit nicht realisierbar ist. Dies ist unter anderem dadurch bedingt, | 84 | Automatisierung nur sehr schwer realisierbar ist; nicht zuletzt, weil die |
90 | dass die | ||
91 | menschliche Perzeption und Einschätzung in diesem Prozess eine zentrale Rolle | 85 | menschliche Perzeption und Einschätzung in diesem Prozess eine zentrale Rolle |
92 | spielen und Aspekte wie der initiale Eindruck einer Sehfläche stark vom/von der jeweiligen | 86 | spielen und Aspekte wie der initiale Eindruck einer Sehfläche stark vom jeweiligen |
93 | Betrachter*in abhängen.[3] Aufgrund der Schwierigkeit einer technischen Umsetzung geht es bei dem hier vorgestellten | 87 | Betrachter abhängen.[3] |
94 | Verfahren nicht darum, die komplexe multimodale Struktur einer Webseite en detail | 88 | [3]Das hier vorzustellende Analyseverfahren möchte trotz dieser Schwierigkeiten eine |
95 | automatisiert zu analysieren, sondern sich auf die Untersuchung ihrer multimodalen | 89 | Möglichkeit aufzeigen, wie zumindest grobe Strukturmerkmale der Multimodalität von |
96 | Grundstruktur zu beschränken. | 90 | Webseiten (teil-)automatisiert untersucht und zusammengefasst werden können. Ein |
97 | 91 | solches quantitatives, (teil-)automatisiertes Verfahren steht dabei keinesfalls im | |
98 | [3]Unter multimodalen Grundstrukturen wird in diesem Artikel die Existenz, Quantität | 92 | Widerspruch zu den etablierten manuell-qualitativen Zugängen, sondern möchte diese |
99 | und Größe einzelner modes (bildliche Elemente, Texte, audio-visuelle Elemente wie | 93 | lediglich um eine neue Perspektive ergänzen sowie in ihrer Durchführung |
100 | Videos) und deren Verhältnis zueinander auf den zu untersuchenden Webseiten verstanden. | 94 | unterstützen. Beispielsweise könnte ein etabliertes automatisiertes Verfahren |
101 | Ich hoffe, in diesem Artikel zu zeigen, dass bereits eine Analyse dieser Grundstrukturen | 95 | künftig dazu genutzt werden, größere Datenmengen (in diesem Falle von Webseiten) |
102 | etwas zum multimodalen Verständnis (und entsprechend der Kategorisierung) von Webseiten | 96 | hinsichtlich ihrer multimodalen Struktur vorzufiltern, um damit eine gezieltere |
103 | beitragen kann, auch ohne weitere Zusammenhänge wie Bildachsen, Farben, das konkrete | 97 | qualitativ-manuelle Analyse einzelner Fallbeispiele aus den unterschiedlichen |
104 | visuelle Ensemble von Text und Bild, Bildvektoren[4] oder die konkreten semantischen Inhalte von Text, Bild und Video einzubeziehen. | 98 | Clustern zu ermöglichen. Darüber hinaus kann eine automatisierte Analyse und |
105 | Dieses Verfahren der Analyse multimodaler Grundstrukturen ersetzt somit keine tiefergehende | 99 | Kategorisierung auch dazu verwendet werden, bestehende Klassifizierungen aus der |
106 | qualitative Analyse, aber es soll dazu beitragen, bei größeren Datensätzen Vorauswahlen | 100 | qualitativ-manuellen Forschung zu kontrastieren, empirisch zu untermauern oder zu |
107 | zu vereinfachen und die qualitative Analyse perspektivisch um eine quantitativ-computergestütztes | 101 | erweitern.[4] |
108 | Verfahren zu ergänzen.[5] Selbstverständlich wäre es wünschenswert, die Analyse der multimodalen Grundstrukturen, | 102 | [4]Versuche eines computergestützten Vorgehens bei der Analyse multimodaler |
109 | beispielsweise im Bereich von Bildern, auch auf die oben genannten Bereiche auszuweiten. | 103 | Strukturen finden sich bei O’Halloran et al.[5] Allerdings fokussieren sich die dort vorgestellten Ansätze auf |
110 | Dies bringt jedoch technische Herausforderungen bei der Umsetzung mit sich, die in | 104 | die (automatisierte) Analyse kürzerer Sequenzen (beispielsweise eines |
111 | diesem Artikel nicht geleistet werden können, und bei denen fraglich ist, ob sie zumindest | 105 | Interviewausschnitts) oder sie arbeiten mit bereits annotierten oder anderweitig |
112 | zum derzeitigen Zeitpunkt in Konkurrenz zu einer menschlichen qualitativ-manuellen | 106 | vorstrukturierten Daten (siehe auch Kapitel |
113 | Untersuchung treten können und sollten.[6] | 107 | 2). |
114 | [4]Zusätzlich zur Etablierung eines (teil-)automatisierten Verfahrens diskutiert dieser | 108 | |
115 | Artikel die Frage, inwiefern die Klassifizierung der Multimodalität | 109 | [5]Zusätzlich zur Etablierung eines (teil-)automatisierten Verfahrens möchte dieser |
110 | Artikel die Frage diskutieren, inwiefern die Klassifizierung der Multimodalität | ||
116 | von Webseiten im Zusammenhang mit den gesellschaftlichen Domänen steht, aus denen | 111 | von Webseiten im Zusammenhang mit den gesellschaftlichen Domänen steht, aus denen |
117 | die Webseiten stammen (Politik, Wirtschaft, Religion, Universität | 112 | die Webseiten stammen (Politik, Wirtschaft, Religion, Universität, Journalismus, Unterhaltung). Es wäre zu fragen, ob bestimmte multimodale |
118 | von Webseiten bereits unabhängig von der konkreten Semantik ihrer | 113 | Strukturen von Webseiten bereits unabhängig von der konkreten Semantik ihrer |
119 | verwendeten modes (beispielsweise eines dargestellten Kreuzes als bildliches | 114 | verwendeten modes (beispielsweise eines dargestellten Kreuzes als bildliches |
121 | Zugespitzt gefragt: Gibt es politische, wirtschaftliche oder religiöse multimodale | 116 | Zugespitzt gefragt: Gibt es politische, wirtschaftliche oder religiöse multimodale |
122 | Strukturen auf Webseiten, die voneinander unterscheidbar sind, ohne die Semantik oder | 117 | Strukturen auf Webseiten, die voneinander unterscheidbar sind, ohne die Semantik |
123 | tiefergehende multimodale Strukturen (Bildachsen etc.) der jeweils konkret verwendeten | 118 | der jeweils konkret verwendeten modes einzubeziehen? |
124 | modes einzubeziehen? | 119 | |
125 | [5]Im Folgenden wird in einem ersten Schritt (Kapitel | 120 | [6]Im Folgenden wird in einem ersten Schritt (Kapitel |
126 | 2) detaillierter auf das Forschungsinteresse dieses Artikels und den Forschungsstand | 121 | 2) nochmals detaillierter auf das Forschungsinteresse dieses Artikels |
127 | eingegangen. Im Zentrum stehen hier aktuelle Forschungen im Bereich der Analyse der | 122 | eingegangen. Hierbei richtet sich der Blick auf aktuelle Forschungen im Bereich |
128 | 123 | Multimodalität von Webseiten und deren potentielle Ergänzung durch ein | |
129 | Multimodalität von Webseiten und deren Umsetzung durch ein | ||
130 | (teil-)automatisiertes Verfahren zur Analyse unbekannter Datensätze. Anschließend | 124 | (teil-)automatisiertes Verfahren zur Analyse unbekannter Datensätze. Anschließend |
136 | kategorisiert, wobei die Untersuchung und der Nachvollzug der Ergebnisse im Fokus | 130 | kategorisiert, wobei die Untersuchung und der Nachvollzug der Ergebnisse im Fokus |
137 | stehen. Im abschließenden Kapitel (5) werden die Ergebnisse des (teil-)automatisierten Analysevorgangs | 131 | stehen. Im abschließenden letzten Kapitel (5) werden die Ergebnisse des (teil-)automatisierten Analysevorgangs |
138 | diskutiert und evaluiert. In diesem Zusammenhang stehen vor allem die Fragen nach | 132 | diskutiert und evaluiert. In diesem Zusammenhang stehen vor allem die Fragen nach |
142 | 136 | ||
137 | |||
143 | 2. Forschungsfrage und Forschungsstand | 138 | 2. Forschungsfrage und Forschungsstand |
144 | 139 | ||
145 | [ | 140 | [7]Die Forschungsfrage dieses Artikels betrifft die Möglichkeit einer automatisierten |
146 | Auswertung und Klassifizierung unbekannter Webseiten auf Basis ihrer multimodalen | 141 | Auswertung und Klassifizierung unbekannter Webseiten auf Basis ihrer multimodalen |
147 | Eigenschaften. Ansätze in Richtung einer automatisierten Auswertung multimodaler | 142 | Eigenschaften. Ansätze in Richtung einer automatisierten Auswertung multimodaler |
148 | Strukturen finden sich unter anderem bei O’Halloran et al.[7] und auf der Webseite des Multimodal Analysis | 143 | Strukturen finden sich unter anderem bei O’Halloran et al.[6] und auf der Webseite des Multimodal Analysis |
149 | Lab.[8] Darüber hinaus gibt es zahlreiche Literatur über die Analyse der Multimodalität von | 144 | Lab.[7] |
150 | Webseiten,[9] die allerdings zumeist auf qualitative Methoden und somit auf die Untersuchung einzelner | 145 | [8]Obwohl sich die Multimodalitätsforschung nicht auf Webseiten beschränkt, sondern |
151 | Fallbeispiele fokussiert ist.[10] Es gibt innerhalb der Multimodalitätsforschung jedoch durchaus Bestrebungen, quantitative | 146 | an unterschiedlichsten Medien und Formen der Multimodalität interessiert ist,[8] konzentriert sich |
152 | (computergestütze) Verfahren zu etablieren.[11] Dieser Artikel möchte die existierenden Tendenzen einer stärkeren Integration quantitativer | ||
153 | (computergestützter) Verfahren in die Multimodalitätsanalyse aufgreifen und um eine | ||
154 | Methode zur (teil-)automatisierten Auswertung multimodaler Grundstrukturen von Webseiten | ||
155 | erweitern, die weiterhin ein Desideratum darstellt, wie das folgende Zitat beispielhaft | ||
156 | verdeutlicht: | ||
157 | »Thus, moving from ‚manual analysis and discursive interpretation of a limited number | ||
158 | of multimodal texts toward automated recognition of multimodal meanings across large | ||
159 | data sets remains the ›latest challenge in the field‹ (O’Halloran et al., 2016, 17).«[12] | ||
160 | [8]Trotzdem sich die Multimodalitätsforschung nicht auf Webseiten beschränkt, sondern | ||
161 | an unterschiedlichsten Medien und Formen der Multimodalität interessiert ist,[13] konzentriert sich | ||
162 | dieser Artikel auf Webseiten. Webseiten haben gegenüber Werbeplakaten, gedruckten | 147 | dieser Artikel auf Webseiten. Webseiten haben gegenüber Werbeplakaten, gedruckten |
163 | Zeitungen oder Filmen den Vorteil, dass sie bereits in einer digitalen und in | 148 | Zeitungen oder Filmen den Vorteil, dass sie bereits in einer digitalen und in |
164 | Bezug auf | 149 | Bezug auf ihre Multimodalität vorstrukturierten Form vorliegen. So sind |
165 | beispielsweise eingebundene Bilder auf Webseiten meist durch die Nutzung von | 150 | beispielsweise eingebundene Bilder auf Webseiten meist durch die Nutzung von |
167 | gekennzeichnet, die sich | 152 | gekennzeichnet, die sich |
168 | leicht automatisiert identifizieren und mit entsprechenden Parsern | 153 | relativ leicht automatisiert identifizieren und mit entsprechenden Parsern |
169 | auslesen lassen. Dasselbe gilt für Texte oder die Einbindung von Videos auf | 154 | auslesen lassen. Selbiges gilt für Texte oder die Einbindung von Videos auf |
170 | Webseiten. Somit entfallen bei der automatisierten Analyse von Webseiten die ansonsten | 155 | Webseiten. Somit entfallen im Falle von Webseiten die ansonsten notwendigen und |
171 | notwendigen und | ||
172 | zeitaufwendigen Schritte der Digitalisierung und anschließenden Vorstrukturierung | 156 | zeitaufwendigen Schritte der Digitalisierung und anschließenden Vorstrukturierung |
173 | der Digitalisate, beispielsweise durch Annotationen. | 157 | der Digitalisate, beispielsweise durch Annotationen. |
174 | [9]Darüber hinaus sind Webseiten weit verbreitet und finden sich in fast allen | 158 | |
159 | [9]Darüber hinaus sind Webseiten sehr populär und finden sich in fast allen | ||
175 | gesellschaftlichen Bereichen (Wirtschaft, Religion, Wissenschaft, private | 160 | gesellschaftlichen Bereichen (Wirtschaft, Religion, Wissenschaft, private |
176 | Seiten usw.). Diese Tatsache erlaubt es, im Kontext der Analyse und | 161 | Seiten usw.). Diese Tatsache erlaubt es, im Kontext der Analyse und |
177 | Kategorisierung der multimodalen Grundstruktur von Webseiten die Frage zu stellen, | 162 | Kategorisierung der Multimodalität von Webseiten die Frage zu stellen, inwieweit |
178 | inwieweit | 163 | Cluster von Webseiten mit ähnlichen multimodalen Strukturen mit den |
179 | Cluster von Webseiten mit ähnlichen multimodalen Eigenschaften mit den | ||
180 | gesellschaftlichen Feldern korrelieren, aus denen sie stammen. Gibt es | 164 | gesellschaftlichen Feldern korrelieren, aus denen sie stammen. Gibt es |
181 | beispielsweise ein charakteristisches Ensemble multimodaler Grundstrukturen auf politischen | 165 | beispielsweise eine bestimmte Form von Multimodalität auf politischen Webseiten, |
182 | Webseiten, | 166 | die sich von der religiöser Webseiten unterscheidet, sodass diese nicht nur auf |
183 | das sich von dem religiöser Webseiten unterscheidet, sodass diese nicht nur auf | ||
184 | inhaltlicher, sondern auch auf formaler Ebene unterscheidbar sind? Oder lassen | 167 | inhaltlicher, sondern auch auf formaler Ebene unterscheidbar sind? Oder lassen |
185 | sich | 168 | sich multimodal-strukturelle Muster über die Grenzen gesellschaftlicher Domänen |
186 | hinweg | 169 | hinweg verfolgen, sodass etwaige inhaltliche Unterschiede zwischen den Seiten |
187 | (Semantik) von einer gemeinsamen multimodalen | 170 | (Semantik) von einer gemeinsamen multimodalen Struktur (Form) überdeckt werden, |
188 | die einem übergreifenden Webseiten-Typ entsprechen? Um diese | 171 | die einem übergreifenden Webseiten-Typ entsprechen? Um diese Frage(n) zu |
189 | beantworten, wurden die Webseiten aus dem Testdatensatz zum einen hinsichtlich der | 172 | beantworten, wurden die Webseiten aus dem Testdatensatz zum einen hinsichtlich der |
190 | gesellschaftlichen Domäne, aus der sie stammen, sowie auch des ihnen zuweisbaren | 173 | gesellschaftlichen Domäne, aus der sie stammen, sowie auch des ihnen zuweisbaren |
191 | Webseiten-Typs nach Stefan Meier[ | 174 | Webseiten-Typs nach Stefan Meier[9] |
192 | vorannotiert.[ | 175 | vorannotiert.[10] |
193 | [10]Im Folgenden soll eine Methode vorgestellt werden, wie ein solches Programm zur | 176 | [10]Im Folgenden soll eine Methode vorgestellt werden, wie ein solches Programm zur |
194 | (teil-)automatisierten Analyse | 177 | (teil-)automatisierten Analyse von Multimodalität aussehen könnte. Die |
195 | (teil-)automatisierte Analyse wird im Kontext dieses Artikels mit der | 178 | (teil-)automatisierte Analyse wird im Kontext dieses Artikels mit der |
205 | Dokumentationszwecken auf meinem GitHub Account | 188 | Dokumentationszwecken auf meinem GitHub Account |
206 | bereitgestellt.[ | 189 | bereitgestellt.[11] |
207 | 190 | ||
209 | 192 | ||
210 | [11]Die Methode der (teil-)automatisierten Analyse multimodaler | 193 | [11]Die Methode der (teil-)automatisierten Analyse multimodaler Strukturen von |
211 | Webseiten besteht aus | 194 | Webseiten besteht aus folgenden Schritten, die in Form eines in Python |
212 | geschriebenen Programms implementiert und ausgeführt werden.[ | 195 | geschriebenen Programms implementiert und ausgeführt werden.[12] |
213 | [12]Die hier vorgeschlagene Methode zur Analyse der Multimodalität von Webseiten | 196 | [12]Die hier vorgeschlagene Methode zur Analyse der Multimodalität von Webseiten |
215 | die Operationalisierbarkeit stark vereinfacht, sondern in Anlehnung an die | 198 | die Operationalisierbarkeit stark vereinfacht, sondern in Anlehnung an die |
216 | Sehflächen aus dem Bereich der Bildlinguistik[18] den Schwerpunkt der Analysen auf den multimodalen | 199 | Sehflächen aus dem Bereich der Bildlinguistik[13] den Schwerpunkt der Analysen auf den multimodalen |
217 | Ersteindruck der Seiten legt. Die Beschränkung auf einzelne Webseitenteile (landing | 200 | Ersteindruck der Seiten legt. Es geht also nicht darum, die Komplexität einzelner |
218 | pages) ist zudem auch bei qualitativ-manuellen Analysen gängig.[19] Es geht also nicht darum, die Komplexität einzelner | ||
219 | Webseiten unter Einbezug ihrer Unterseiten und deren multimodaler Struktur zu | 201 | Webseiten unter Einbezug ihrer Unterseiten und deren multimodaler Struktur zu |
221 | Nutzer*innen beim erstmaligen Betreten der Seite eröffnet. | 203 | Nutzer*innen beim erstmaligen Betreten der Seite eröffnet. |
204 | |||
222 | [13]Weil diese Art der Erstwahrnehmung der Webseiten wiederum stark von den | 205 | [13]Weil diese Art der Erstwahrnehmung der Webseiten wiederum stark von den |
229 | denen auf dem hier verwendeten Desktop Computer unterscheiden können. | 212 | denen auf dem hier verwendeten Desktop Computer unterscheiden können. |
213 | |||
230 | [14]Die Definition der ersten Wahrnehmungsebene einer Sehfläche aus der Bildlinguistik | 214 | [14]Die Definition der ersten Wahrnehmungsebene einer Sehfläche aus der Bildlinguistik |
240 | Startseite, was zwar über den Moment des Ersteindrucks hinausgeht, aber den | 224 | Startseite, was zwar über den Moment des Ersteindrucks hinausgeht, aber den |
241 | multimodalen Charakter der Webseite dafür adäquater in seiner Gesamtheit repräsentiert. | 225 | multimodalen Charakter der Webseite dafür adäquater repräsentiert. |
226 | |||
242 | [15]Die Methode lässt sich in drei Schritte unterteilen: 1) Corpuserstellung, 2) | 227 | [15]Die Methode lässt sich in drei Schritte unterteilen: 1) Corpuserstellung, 2) |
248 | der Daten benötigt wird. | 233 | der Daten benötigt wird. |
234 | |||
249 | [16]Diese drei Schritte werden im Folgenden detailliert diskutiert und anhand einer | 235 | [16]Diese drei Schritte werden im Folgenden detailliert diskutiert und anhand einer |
250 | exemplarischen Implementierung in Python umgesetzt. | 236 | exemplarischen Implementierung in Python umgesetzt. |
237 | |||
251 | 3.1 Corpuserstellung | 238 | 3.1 Corpuserstellung |
256 | Programms angelegt werden. Im Kontext dieses Artikels enthält die betreffende | 243 | Programms angelegt werden. Im Kontext dieses Artikels enthält die betreffende |
257 | CSV-Datei die folgenden drei Spalten:[20] | 244 | CSV-Datei die folgenden drei Spalten:[14] |
258 | |||
259 | 245 | ||
272 | Tab. 1: Beispiel eines Eintrags einer Webseite in der | 258 | Tab. 1: Beispiel eines Eintrags einer Webseite in der |
273 | 259 | Datei ›websites.csv‹. [Jurczyk 2021][18]Die erste Spalte enthält die URLs der Webseiten, die zweite deren | |
274 | [ | 260 | gesellschaftliche Domäne (in der hier gezeigten Zeile UNI für Universität)[15] und die Einordnung der |
275 | | 261 | Webseite nach den von Stefan Meier[16] vorgeschlagenen Webseiten-Typen in: |
276 | | 262 | |
277 | 263 | ||
286 | 272 | ||
273 | |||
287 | from scraper import Corpus | 274 | from scraper import Corpus |
288 | 275 | ||
289 | |||
290 | 276 | ||
294 | 280 | ||
295 | [20]Da die Startseiten von sozialen Netzwerken wie Facebook oder Twitter zumeist das Einloggen | 281 | [20]Hierzu wird die Corpus-Klasse importiert und als Corpus-Objekt initialisiert. |
296 | der User*innen erfordern und kampagnenorientierte Webseiten nicht immer leicht von | ||
297 | imageorientierten Webseiten zu unterscheiden sind, wurde die Auswahl der Webseiten-Typen | ||
298 | der Einfachheit halber in dieser Analyse auf die zwei Typen der newsorientierten und | ||
299 | imageorientierten Webseiten beschränkt. Eine spätere Integration der beiden anderen | ||
300 | Typen kann jedoch leicht nachträglich vorgenommen werden und wäre für eine Ausweitung | ||
301 | der in diesem Artikel beispielhaft behandelten Fragestellung interessant. Die Typologie Meiers ist auf primäre Handlungstypen aufgebaut,, wobei sich newsorientierte | ||
302 | Webseiten auf »prototypische journalistische Angebote, die durch ständig aktualisierten Contentwechsel | ||
303 | über das politische, kulturelle, wirtschaftliche, soziale und sportliche Geschehen«[23] konzentrieren, während imageorientierte Webseiten »der Vorstellung und (Selbst)Darstellung einer Einzelperson, einer Institution, eines | ||
304 | Unternehmens«[24] dienen. Sie bieten damit ein geeignetes Mittel, Webseiten transparent auf Basis einer | ||
305 | bestimmten Eigenschaft (Handlungstypen) zu klassifizieren, die wiederum mit den Ergebnissen | ||
306 | der (teil-)automatisierten Analyse der multimodalen Grundstruktur verglichen werden | ||
307 | können, um so eine mögliche Verbindung zwischen ›Handlungstypen‹ und multimodaler | ||
308 | Grundstruktur nachzuvollziehen. Eine solche Korrelation zwischen Handlungstypen und | ||
309 | multimodaler Strukturierung wird von Stefan Meier als gegeben angesehen,[25] weshalb es interessant und zur Überprüfung des hier vorgeschlagenen Verfahrens wichtig | ||
310 | ist, die Ergebnisse der (teil-)automatisierten Analyse mit der Kategorisierung nach | ||
311 | Meier zu vergleichen, um auf sowohl Gemeinsamkeiten als auch Unstimmigkeiten zwischen | ||
312 | den beiden Klassifizierungen aufmerksam machen zu können. | ||
313 | [21]Hierzu wird die Corpus-Klasse importiert und als Corpus-Objekt initialisiert. | ||
314 | Das Corpus wird daraufhin mit der Methode | 282 | Das Corpus wird daraufhin mit der Methode |
319 | Entsprechend muss dieser Teil des Programms nur einmal ausgeführt werden. | 287 | Entsprechend muss dieser Teil des Programms nur einmal ausgeführt werden. |
320 | [22]Die | 288 | |
321 | initCorpus()-Methode iteriert über die in ›websites.csv‹ | 289 | [21]Die |
322 | befindlichen URLs und öffnet diese mit Selenium[26] in einem Browserfenster auf | 290 | initCorpus() Methode iteriert über die in ›websites.csv‹ |
323 | Bildschirmgröße.[27] Die User*innen sind daraufhin aufgefordert, | 291 | befindlichen URLs und öffnet diese mit Selenium[17] in einem Browserfenster auf |
292 | Bildschirmgröße.[18] Die User*innen sind daraufhin aufgefordert, | ||
324 | etwaige aufpoppende Banner beziehungsweise Abfragen manuell zu bestätigen. | 293 | etwaige aufpoppende Banner beziehungsweise Abfragen manuell zu bestätigen. |
326 | Webseite im Jupyter Notebook bestätigt werden. Nachdem automatisiert bis zum Ende der Webseite | 295 | Webseite im Jupyter Notebook bestätigt werden. Nachdem automatisiert bis zum Ende der Webseite |
327 | gescrollt wurde,[ | 296 | gescrollt wurde,[19] speichert das Programm für jede Seite den |
328 | beim Aufruf der Webseite aktuellen HTML-Code in einem separaten Ordner namens | 297 | beim Aufruf der Webseite aktuellen HTML-Code in einem separaten Ordner namens |
335 | initialisiert wird, werden alle Daten im Ordner ›CorpusData‹ überschrieben. | 304 | initialisiert wird, werden alle Daten im Ordner ›CorpusData‹ überschrieben. |
336 | [23]Warum wird dieser Vorgang lediglich teil- und nicht vollautomatisiert | 305 | |
306 | [22]Warum wird dieser Vorgang lediglich teil- und nicht vollautomatisiert | ||
337 | durchgeführt? Der Hauptgrund hierfür liegt im Anspruch des Programms, sehr | 307 | durchgeführt? Der Hauptgrund hierfür liegt im Anspruch des Programms, sehr |
339 | Seiten, die Inhalte dynamisch nachladen oder überhaupt erst durch eine | 309 | Seiten, die Inhalte dynamisch nachladen oder überhaupt erst durch eine |
340 | Bestätigung der User*innen aufgerufen werden können,[ | 310 | Bestätigung der User*innen aufgerufen werden können,[20] sind nur sehr |
341 | schwer ohne Kenntnisse des Webseitenaufbaus automatisiert abrufbar. Selenium wird in diesem Artikel gegenüber anderen Bibliotheken wie requests der | 311 | schwer ohne Kenntnisse des Webseitenaufbaus automatisiert abrufbar. Selenium wird in diesem Artikel gegenüber anderen Bibliotheken wie requests der |
348 | 318 | ||
319 | |||
349 | 3.2 Bilder, Videos und Texte | 320 | 3.2 Bilder, Videos und Texte |
350 | 321 | ||
351 | [ | 322 | [23]Nachdem das Corpus initialisiert wurde, muss im nächsten Schritt die |
352 | 323 | ||
363 | 334 | ||
335 | |||
364 | from data_preparation import DataPreparation | 336 | from data_preparation import DataPreparation |
372 | 344 | ||
373 | [ | 345 | [24]Genau wie im ersten Schritt der Corpus-Initialisierung arbeitet die |
374 | 346 | ||
375 | getImages() | 347 | getImages() Methode ebenfalls mit Selenium und erfordert die manuelle Bestätigung der User*innen. Die |
376 | 348 | ||
377 | getimages() | 349 | getimages() Methode ruft die einzelnen Webseiten auf und |
378 | speichert die Bild- und Videoinformationen in einem Byte-File | 350 | speichert die Bild- und Videoinformationen in einem Byte-File |
383 | einer Webseite. | 355 | einer Webseite. |
384 | [26]Im abschließenden Schritt des Aufrufs der | 356 | |
385 | createAnalyzerDict()-Methode wird das für die Analyse zentrale ›merged_data_dict.pickle‹ erstellt. | 357 | [25]Im abschließenden Schritt des Aufrufs der |
358 | createAnalyzerDict() | ||
359 | Methode wird das für die Analyse zentrale ›merged_data_dict.pickle‹ erstellt. | ||
386 | Die Generierung der in dieser Datei enthaltenen Informationen werden | 360 | Die Generierung der in dieser Datei enthaltenen Informationen werden |
390 | 364 | ||
391 | Anzahl der Bilder auf der Webseite[30] | 365 | |
392 | Anzahl der großen, mittleren, kleinen und sehr kleinen Bilder[31] | 366 | Anzahl der Bilder auf der Webseite[21] |
367 | Anzahl der großen, mittleren, kleinen und sehr kleinen Bilder[22] | ||
393 | Anzahl der Hintergrundbilder | 368 | Anzahl der Hintergrundbilder |
394 | Anzahl der Videos[ | 369 | Anzahl der Videos[23] |
395 | Anzahl der großen und kleinen Videos[ | 370 | Anzahl der großen und kleinen Videos[24] |
396 | Die Gesamtlänge textlicher Elemente auf der Seite[ | 371 | Die Gesamtlänge textlicher Elemente auf der Seite[25] |
397 | Die Anzahl der Überschriften | 372 | Die Anzahl der Überschriften |
401 | 376 | ||
402 | [ | 377 | [26]Darüber hinaus enthält die Datei zu Dokumentationszwecken und für die weitere |
403 | Analyse die vollständigen Daten, darunter die URLs zu den Bildern und Videos, | 378 | Analyse die vollständigen Daten, darunter die URLs zu den Bildern und Videos, |
406 | 381 | ||
382 | |||
407 | 3.3 Analyse | 383 | 3.3 Analyse |
408 | 384 | ||
409 | [ | 385 | [27]Der Analyseteil der hier vorzustellenden Methode wurde in der Datei |
410 | ›analyzer.py‹ realisiert. Die Analyse basiert auf einem k-Means-Clustering, das es erlaubt, die Datensätze auf Basis ihrer | 386 | ›analyzer.py‹ realisiert. Die Analyse basiert auf einem k-Means-Clustering, das es erlaubt, die Datensätze auf Basis ihrer |
411 | Features[ | 387 | Features[26] zu Gruppen mit ähnlichen |
412 | Eigenschaften zusammenzufassen.[ | 388 | Eigenschaften zusammenzufassen.[27] Die Klasse |
413 | 389 | ||
418 | Analyzer() außerdem folgende relationale Werte: | 394 | Analyzer() außerdem folgende relationale Werte: |
419 | [29]Jeweils das Verhältnis zwischen großen / mittleren / kleinen / sehr kleinen | 395 | |
396 | [28]Jeweils das Verhältnis zwischen großen / mittleren / kleinen / sehr kleinen | ||
420 | Bildern und der Gesamtzahl der Bilder auf einer Webseite | 397 | Bildern und der Gesamtzahl der Bilder auf einer Webseite |
398 | |||
421 | 399 | ||
423 | der Textlänge | 401 | der Textlänge |
402 | |||
424 | Das Verhältnis zwischen großen und mittleren Bildern und der | 403 | Das Verhältnis zwischen großen und mittleren Bildern und der |
425 | Textlänge | 404 | Textlänge |
405 | |||
426 | Das Verhältnis zwischen internen und externen Links | 406 | Das Verhältnis zwischen internen und externen Links |
429 | 409 | ||
430 | [30]Der Ablauf der Analyse besteht aus folgenden Schritten: | 410 | |
411 | [29]Der Ablauf der Analyse besteht aus folgenden Schritten: | ||
412 | |||
431 | 413 | ||
439 | werden. | 421 | werden. |
422 | |||
440 | Der zweite Schritt besteht in der Standardisierung der Daten mit Hilfe | 423 | Der zweite Schritt besteht in der Standardisierung der Daten mit Hilfe |
442 | StandardScaler()-Klasse, die eine | 425 | StandardScaler()-Klasse, die eine |
443 | Standardisierung der Daten durch Berechnung der z-scores ermöglicht.[ | 426 | Standardisierung der Daten durch Berechnung der z-scores ermöglicht.[28] Obwohl dieser |
444 | Schritt optional ist und die Analyse auch mit den nicht standardisierten | 427 | Schritt optional ist und die Analyse auch mit den nicht standardisierten |
447 | allem aus den unterschiedlichen Scales zwischen den Features | 430 | allem aus den unterschiedlichen Scales zwischen den Features |
448 | resultieren.[ | 431 | resultieren.[29] |
449 | Anschließend können die ausgewählten (standardisierten) Features mit der | 432 | Anschließend können die ausgewählten (standardisierten) Features mit der |
455 | Clustern innerhalb des Jupyter Notebook. | 438 | Clustern innerhalb des Jupyter Notebook. |
439 | |||
456 | Mit der Methode | 440 | Mit der Methode |
461 | Feature-Auswahl zu ermitteln. Die ideale Anzahl der Cluster lässt sich | 445 | Feature-Auswahl zu ermitteln. Die ideale Anzahl der Cluster lässt sich |
462 | dadurch ermitteln, | 446 | dadurch ermitteln, das in dem Plot nach der Anzahl k-Cluster gesucht wird |
463 | (X-Achse), bei der die Kurve des Plots einen Knick hat und merklich | 447 | (X-Achse), bei der die Kurve des Plots einen Knick hat und merklich |
464 | abflacht.[ | 448 | abflacht.[30] |
465 | Anschließend erlaubt es die Methode | 449 | Anschließend erlaubt es die Methode |
468 | jeweiligen Clustern enthaltenen Webseiten zu erstellen und diese in | 452 | jeweiligen Clustern enthaltenen Webseiten zu erstellen und diese in |
469 | separaten Ordnern abzuspeichern. Die Screenshots werden wie in Kapitel 3.1 teilautomatisiert mit Selenium erstellt, wobei die User*innen dazu aufgefordert sind, etwaige | 453 | separaten Ordnern abzuspeichern. Die Screenshots werden dabei wie in Kapitel 3.1 teilautomatisiert mit Selenium erstellt, wobei die User*innen dazu aufgefordert sind, etwaige |
470 | erscheinende Warnungen und Abfragen manuell zu entfernen. Die Sammlung von | 454 | erscheinende Warnungen und Abfragen manuell zu entfernen. Die Sammlung von |
473 | eines Clusters von den Nutzer*innen manuell miteinander verglichen | 457 | eines Clusters von den Nutzer*innen manuell miteinander verglichen |
474 | werden.[ | 458 | werden.[31] |
475 | 459 | ||
476 | [ | 460 | [30]Der Code zur Realisierung der hier beschriebenen Analyse sieht in der hier |
477 | vorgestellten Implementierung wie folgt aus: | 461 | vorgestellten Implementierung wie folgt aus: |
479 | 463 | ||
464 | |||
480 | from analyzer import Analyzer | 465 | from analyzer import Analyzer |
521 | 506 | ||
522 | [ | 507 | [31]Die auf diese Weise entstandenen Cluster können nun von den User*innen dazu |
523 | genutzt werden, weitere Untersuchungen durchzuführen, wobei ein erster Schritt | 508 | genutzt werden, weitere Untersuchungen durchzuführen, wobei ein erster Schritt |
529 | gesellschaftlicher Domäne und der multimodalen Struktur genutzt werden. | 514 | gesellschaftlicher Domäne und der multimodalen Struktur genutzt werden. |
530 | [33]Die hier vorgestellte Methode und Implementierung sollen im Folgenden anhand | 515 | |
516 | [32]Die hier vorgestellte Methode und Implementierung sollen im Folgenden anhand | ||
531 | eines ausgewählten Webseiten-Samples und dessen Analyse exemplifiziert | 517 | eines ausgewählten Webseiten-Samples und dessen Analyse exemplifiziert |
534 | 520 | ||
521 | |||
535 | 4. Analyse eines Webseiten-Samples | 522 | 4. Analyse eines Webseiten-Samples |
536 | 523 | ||
537 | [ | 524 | [33]Das in diesem Artikel verwendete Webseiten-Sample ist verhältnismäßig klein |
538 | gewählt, um eine Überprüfung der Analyseergebnisse zu gewährleisten. Prinzipiell | 525 | gewählt, um eine Überprüfung der Analyseergebnisse zu gewährleisten. Prinzipiell |
548 | einer bestimmten Größe des Datensatzes nur noch schwer möglich. | 535 | einer bestimmten Größe des Datensatzes nur noch schwer möglich. |
549 | [35]Bei der Auswahl der Webseiten wurde darauf geachtet, Webseiten aus möglichst | 536 | |
550 | diversen gesellschaftlichen Domänen sowie vom Webseiten-Typ newsorientierter oder | 537 | [34]Bei der Auswahl der Webseiten wurde darauf geachtet, Webseiten aus möglichst |
551 | imageorientierter Webseiten nach Meier (siehe Kapitel 3.1) miteinander zu | 538 | diversen gesellschaftlichen Domänen sowie verschiedener Webseiten-Typen nach Meier |
539 | (siehe Kapitel 3.1) miteinander zu | ||
552 | kombinieren. Dies soll dabei helfen, die eingangs aufgeworfene Frage zu | 540 | kombinieren. Dies soll dabei helfen, die eingangs aufgeworfene Frage zu |
554 | beziehungsweise solche desselben Webseiten-Typs hinsichtlich ihres multimodalen | 542 | beziehungsweise solche desselben Webseiten-Typs hinsichtlich ihres multimodalen |
555 | Arrangements ähneln. | 543 | Arrangements ähneln. Da die Startseiten von sozialen Netzwerken wie Facebook oder |
544 | Twitter zumeist das Einloggen der User*innen erfordern und kampagnenorientierte | ||
545 | Webseiten nicht immer leicht von imageorientierten Webseiten zu unterscheiden | ||
546 | sind, wurde die Auswahl der Webseiten-Typen der Einfachheit halber in dieser | ||
547 | Analyse auf die zwei Typen der newsorientierten und imageorientierten Webseiten | ||
548 | beschränkt. Eine spätere Integration der beiden anderen Typen kann jedoch leicht | ||
549 | nachträglich vorgenommen werden und wäre für eine Ausweitung der in diesem Artikel | ||
550 | beispielhaft behandelten Fragestellung interessant. | ||
551 | |||
556 | 4.1 Das Webseiten-Sample und Corpus-Erstellung | 552 | 4.1 Das Webseiten-Sample und Corpus-Erstellung |
557 | 553 | ||
558 | [36]Das in diesem Artikel gewählte Webseiten-Corpus enthält die folgenden zwanzig | 554 | [35]Das in diesem Artikel gewählte Webseiten-Corpus enthält die folgenden zwanzig |
559 | Webseiten, die mit Blick auf ihre idealtypische Repräsentativität für bestimmte Domänen | 555 | Webseiten: |
560 | (beispielsweise Religion oder Wirtschaft) ausgesucht wurden: | ||
561 | 556 | ||
673 | besonders auf tagesaktuelle Neuigkeiten fokussiert ist. Siehe für diese | 668 | besonders auf tagesaktuelle Neuigkeiten fokussiert ist. Siehe für diese |
674 | problematische Einteilung auch das Kapitel 4.2.4). [Jurczyk 2021] | 669 | problematische Einteilung auch das Kapitel 4.2.4). [Jurczyk 2021][36]In einem ersten Schritt wird das Corpus wie in Kapitel 3.1 beschrieben initialisiert.[32] Daraufhin werden die Bilder und Videos der |
675 | [37]In einem ersten Schritt wird das Corpus wie in Kapitel 3.1 beschrieben initialisiert.[41] Daraufhin werden die Bilder und Videos der | ||
676 | einzelnen Webseiten mit Hilfe der | 670 | einzelnen Webseiten mit Hilfe der |
680 | 674 | ||
675 | |||
681 | 4.2 Analyse | 676 | 4.2 Analyse |
682 | 677 | ||
683 | [ | 678 | [37]Die Analyse mit Hilfe der |
684 | Analyzer()-Klasse wird mit | 679 | Analyzer()-Klasse wird mit |
687 | 682 | ||
683 | |||
688 | In einem ersten Schritt werden alle erhobenen Features in die Analyse | 684 | In einem ersten Schritt werden alle erhobenen Features in die Analyse |
690 | Kapitel 3.2) | 686 | Kapitel 3.2) |
687 | |||
691 | In einem zweiten Schritt werden nur die Bild- und Video-Features als | 688 | In einem zweiten Schritt werden nur die Bild- und Video-Features als |
692 | Basis für das Clustering genutzt (Bild- und Video-Features)[ | 689 | Basis für das Clustering genutzt (Bild- und Video-Features)[33] |
693 | In einem dritten Schritt werden nur die Textlänge sowie die Anzahl der | 690 | In einem dritten Schritt werden nur die Textlänge sowie die Anzahl der |
694 | Überschriften einbezogen (Text-Features) | 691 | Überschriften einbezogen (Text-Features) |
692 | |||
695 | Der letzte Schritt enthält eine Kombination der Text-, Video- und | 693 | Der letzte Schritt enthält eine Kombination der Text-, Video- und |
696 | Bild-Features (Text- und Bild-Features)[ | 694 | Bild-Features (Text- und Bild-Features)[34] |
697 | 695 | ||
698 | [ | 696 | [38]Im Folgenden sollen die im Kontext der jeweilig ausgewählten Features |
699 | entstandenen Cluster vorgestellt und diskutiert. Dabei geht es während | 697 | entstandenen Cluster vorgestellt und diskutiert werden. Dabei geht es während |
700 | der Besprechung zum einen darum, wie nachvollziehbar die Cluster in Bezug auf | 698 | der Besprechung zum einen darum, wie nachvollziehbar die Cluster in Bezug auf |
707 | multimodalen Features der Seiten korrelieren. | 705 | multimodalen Features der Seiten korrelieren. |
708 | [40]Jede Teilanalyse beginnt mit der Erstellung eines ›Elbow-Plot‹, um einen | 706 | |
707 | [39]Jede Teilanalyse beginnt mit der Erstellung eines ›Elbow-Plot‹, um einen | ||
709 | Eindruck von der potentiell ›richtigen‹ Auswahl an Clustern zu erlangen. | 708 | Eindruck von der potentiell ›richtigen‹ Auswahl an Clustern zu erlangen. |
714 | 713 | ||
714 | |||
715 | 4.2.1 Vollständige Features | 715 | 4.2.1 Vollständige Features |
721 | 721 | ||
722 | [ | 722 | [40]Wie an dem ›Elbow-Plot‹ erkennbar ist, bietet es sich im Kontext der |
723 | vollständigen Features an, einen möglichst hohen k-Wert für die Anzahl der | 723 | vollständigen Features an, einen möglichst hohen k-Wert für die Anzahl der |
857 | Clustering des Webseiten-Samples unter Einbezug aller Features. [Jurczyk | 857 | Clustering des Webseiten-Samples unter Einbezug aller Features. [Jurczyk |
858 | 2021] | 858 | 2021][41]Das Clustering unter Einbezug aller Features macht es auf den ersten Blick |
859 | [42]Das Clustering unter Einbezug aller Features macht es auf den ersten Blick | ||
860 | schwierig, eine Struktur beziehungsweise ein Muster in der Clusterbildung zu | 859 | schwierig, eine Struktur beziehungsweise ein Muster in der Clusterbildung zu |
862 | geringe Anzahl an Webseiten bedingt ist. Dies kann jedoch als Hinweis gewertet | 861 | geringe Anzahl an Webseiten bedingt ist. Dies kann jedoch als Hinweis gewertet |
863 | werden, dass die Webseiten in der Tat divers sind, was gut an den | 862 | werden, dass die Webseiten in der Tat relativ divers sind, was gut an den |
864 | Single-Webseiten-Clustern 3, 4 und 5 deutlich wird. | 863 | Single-Webseiten-Clustern 3, 4 und 5 deutlich wird. |
865 | [43]Neben der Feststellung, dass die Webseiten unter Einbezug aller Features | 864 | |
865 | [42]Neben der Feststellung, dass die Webseiten unter Einbezug aller Features | ||
866 | relativ divers sind, stechen zwei Cluster besonders hervor (Cluster 1 und | 866 | relativ divers sind, stechen zwei Cluster besonders hervor (Cluster 1 und |
867 | Cluster 2). | 867 | Cluster 2). |
868 | [44]Cluster 1 enthält vor allem Webseiten vom Typ ›News‹, die sich allerdings über | 868 | |
869 | [43]Cluster 1 enthält vor allem Webseiten vom Typ ›News‹, die sich allerdings über | ||
869 | ganz unterschiedliche Domänen erstrecken und von Entertainment Seiten (ign.com) | 870 | ganz unterschiedliche Domänen erstrecken und von Entertainment Seiten (ign.com) |
874 | verhältnismäßig wenige Überschriften (netzpolitik.org: 70, faz.net: 167, | 875 | verhältnismäßig wenige Überschriften (netzpolitik.org: 70, faz.net: 167, |
875 | heise.de: 164), dafür allerdings viele große Bilder beinhaltet | 876 | heise.de: 164), dafür allerdings viele große Bildern beinhaltet |
876 | (netzpolitik.org: 11, faz.net: 3, heise.de: 0).[44][45] Der zweite outlier ist die | 877 | (netzpolitik.org: 11, faz.net: 3, heise.de: 0)[35], was die Seite |
878 | zusammen mit der Anordnung der News in nur einer Spalte deutlich aufgeräumter | ||
879 | wirken lässt.[36] Der zweite outlier ist die | ||
877 | amerikanische News-Webseite nytimes.com. Diese fällt in eine gesonderte | 880 | amerikanische News-Webseite nytimes.com. Diese fällt in eine gesonderte |
880 | aus multimodaler Perspektive von den anderen Seiten abhebt. | 883 | aus multimodaler Perspektive von den anderen Seiten abhebt. |
881 | [45]Cluster 2 enthält vor allem Webseiten vom Typ ›Image‹, die ebenfalls aus | 884 | |
885 | [44]Cluster 2 enthält vor allem Webseiten vom Typ ›Image‹, die ebenfalls aus | ||
882 | verschiedenen gesellschaftlichen Bereichen stammen, wobei der Bereich der | 886 | verschiedenen gesellschaftlichen Bereichen stammen, wobei der Bereich der |
883 | ›Ökonomie‹ (ECO) dominiert. Ein Blick auf die Werte der Features zeigt, dass im | 887 | ›Ökonomie‹ (ECO) dominiert. Ein Blick auf die Werte der Features zeigt, dass im |
884 | Falle | 888 | Falle die Webseiten vom Type ›Image‹ vor allem das Verhältnis zwischen großen |
885 | Bildern und der Anzahl der Gesamtbilder deutlich größer und umgekehrt das | 889 | Bildern und der Anzahl der Gesamtbilder deutlich größer und umgekehrt das |
889 | Überschriften. | 893 | Überschriften. |
890 | [46]Zusammenfassend kann festgehalten werden, dass der Einbezug aller Features | 894 | |
895 | [45]Zusammenfassend kann festgehalten werden, dass der Einbezug aller Features | ||
891 | bereits in ersten sinnvollen Clusterbildungen des multimodalen Arrangements | 896 | bereits in ersten sinnvollen Clusterbildungen des multimodalen Arrangements |
896 | 901 | ||
902 | |||
897 | 4.2.2 Bild- und Video-Features | 903 | 4.2.2 Bild- und Video-Features |
903 | 909 | ||
904 | [ | 910 | [46]Im Falle der Bild- und Video-Feature-Auswahl wird im ›Elbow-Plot‹ deutlich, |
905 | dass sich eine Clusteranzahl von k=6 für die Analyse anbietet. Ein | 911 | dass sich eine Clusteranzahl von k=6 für die Analyse anbietet. Ein |
1039 | Clustering des Webseiten-Samples unter Einbezug der Bild- und | 1045 | Clustering des Webseiten-Samples unter Einbezug der Bild- und |
1040 | Video-Features. [Jurczyk 2021] | 1046 | Video-Features. [Jurczyk 2021][47]Die Analyse basierend auf den Bild- und Video-Features ist in Bezug auf die |
1041 | [48]Die Analyse, basierend auf den Bild- und Video-Features, ist in Bezug auf die | ||
1042 | Domänen und Webseiten-Typen deutlich schwieriger zu interpretieren als im Falle | 1047 | Domänen und Webseiten-Typen deutlich schwieriger zu interpretieren als im Falle |
1057 | 1062 | ||
1058 | | 1063 | Tags verwendet werden und sich dort sowohl in |
1059 | Sachen Größe als auch Erscheinungsbild kaum von regulären Bildern | 1064 | Sachen Größe als auch Erscheinungsbild kaum von regulären Bildern |
1062 | vergleichen. | 1067 | vergleichen. |
1063 | [49]Insgesamt ist die Einschränkung der Features auf Bilder und Videos zwar | 1068 | |
1069 | [48]Insgesamt ist die Einschränkung der Features auf Bilder und Videos zwar | ||
1064 | geeignet, eine allgemeine Einschätzung der Distribution von Elementen zu | 1070 | geeignet, eine allgemeine Einschätzung der Distribution von Elementen zu |
1069 | im derzeitigen Zustand des Programms ohne eine Ausarbeitung der | 1075 | im derzeitigen Zustand des Programms ohne eine Ausarbeitung der |
1070 | Bildklassifizierungsstrategien während der Datengenerierung nicht geeignet. Eine Weiterentwicklung | 1076 | Bildklassifizierungsstrategien während der Datengenerierung nicht geeignet. |
1071 | des Programms könnte darin bestehen, anstelle der kategorialen Einteilung der Bild-Features | 1077 | |
1072 | in große, mittlere und kleine Bilder direkt die Pixelanzahl als Feature | ||
1073 | einzubeziehen. | ||
1074 | 1078 | ||
1081 | 1085 | ||
1082 | [ | 1086 | [49]Im Falle der Text-Features lässt sich der ›Elbow‹ bei k=3 oder k=4 Clustern |
1083 | erkennen, wobei in diesem Beispiel k=4 Cluster ausgewählt wurden. Das | 1087 | erkennen, wobei in diesem Beispiel k=4 Cluster ausgewählt wurden. Das |
1217 | Clustering des Webseiten-Samples unter Einbezug der Text-Features. [Jurczyk | 1221 | Clustering des Webseiten-Samples unter Einbezug der Text-Features. [Jurczyk |
1218 | 2021] | 1222 | 2021][50]Im Falle des Text-Clustering lassen sich eindeutige Trends erkennen, die vor |
1219 | [51]Im Falle des Text-Clustering lassen sich eindeutige Trends erkennen, die vor | ||
1220 | allem mit den Webseiten-Typen korrelieren (Cluster 1, Cluster 2 sowie Cluster | 1223 | allem mit den Webseiten-Typen korrelieren (Cluster 1, Cluster 2 sowie Cluster |
1226 | die Verwendung von | 1229 | die Verwendung von |
1227 | | 1230 | Tags im unteren Bereich der Webseite |
1228 | von der Darstellung her kaum von einem regulären Text zu unterscheiden ist, | 1231 | von der Darstellung her kaum von einem regulären Text zu unterscheiden ist, |
1229 | weshalb nytimes.com eher in Cluster 2 einzuordnen ist.[ | 1232 | weshalb nytimes.com eher in Cluster 2 einzuordnen ist.[37] |
1230 | [ | 1233 | [51]Cluster 2 enthält News-Webseiten, die eine große Anzahl an Wörtern und viele |
1231 | Überschriften aufweisen und die damit als Idealtypen von News-Webseiten gelten | 1234 | Überschriften aufweisen und die damit als Idealtypen von News-Webseiten gelten |
1234 | wenige Überschriften beinhalten. | 1237 | wenige Überschriften beinhalten. |
1235 | [53]Insgesamt kann das auf den Textmengen basierende Clustering als durchaus | 1238 | |
1239 | [52]Insgesamt kann das auf den Textmengen basierende Clustering als durchaus | ||
1236 | sinnvoll angesehen werden, um den Typ einer Webseite zu klassifizieren. Auch | 1240 | sinnvoll angesehen werden, um den Typ einer Webseite zu klassifizieren. Auch |
1237 | deuten die Unterschiede in der Verwendung von Text, trotz der offensichtlich | 1241 | deuten die Unterschiede in der Verwendung von Text, trotz der offensichtlich |
1238 | vorhandenen Schwierigkeiten (siehe nytimes.com), auf eine unterschiedliche | 1242 | vorhandenen Schwierigkeiten (siehe nytimes.com), auch auf eine unterschiedliche |
1239 | Verwendung eines wichtigen multimodalen Elements hin (Schrift und deren | 1243 | Verwendung eines wichtigen multimodalen Elements hin (Schrift und deren |
1241 | Überschrift). | 1245 | Überschrift). |
1242 | [54]Der letzte Analyseschritt führt die Text-Features mit den Video- und | 1246 | |
1247 | [53]Der letzte Analyseschritt führt die Text-Features mit den Video- und | ||
1243 | Bild-Features zusammen. Im Gegensatz zum ersten Analyseschritt, der alle | 1248 | Bild-Features zusammen. Im Gegensatz zum ersten Analyseschritt, der alle |
1249 | 1254 | ||
1255 | |||
1250 | 4.2.4 Text-, Video- und Bild-Features | 1256 | 4.2.4 Text-, Video- und Bild-Features |
1256 | 1262 | ||
1257 | [ | 1263 | [54]Im Falle einer Kombination der Text-, Bild- und Video-Features ist die Wahl der |
1258 | Clusteranzahl auf Basis des ›Elbow-Plot‹ erneut schwierig und erinnert an die | 1264 | Clusteranzahl auf Basis des ›Elbow-Plot‹ erneut schwierig und erinnert an die |
1394 | Clustering des Webseiten-Samples unter Einbezug der Bild-, Video- und | 1400 | Clustering des Webseiten-Samples unter Einbezug der Bild-, Video- und |
1395 | Text-Features. [Jurczyk 2021] | 1401 | Text-Features. [Jurczyk 2021][55]Das hier ersichtliche feingliedrige Clustering zeichnet ein realistisches Bild |
1396 | [56]Das hier ersichtliche feingliedrige Clustering zeichnet ein realistisches Bild | ||
1397 | der multimodalen Struktur der im Webseiten-Sample enthaltenen Webseiten. | 1402 | der multimodalen Struktur der im Webseiten-Sample enthaltenen Webseiten. |
1398 | Besonders hervorzuheben sind Cluster 1 und Cluster 2. | 1403 | Besonders hervorzuheben sind Cluster 1 und Cluster 2. |
1399 | [57]Cluster 1 kann als ›Werbe-Cluster‹ bezeichnet werden, da es ausschließlich | 1404 | |
1400 | Webseiten vom Typ ›Image‹ enthält, die sich durch eine geringe | 1405 | [56]Cluster 1 kann als ›Werbe-Cluster‹ bezeichnet werden, da es ausschließlich |
1406 | Webseiten vom Typ ›Image‹ enthält, die sich durch eine relativ geringe | ||
1401 | Textmenge und eine geringe Anzahl an Bildern auszeichnen, die dafür aber meist | 1407 | Textmenge und eine geringe Anzahl an Bildern auszeichnen, die dafür aber meist |
1402 | sehr groß sind. | 1408 | sehr groß sind. Die Ersteindruck der Seiten erinnert damit an Werbeplakate oder |
1403 | Reklame in gedruckten Magazinen.[ | 1409 | Reklame in gedruckten Magazinen.[38] Die Seite adidas.de (Cluster 7) fällt nur deshalb aus diesem |
1404 | Cluster heraus, weil sie ein (sehr großes) Video auf der Startseite platziert | 1410 | Cluster heraus, weil sie ein (sehr großes) Video auf der Startseite platziert |
1405 | hat und damit ein anderes multimodales Arrangement aufweist. Ein | 1411 | hat, und damit ein anderes multimodales Arrangement aufweist. Ein |
1406 | vergleichender Blick auf zwei Webseiten aus Cluster 1 (spd.de und | 1412 | vergleichender Blick auf zwei Webseiten aus Cluster 1 (spd.de und |
1409 | Webseiten werden eindeutig von großen Bildern und wenig Text, der eher den | 1415 | Webseiten werden eindeutig von großen Bildern und wenig Text, der eher den |
1410 | Bildern zuzuarbeiten scheint, dominiert.[ | 1416 | Bildern zuzuarbeiten scheint, dominiert.[39] |
1411 | 1417 | ||
1420 | 1426 | ||
1421 | [ | 1427 | [57]Cluster 2 umfasst Webseiten mit, im Vergleich zu Cluster 1, viel Text, der |
1422 | außerdem durch zahlreiche Überschriften unterteilt wird. Webseiten in Cluster 2 | 1428 | außerdem durch zahlreiche Überschriften unterteilt wird. Webseiten in Cluster 2 |
1430 | 1436 | ||
1437 | |||
1431 | Abb. 7: Ansicht Startseite faz.de (Zoom-Stufe | 1438 | Abb. 7: Ansicht Startseite faz.de (Zoom-Stufe |
1438 | 1445 | ||
1439 | [ | 1446 | [58]Dass in Cluster 2 auch zwei Webseiten vom Typ ›Image‹ erscheinen, zeigt, dass |
1440 | sich auch imageorientierte Webseiten durchaus als Newsportale multimodal | 1447 | sich auch imageorientierte Webseiten durchaus als Newsportale multimodal |
1449 | aber laut Impressum ausdrücklich als News-Webseite, die Neuigkeiten aus dem | 1456 | aber laut Impressum ausdrücklich als News-Webseite, die Neuigkeiten aus dem |
1450 | Bereich der | 1457 | Bereich der Katholischen Kirche berichtet bzw. in den Vordergrund stellt. |
1451 | Dennoch bleibt die Einteilung bezüglich des Webseiten-Typs in diesem Falle | 1458 | Dennoch bleibt die Einteilung bezüglich des Webseiten-Typs in diesem Falle |
1452 | problematisch und das gemeinsame Erscheinen von sowohl ekd.de als auch | 1459 | problematisch, und das gemeinsame Erscheinen von sowohl ekd.de als auch |
1453 | katholisch.de in einem News-orientierten Cluster weist darauf hin, dass beide | 1460 | katholisch.de in einem News-orientierten Cluster weist darauf hin, dass beide |
1457 | Ergebnis des Clusterings zu werten ist). | 1464 | Ergebnis des Clusterings zu werten ist). |
1458 | [60]Die Webseite nytimes.com fällt aufgrund eines zentral eingebundenen, wenn auch | 1465 | |
1466 | [59]Die Webseite nytimes.com fällt aufgrund eines zentral eingebundenen, wenn auch | ||
1459 | relativ klein ausfallenden Videos aus diesem Cluster heraus (und bildet mit | 1467 | relativ klein ausfallenden Videos aus diesem Cluster heraus (und bildet mit |
1461 | Cluster). | 1469 | Cluster). |
1462 | [61]Besonders hervorzuheben ist außerdem das Cluster 3, das mit der Seite | 1470 | |
1471 | [60]Besonders hervorzuheben ist außerdem das Cluster 3, das mit der Seite | ||
1463 | marginalien.hypothesis.org und ditib.de zwei Webseiten enthält, die | 1472 | marginalien.hypothesis.org und ditib.de zwei Webseiten enthält, die |
1464 | gewissermaßen Außenseiter innerhalb des Webseiten-Samples darstellen.[ | 1473 | gewissermaßen Außenseiter innerhalb des Webseiten-Samples darstellen.[40] Die Webseite marginalien.hypothesis.org |
1465 | repräsentiert einen klassischen Blog, der nur wenige Bilder, dafür aber relativ | 1474 | repräsentiert einen klassischen Blog, der nur wenige Bilder, dafür aber relativ |
1466 | viel Text enthält und sich entsprechend von sowohl den imageorientierten | 1475 | viel Text enthält, und sich entsprechend von sowohl den imageorientierten |
1467 | Webseiten in Cluster 1 und den News-Webseiten in Cluster 2 absetzt. Die Seite | 1476 | Webseiten in Cluster 1 und den News-Webseiten in Cluster 2 absetzt. Die Seite |
1474 | 1483 | ||
1475 | [ | 1484 | [61]Dieser Artikel hat es sich zur Aufgabe gemacht, ein (teil-)automatisiertes |
1476 | Verfahren zur Analyse des multimodalen Arrangements von Webseiten vorzustellen, | 1485 | Verfahren zur Analyse des multimodalen Arrangements von Webseiten vorzustellen, |
1477 | anzuwenden und kritisch zu diskutieren. Im Fokus stand dabei die erste | 1486 | anzuwenden und kritisch zu diskutieren. Im Fokus stand dabei die erste |
1478 | Wahrnehmungsebene der multimodalen Grundstruktur der Webseiten, die während des | 1487 | Wahrnehmungsebene der multimodalen Struktur der Webseiten, die während des |
1479 | initialen Aufrufs der Webseiten eine zentrale Rolle spielt. Dabei war die Analyse | 1488 | initialen Aufrufs der Webseiten eine zentrale Rolle spielt (erste |
1480 | der Video-, | 1489 | Wahrnehmungsebene der Sehfläche). Im Zentrum stand dabei die Analyse der Video-, |
1481 | Bild-, Hyperlink- und Textelemente der Webseiten von hervorgehobener Bedeutung und | 1490 | Bild-, Hyperlink- und Textelemente der Webseiten, die anhand eines in Python |
1482 | wurde anhand eines in Python | 1491 | geschriebenen Programms gesammelt, verarbeitet und schließlich mit Hilfe eines |
1483 | geschriebenen Programms unter Anwendung eines k-Means-Clustering realisiert. | 1492 | k-Means-Clustering analysiert wurden. |
1484 | [63]Die Analyse in Kapitel 4 hat gezeigt, dass | 1493 | |
1494 | [62]Die Analyse in Kapitel 4 hat gezeigt, dass | ||
1485 | unterschiedliche Selektionen von Features zu unterschiedlichen Clusterbildungen | 1495 | unterschiedliche Selektionen von Features zu unterschiedlichen Clusterbildungen |
1495 | ermöglichen, die durch das hier aufgezeigte quantitative Verfahren keineswegs | 1505 | ermöglichen, die durch das hier aufgezeigte quantitative Verfahren keineswegs |
1496 | ersetzt, sondern lediglich ergänzt und vereinfacht werden soll (siehe Kapitel 2). | 1506 | ersetzt, sondern lediglich ergänzt und vereinfacht werden soll. |
1497 | [64]Neben der Vorstellung dieses (teil-)automatisierten Verfahrens hat es sich dieser | 1507 | |
1508 | [63]Neben der Vorstellung dieses (teil-)automatisierten Verfahrens hat es sich dieser | ||
1498 | Artikel ebenfalls zur Aufgabe gemacht zu fragen, inwieweit die auf Basis der | 1509 | Artikel ebenfalls zur Aufgabe gemacht zu fragen, inwieweit die auf Basis der |
1501 | mit den gefundenen Clustern korrelieren. | 1512 | mit den gefundenen Clustern korrelieren. |
1502 | [65]Insbesondere in Bezug auf die letztgenannten Webseiten-Typen kann nach | 1513 | |
1514 | [64]Insbesondere in Bezug auf die letztgenannten Webseiten-Typen kann nach | ||
1503 | Durchführung der Analyse gesagt werden, dass entsprechende Parallelen erkennbar | 1515 | Durchführung der Analyse gesagt werden, dass entsprechende Parallelen erkennbar |
1511 | Webseiten (ekd.de) die multimodale Form einer News-Webseite annehmen können. | 1523 | Webseiten (ekd.de) die multimodale Form einer News-Webseite annehmen können. |
1512 | [66]Keine Korrelation wurde hingegen zwischen den Clustern der multimodalen Analyse | 1524 | |
1525 | [65]Keine Korrelation wurde hingegen zwischen den Clustern der multimodalen Analyse | ||
1513 | und den gesellschaftlichen Domänen ersichtlich, aus denen die jeweiligen Webseiten | 1526 | und den gesellschaftlichen Domänen ersichtlich, aus denen die jeweiligen Webseiten |
1531 | treten kann. | 1544 | treten kann. |
1532 | [67]Einschränkend für die Resultate dieses Artikels muss hervorgehoben werden, dass zentrale | 1545 | |
1533 | Aspekte der multimodalen Analyse in der hier vorgestellten Methode aus technischen | ||
1534 | Gründen nicht umgesetzt werden konnten (siehe dazu beispielhaft die Reduktion der | ||
1535 | Analyse der Bildelemente auf deren Größe und Anzahl, die wichtige Aspekte wie Bildachsen, | ||
1536 | Farben und den gesamten inhaltlichen Bereich ausklammert). Dies weist zum einen auf | ||
1537 | die Notwendigkeit komplementärer qualitativer Auswertungen im Sinne eines mixed-methods | ||
1538 | approach hin[50], zeigt aber auch das Potential für künftige Ausweitungen der hier vorgestellten Methode, | ||
1539 | die es sich zum Ziel machen könnten, zusätzliche Features (beispielsweise der Farbe) | ||
1540 | automatisiert mit einzubeziehen. | ||
1541 | 1546 | ||
1548 | [1] | 1553 | [1] |
1549 | Lyons 2016, S. 268f.; | 1554 | |
1550 | Stöckl 2016, S. 4f.; Wildfeuer et al. 2019 S. 23f.. In Bezug auf modes vgl. Kress 2017; Bateman et al. 2017, S. 16.. | 1555 | Lyons 2016, 268f.; |
1556 | Stöckl 2016, S. 4f. In Bezug auf modes vgl. Kress 2017. | ||
1557 | |||
1551 | 1558 | ||
1552 | [2] | 1559 | [2] |
1560 | |||
1553 | Vgl. Stöckl 2011; | 1561 | Vgl. Stöckl 2011; |
1555 | Jewitt (Hg.) 2017. Für Webseiten vgl. | 1563 | Jewitt (Hg.) 2017. Für Webseiten vgl. |
1556 | Meier 2016; Djonov / Know 2014; Freudenberg / | 1564 | Meier 2016; Freudenberg / |
1557 | Sharbat Dar 2021. | 1565 | Sharbat Dar [im Erscheinen]. |
1566 | |||
1558 | 1567 | ||
1559 | [3] | 1568 | [3] |
1569 | |||
1560 | Vgl. die komplexe Terminologie einer | 1570 | Vgl. die komplexe Terminologie einer |
1563 | 1573 | ||
1574 | |||
1564 | [4] | 1575 | [4] |
1565 | Meer / Pick 2019, S. 60 (mit Bezug auf Ulrich Schmitz’ Theorie zu »Sehflächen«). | 1576 | |
1577 | Vgl. Meier 2016, S. 429f. | ||
1578 | |||
1566 | 1579 | ||
1567 | [5] | 1580 | [5] |
1568 | Vgl. Meier 2016, S. 429f. | 1581 | |
1582 | O'Halloran et | ||
1583 | al. 2017. | ||
1584 | |||
1569 | 1585 | ||
1570 | [6] | 1586 | [6] |
1571 | Vgl. auch die Schwierigkeiten bei der automatisierten Analyse des Text-Bild-Verhältnisses | 1587 | |
1572 | in Pflaeging et al. 2021, S. 111f. | 1588 | |
1573 | 1589 | Vgl. O'Halloran et al. 2017; | |
1574 | [7] | ||
1575 | |||
1576 | Vgl. O’Halloran et al. 2017; | ||
1577 | Wignell et al. 2021; | 1590 | Wignell et al. 2021; |
1580 | 1593 | ||
1594 | |||
1595 | [7] | ||
1596 | |||
1597 | Multimodal Analysis Lab (Hg.) 2013. | ||
1598 | |||
1599 | |||
1581 | [8] | 1600 | [8] |
1582 | Multimodal Analysis Lab (Hg.) 2013. | 1601 | |
1602 | Siehe die Beispiele in Jewitt (Hg.) 2017. | ||
1603 | |||
1583 | 1604 | ||
1584 | [9] | 1605 | [9] |
1585 | Vgl. u. a. Meier 2016; Djonov / Knox 2014; Bateman et al. 2021, S. 346ff. | 1606 | |
1607 | Meier 2016, S. 429f. | ||
1608 | |||
1586 | 1609 | ||
1587 | [10] | 1610 | [10] |
1588 | Vgl. Djonov / Knox 2014; Freudenberg / Sharbat Dar 2021. | 1611 | |
1589 | |||
1590 | [11] | ||
1591 | Für die allgemeine Debatte zur Frage der Ausweitung multimodaler Analysen von der | ||
1592 | Generalisierung von Fallbeispielen hin zu (automatisierten) Korpusanalysen vgl. u. | ||
1593 | a. Thomas 2019; Jewitt 2017; Bateman et al. 2017, S. 152ff. | ||
1594 | |||
1595 | [12] | ||
1596 | Thomas 2019, S. 72. Vgl. auch Thomas 2019, S. 73ff. | ||
1597 | |||
1598 | [13] | ||
1599 | Siehe die Beispiele in Jewitt (Hg.) 2017. | ||
1600 | |||
1601 | [14] | ||
1602 | Meier 2016, S. 429f. | ||
1603 | |||
1604 | [15] | ||
1605 | Eine solche Vorannotation scheint auf den | 1612 | Eine solche Vorannotation scheint auf den |
1613 | 1620 | ||
1614 | [16] | 1621 | |
1622 | [11] | ||
1623 | |||
1615 | Jurczyk 2021a. | 1624 | Jurczyk 2021a. |
1616 | 1625 | ||
1617 | [17] | 1626 | |
1627 | [12] | ||
1628 | |||
1618 | 1629 | ||
1621 | 1632 | ||
1622 | [18] | 1633 | |
1634 | [13] | ||
1635 | |||
1623 | Vgl. Meer / | 1636 | Vgl. Meer / |
1624 | Pick 2019, S. 59f.; Schmitz 2011. | 1637 | Pick 2019, S. 59f. |
1625 | 1638 | ||
1626 | [19] | 1639 | |
1627 | Vgl. Djonov / Knox 2014. | 1640 | [14] |
1628 | 1641 | ||
1629 | [20] | ||
1630 | Wie bereits | 1642 | Wie bereits |
1631 | angemerkt, erfolgt die Auswertung unabhängig von den Domänen und Typen. | 1643 | angemerkt, erfolgt die Auswertung unabhängig von den Domänen und Typen. |
1632 | Diese können also in einer anderen Implementierung weggelassen | 1644 | Diese können also in einer anderen Implementierung durchaus weggelassen |
1633 | werden, ohne dass das eigentliche Verfahren davon beeinflusst würde. Sie | 1645 | werden, ohne dass das eigentliche Verfahren davon beeinflusst würde. Sie |
1637 | 1649 | ||
1638 | [21] | 1650 | |
1651 | [15] | ||
1652 | |||
1639 | Die | 1653 | Die |
1644 | Sichtung des Materials induktiv generiert. Diese können bei Erweiterung des | 1658 | Sichtung des Materials induktiv generiert. Diese können bei Erweiterung des |
1645 | Datensatzes ebenfalls erweitert werden, beispielsweise durch Kunst (ART) oder einer allgemeineren Kategorie Bildung (EDU). | 1659 | Datensatzes natürlich ebenfalls erweitert werden, beispielsweise durch Kunst (ART) oder einer allgemeineren Kategorie Bildung (EDU). |
1646 | 1660 | ||
1647 | [22] | 1661 | |
1662 | [16] | ||
1663 | |||
1648 | Vgl. Meier 2016, S. | 1664 | Vgl. Meier 2016, S. |
1650 | 1666 | ||
1651 | [23] | 1667 | |
1652 | Meier 2016, S. 429. | 1668 | [17] |
1653 | 1669 | ||
1654 | [24] | ||
1655 | Meier 2016, S. 429; für die anderen Webseiten-Typen, vgl. Meier 2016, S. 430f. | ||
1656 | |||
1657 | [25] | ||
1658 | So zeichnen sich laut Meier newsorientierte Webseiten durch Kachel-Strukturen, Teasertexte | ||
1659 | mit Bildern usw. aus, vgl. Meier 2016, S. 429. | ||
1660 | |||
1661 | [26] | ||
1662 | Bei Selenium handelt es sich hier um ein Framework, das | 1670 | Bei Selenium handelt es sich hier um ein Framework, das |
1665 | 1673 | ||
1666 | [27] | 1674 | |
1675 | [18] | ||
1676 | |||
1667 | Im Falle der hier vorgestellten | 1677 | Im Falle der hier vorgestellten |
1669 | 1679 | ||
1670 | [28] | 1680 | |
1681 | [19] | ||
1682 | |||
1671 | Dies ist notwendig, falls gewisse | 1683 | Dies ist notwendig, falls gewisse |
1674 | 1686 | ||
1675 | [29] | 1687 | |
1688 | [20] | ||
1689 | |||
1676 | 1690 | ||
1679 | 1693 | ||
1680 | [30] | 1694 | |
1695 | [21] | ||
1696 | |||
1681 | SVG-Dateien | 1697 | SVG-Dateien |
1686 | 1702 | ||
1687 | [31] | 1703 | |
1704 | [22] | ||
1705 | |||
1688 | Groß: Größer als 700px (Höhe oder Breite). Mittel: | 1706 | Groß: Größer als 700px (Höhe oder Breite). Mittel: |
1691 | 1709 | ||
1692 | [32] | 1710 | |
1711 | [23] | ||
1712 | |||
1693 | Hier wurden nur die auf der Seite | 1713 | Hier wurden nur die auf der Seite |
1698 | 1718 | ||
1699 | [33] | 1719 | |
1720 | [24] | ||
1721 | |||
1700 | Groß: Größer | 1722 | Groß: Größer |
1703 | 1725 | ||
1704 | [34] | 1726 | |
1727 | [25] | ||
1728 | |||
1705 | 1729 | ||
1713 | 1737 | ||
1714 | [35] | 1738 | |
1715 | Unter einem Feature versteht man im Kontext des maschinellen Lernens gemeinhin eine | 1739 | [26] |
1716 | Kombination aus den Eigenschaften oder Attributen, die für bestimmte Phänomene erhoben | 1740 | |
1717 | werden (hier also Anzahl der Bilder, Textlänge, Anzahl Videos etc.), und deren konkrete | 1741 | Unter Features versteht man im Kontext des maschinellen |
1718 | Werte (also zum Beispiel 10 Bilder, 2.540 Wörter, 2 Videos etc.). Die Begrifflichkeiten | 1742 | Lernens die Eigenschaften oder Attribute, die für bestimmte Phänomene erhoben |
1719 | werden allerdings nicht immer einheitlich verwendet. Vgl. Géron 2019, S. 8. | 1743 | werden (hier also Anzahl der Bilder, Textlänge, Anzahl Videos etc.), und deren |
1720 | 1744 | konkrete Werte (also zum Beispiel 10 Bilder, 2.540 Wörter, 2 Videos etc.) in | |
1721 | [36] | 1745 | der Analyse genutzt werden. Die Begrifflichkeiten werden allerdings nicht immer |
1746 | einheitlich verwendet. Vgl. Géron 2019, S. 8. | ||
1747 | |||
1748 | |||
1749 | [27] | ||
1750 | |||
1722 | Ein weiteres Beispiel, in | 1751 | Ein weiteres Beispiel, in |
1723 | dem k-Means-Clustering für die Analyse von Multimodalität verwendet wurde, | 1752 | dem k-Means-Clustering für die Analyse von Multimodalität verwendet wurde, |
1724 | findet sich in O | 1753 | findet sich in O'Halloran et al. 2017. Zur Funktionsweise von |
1725 | k-Means-Clustering vgl. u. a. Géron 2019 und mein Clustering Tutorial | 1754 | k-Means-Clustering vgl. u. a. Géron 2019 und mein Clustering Tutorial |
1728 | 1757 | ||
1729 | [37] | 1758 | |
1759 | [28] | ||
1760 | |||
1730 | Für die Details der | 1761 | Für die Details der |
1733 | 1764 | ||
1734 | [38] | 1765 | |
1766 | [29] | ||
1767 | |||
1735 | Beispielsweise kann es passieren, dass | 1768 | Beispielsweise kann es passieren, dass |
1741 | 1774 | ||
1742 | [39] | 1775 | |
1776 | [30] | ||
1777 | |||
1743 | Genauere Erläuterungen zu dieser Methode | 1778 | Genauere Erläuterungen zu dieser Methode |
1757 | 1792 | ||
1758 | [40] | 1793 | |
1794 | [31] | ||
1795 | |||
1759 | Wobei die Einbindung von Videoelementen nur | 1796 | Wobei die Einbindung von Videoelementen nur |
1761 | 1798 | ||
1762 | [41] | 1799 | |
1800 | [32] | ||
1801 | |||
1763 | Die im | 1802 | Die im |
1768 | 1807 | ||
1769 | [42] | 1808 | |
1809 | [33] | ||
1810 | |||
1770 | In die Analyse einbezogen werden die folgenden Features: | 1811 | In die Analyse einbezogen werden die folgenden Features: |
1775 | 1816 | ||
1776 | [43] | 1817 | |
1818 | [34] | ||
1819 | |||
1777 | In die Analyse | 1820 | In die Analyse |
1782 | 1825 | ||
1783 | [44] | 1826 | |
1827 | [35] | ||
1828 | |||
1784 | Dies liegt | 1829 | Dies liegt |
1785 | allerdings bei heise.de nur daran, dass viele der Bilder nur ganz knapp an | 1830 | allerdings bei heise.de nur daran, dass viele der Bilder nur ganz knapp an |
1786 | zusammen mit der Anordnung der News in nur einer Spalte deutlich ›aufgeräumter‹ | ||
1787 | der Grenze für große Bilder (700px) gescheitert sind. | 1831 | der Grenze für große Bilder (700px) gescheitert sind. |
1788 | 1832 | ||
1789 | [45] | 1833 | |
1834 | [36] | ||
1835 | |||
1790 | Die absoluten Werte der Features für das | 1836 | Die absoluten Werte der Features für das |
1794 | 1840 | ||
1795 | [46] | 1841 | |
1842 | [37] | ||
1843 | |||
1796 | 1844 | ||
1803 | 1851 | ||
1804 | [47] | 1852 | |
1853 | [38] | ||
1854 | |||
1805 | Meer / Pick 2019, S. | 1855 | Meer / Pick 2019, S. |
1806 | 65–68; Schmitz 2011. | 1856 | 65–68. |
1807 | 1857 | ||
1808 | [48] | 1858 | |
1859 | [39] | ||
1860 | |||
1809 | Die folgende | 1861 | Die folgende |
1821 | 1873 | ||
1822 | [49] | 1874 | |
1875 | [40] | ||
1876 | |||
1823 | Diese beiden Webseiten sind auch in den vorangegangenen | 1877 | Diese beiden Webseiten sind auch in den vorangegangenen |
1826 | 1880 | ||
1827 | [50] | ||
1828 | Vgl. Bateman et al. 2017, S. 140f. | ||
1829 | 1881 | ||
1836 | 1888 | ||
1837 | Emilia Djonov / John Knox: How-to-Analyze Webpages. In: >Interactions, Images and | 1889 | Maren Freudenberg / Dunja Sharbat Dar: Popular Cultural Representations of |
1838 | Texts: A Reader in Multimodality. Hg. von Sigrid Norris / Carmen Daniela Maier. Berlin | ||
1839 | / Boston 2014, S. 171–193.Empirical Multimodality Research: Methods, Evaluations, Implications. Hg. von Jana | ||
1840 | Pflaeging / Janina Wildfeuer / John Bateman. Berlin / Boston 2021. DOI: 10.1515/9783110725001 | ||
1841 | [Nachweis im GVK] Maren Freudenberg / Dunja Sharbat Dar: Popular Cultural Representations of | ||
1842 | Femininity in the International Christian Fellowship: An Analysis of the | 1890 | Femininity in the International Christian Fellowship: An Analysis of the |
1843 | »Ladies Lounge 2021« Webpage. In: Zeitschrift für Religion, Gesellschaft und | 1891 | »Ladies Lounge 2021« Webpage. In: Zeitschrift für Religion, Gesellschaft und |
1844 | Politik 5 (1), S. 271–293. [Nachweis im GVK] Aurélien Géron: Hands-on machine learning with Scikit-Learn, Keras, and | 1892 | Politik. [im Erscheinen] [Nachweis im GVK] |
1893 | Aurélien Géron: Hands-on machine learning with Scikit-Learn, Keras, and | ||
1845 | TensorFlow. Concepts, tools, and techniques to build intelligent systems. | 1894 | TensorFlow. Concepts, tools, and techniques to build intelligent systems. |
1846 | Beijing u. a. 2019. [Nachweis im GVK] Interactions, Images and Texts: A Reader in Multimodality. Hg. von Sigrid Norris / | 1895 | Beijing u. a. 2019. [Nachweis im GVK] |
1847 | Carmen Daniela Maier. Berlin / Boston 2014. [Nachweis im GVK] Multimodal Analysis Lab. Hg. von Interactive & Digital Media Institute | 1896 | Multimodal Analysis Lab. Hg. von Interactive & Digital Media Institute |
1848 | (IDMI). 2013. [online]The Routledge handbook of multimodal analysis. Hg. von Carey Jewitt. 2. | 1897 | (IDMI). 2013. [online] |
1849 | Auflage. London u. a. 2017. (= Routledge handbooks) [Nachweis im GVK] Thomas Jurczyk (2021a): ZfdG Website Scraper. In: GitHub. 22.02.2021. [online] Thomas Jurczyk (2021b): Clustering with Scikit-Learn in Python. In: The | 1898 | The Routledge handbook of multimodal analysis. Hg. von Carey Jewitt. 2. |
1850 | Programming Historian (2021).Gunther Rolf Kress: What is mode? In: The Routledge handbook of multimodal | 1899 | Auflage. London u. a. 2017. (= Routledge handbooks) [Nachweis im GVK] |
1900 | Thomas Jurczyk (2021a): ZfdG Website Scraper. In: GitHub. 22.02.2021. [online] | ||
1901 | Thomas Jurczyk (2021b): Clustering with Scikit-Learn in Python. In: The | ||
1902 | Programming Historian (2021). [im Erscheinen] | ||
1903 | Gunther Rolf Kress: What is mode? In: The Routledge handbook of multimodal | ||
1851 | analysis. Hg. von Carey Jewitt. 2. Auflage. London u. a. 2017, S. 60–76. (= | 1904 | analysis. Hg. von Carey Jewitt. 2. Auflage. London u. a. 2017, S. 60–76. (= |
1852 | Routledge handbooks) [Nachweis im GVK] Agnieszka Lyons: Multimodality. In: Research Methods in Intercultural | 1905 | Routledge handbooks) [Nachweis im GVK] |
1906 | Agnieszka Lyons: Multimodality. In: Research Methods in Intercultural | ||
1853 | Communication. Hg. von Zhu Hua. Wiley-Blackwell, NJ 2016, S. 268–280. | 1907 | Communication. Hg. von Zhu Hua. Wiley-Blackwell, NJ 2016, S. 268–280. |
1854 | Siehe auch [Nachweis im GVK] Dorothee Meer / Ina Pick: Einführung in die Angewandte Linguistik. | 1908 | Siehe auch [Nachweis im GVK] |
1855 | Gespräche, Texte, Medienformate analysieren. Stuttgart 2019. [Nachweis im GVK] Stefan Meier: Websites als multimodale digitale Texte. In: Handbuch Sprache | 1909 | Dorothee Meer / Ina Pick: Einführung in die Angewandte Linguistik. |
1910 | Gespräche, Texte, Medienformate analysieren. Stuttgart 2019. [Nachweis im GVK] | ||
1911 | Stefan Meier: Websites als multimodale digitale Texte. In: Handbuch Sprache | ||
1856 | im multimodalen Kontext. Hg. von Hartmut Stöckl / Nina-Maria Klug. Berlin u. a. | 1912 | im multimodalen Kontext. Hg. von Hartmut Stöckl / Nina-Maria Klug. Berlin u. a. |
1857 | 2016, S. 410–436. (= Handbücher Sprachwissen, 7) [Nachweis im GVK] | 1913 | 2016, S. 410–436. (= Handbücher Sprachwissen, 7) [Nachweis im GVK] |
1858 | | 1914 | Kay O’Halloran / Sabine Tan / Peter Wignell / Rui Wang / Kevin Chai / |
1859 | Rebecca Lange: Towards a Discipline of Multimodality: Parallels to Mathematics | 1915 | Rebecca Lange: Towards a Discipline of Multimodality: Parallels to Mathematics |
1861 | and the Challenge of Diversity. Hg. von Janina Wildfeuer. 1. Auflage. Boston MA | 1917 | and the Challenge of Diversity. Hg. von Janina Wildfeuer. 1. Auflage. Boston MA |
1862 | 2020, S. 93–112. [Nachweis im GVK] Kay L. O’Halloran / Marissa K. L. E / Sabine Tan: Multimodal analytics. | 1918 | 2020, S. 93–112. [Nachweis im GVK] |
1919 | Kay L. O'Halloran / Marissa K. L. E / Sabine Tan: Multimodal analytics. | ||
1863 | Software and visualization techniques for analyzing and interpreting multimodal | 1920 | Software and visualization techniques for analyzing and interpreting multimodal |
1865 | 2. Auflage. London u. a. 2017, S. 386–396. (= Routledge handbooks) | 1922 | 2. Auflage. London u. a. 2017, S. 386–396. (= Routledge handbooks) |
1866 | [Nachweis im GVK] | 1923 | [Nachweis im GVK] |
1867 | | 1924 | SeleniumHQ Browser Automation. In: selenium.dev. Hg. von Software Freedom Conservancy. |
1868 | | 1925 | 2004-2021. [online] |
1869 | | 1926 | Sklearn.preprocessing. StandardScaler. In: scikit learn.org. Hg. von scikit-learn |
1870 | | 1927 | developers. 2007-2021. [online] |
1871 | | 1928 | Hartmut Stöckl: Sprache-Bild-Texte lesen. Bausteine zur Methodik einer |
1872 | Grundkompetenz. In: Bildlinguistik. Theorien - Methoden - Fallbeispiele. Hg. | 1929 | Grundkompetenz. In: Bildlinguistik. Theorien - Methoden - Fallbeispiele. Hg. |
1873 | von Hans-Joachim Diekmannshenke / Michael Klemm / Hartmut Stöckl. Berlin 2011, | 1930 | von Hans-Joachim Diekmannshenke / Michael Klemm / Hartmut Stöckl. Berlin 2011, |
1874 | S. 45–70. (= Philologische Studien und Quellen, 228) [Nachweis im GVK] Hartmut Stöckl: Multimodalität. Semiotische und textlinguistische | 1931 | S. 45–70. (= Philologische Studien und Quellen, 228) [Nachweis im GVK] |
1932 | Hartmut Stöckl: Multimodalität. Semiotische und textlinguistische | ||
1875 | Grundlagen. In: Handbuch Sprache im multimodalen Kontext. Hg. von Hartmut | 1933 | Grundlagen. In: Handbuch Sprache im multimodalen Kontext. Hg. von Hartmut |
1876 | Stöckl / Nina-Maria Klug. Berlin u. a. 2016, S. 3–35. (= Handbücher | 1934 | Stöckl / Nina-Maria Klug. Berlin u. a. 2016, S. 3–35. (= Handbücher |
1877 | Sprachwissen, 7) [Nachweis im GVK] Martin Thomas: Making a Virtue of Material Values: Tactical and Strategic Benefits | 1935 | Sprachwissen, 7) [Nachweis im GVK] |
1878 | for Scaling Multimodal Analysis. In: Multimodality: Disciplinary Thoughts and the | 1936 | Peter Wignell / Kevin Chai / Sabine Tan / Kay O’Halloran / Rebecca Lange: |
1879 | Challenge of Diversity. Hg. von Janina Wildfeuer / Jana Pflaeging / John Bateman / | ||
1880 | Ognyan Seizov / Chiao-I Tseng. Berlin / Boston 2019, S. 69–92.Peter Wignell / Kevin Chai / Sabine Tan / Kay O’Halloran / Rebecca Lange: | ||
1881 | Natural Language Understanding and Multimodal Discourse Analysis for | 1937 | Natural Language Understanding and Multimodal Discourse Analysis for |
1888 | 1944 | ||
1945 | |||
1889 | Abbildungslegenden und -nachweise | 1946 | Abbildungslegenden und -nachweise |
1898 | charakterisiert, da es sich der eigenen Ausrichtung nach um eine (katholische) | 1955 | charakterisiert, da es sich der eigenen Ausrichtung nach um eine (katholische) |
1899 | Nachrichtenseite handelt. Siehe für diese | 1956 | Nachrichtenseite handelt. [Jurczyk 2021] |
1900 | problematische Einteilung auch das Kapitel 4.2.4). [Jurczyk 2021] | ||
1901 | 1957 |