Der Heuhaufen Twitter – Soziale Netzwerkanalyse mit Big Data

Twitter ist ein Mikroblogging-Dienst und selbsterklärtes information network mit mehr als 270 Millionen Usern. Diese können kurze Statements (Tweets) in einer Länge von bis zu 140 Zeichen veröffentlichen. Mittels eines Hashtags (#) kann man Tweets einem bestimmten Thema zuordnen. User können anderen Usern folgen, um deren Tweets im eigenen Newsfeed angezeigt zu bekommen. Ein interessanter Tweet kann dann wiederum mit den eigenen Followern geteilt werden – ein sogenannter Retweet.

Soziale Netzwerkanalyse ermöglicht eine Analyse dieser Daten, etwa die aktuelle Online-Diskussion zu einem bestimmten Thema. Auf Twitter entspricht das den Usern, die sich in ihren Tweets dazu äußern, einander erwähnen und den Content anderer weiterverbreiten. Genau diese Struktur lässt sich mit einfachen Mitteln analysieren und visuell leicht verständlich darstellen. Wer welche Inhalte auf Twitter veröffentlicht, wer mit wem interagiert und wem folgt – all das ist offen zugänglich, über die Web-Oberfläche selbst oder für große Datenmengen über eine Schnittstelle (API). Die Schwierigkeit besteht nicht darin, an Daten zu kommen, sondern die Daten in Relation zu setzen und sie interpretieren und verstehen zu können. Die Inhalte der einzelnen Tweets auszuwerten ist dabei schon aufgrund der Datenmenge nur bedingt möglich. Allerdings zeigen auch die Metadaten des Netzwerks, also die User und wie sie miteinander interagieren, ein interessantes Bild.

Nodes & Edges

Analysiert man eine Diskussion auf Twitter, so erhält man ein Netz aus Knotenpunkten (Nodes), die durch Linien (Edges) miteinander verbunden sind. Erwähne ich @ArminWolf in meinem Tweet, erzeuge ich damit eine direktionale Linie von meinem Account zu seinem. Klickt er auf Retweet, bildet er eine Verbindung von sich zu mir. Wenn ich ihm folge, bilde ich eine Linie zurück zu ihm. Die Frage dabei ist, welche Daten in die Analyse einbezogen werden. Viele Daten von sozialen Netzwerken, etwa Follower-Beziehungen auf Twitter, sind zwar öffentlich, aber auch hier würde die Datenmenge die Kapazitäten eines API-Zugangs schnell übersteigen. Eine mögliche Analyse wäre etwa, wie sich User gegenseitig bei bestimmten Themen und Stichworten erwähnen und wechselseitig eigenen und fremden Content verbreiten.

Indegree, Outdegree & Eigenvektor

In der Berechnung eines Netzwerks stellt sich zunächst die Frage der Zentralität – Auf Basis welcher Daten wird ein User zu einem wichtigen Akteur im Netzwerk? Indegree verrät die Anzahl der Linien, welche an bestimmten Knoten, also Usern, enden. Im Fall einer Twitter-Analyse wäre ersichtlich, über wen am meisten kommuniziert wird, selbst wenn dieser User sich nie selbst zum Thema geäußert hat. Im Gegensatz dazu zeigt Outdegree die von diesem User ausgehenden Linien, also jene User, welche sich aktiv zum Thema äußern. Eine Weiterentwicklung der Degree-Betrachtung ist der sogenannte Eigenvektor. Dabei werden Verbindungen zu anderen Knoten im Netzwerk nicht nur gezählt, sondern entsprechend ihrer Degrees höher oder niedriger gewichtet. Ein einfaches Beispiel ist ein neuer Mitarbeiter in einem Büro. Für diesen ist es nicht nur wichtig, möglichst viele Kollegen kennenzulernen, sondern vor allem solche, die selbst viele andere Kollegen kennen. Eigenvektor ist also ein guter Indikator für den Einfluss von Usern [Q1, Q2]. Zur besseren Visualisierung können Algorithmen dann die Linien zwischen den Usern verkürzen, also jene aneinander rücken, welche intensiver kommunizieren. Wichtig dabei ist, dass die Nähe oder Distanz zu anderen Punkten Aussagekraft hat. Diese Anordnung darf aber nicht mit einem kartesischen Koordinatensystem verwechselt werden. Schließlich geht es nicht um eine räumliche Anordnung der Diskussionsteilnehmer, sondern um die Visualisierung von miteinander diskutierenden Akteuren und Gruppierungen.

#teaparty

Eine Netzwerkanalyse von sozialen Medien kann uns also zum Beispiel In- und Outdegrees der Akteure im Netzwerk und damit die Personen von Interesse zeigen. So viel zur Theorie, doch dazu ein erstes Beispiel: Amerikas Rechtsaußen-Bewegung, die Tea Party, wer das Zentrum ihres Interesses ist und von wem dieses Interesse eigentlich ausgeht. In beiden Fällen ist es zum Analysezeitpunkt (14. April 2015) eine kleine Anzahl von Hauptakteuren. Content zu #teaparty wird etwa von einem selbsternannten „NRA-Patrioten und Ford Excursion V10 Daily Driver“, einem Host der „Ascend Conservatism Show“, einem „stolzen Abtreibungsgegner“ und einem Veteran der Merrill Lynch Bank und 82nd Airborne Division verbreitet. Gesprochen wird dabei mit oder über Waffenfreunde und Hillary-Clinton-Gegner, Hillary Clinton selbst, einem ihrer Konkurrenten, und Politikerwitze. Die Auswertung zeigt damit ein überblicksartiges und dabei, zugegeben, klischeebehaftetes Bild einer Bewegung, welches nun mit weiterführenden Analysen verfeinert werden könnte.

#fluechtlinge

Von der Tea Party zurück nach Europa, das medial momentan vom Flüchtlingsthema dominiert ist. Von Aufnahmequoten bis Zeltlagern ist die Thematik auch in sozialen Medien präsent und heftig diskutiert – bestens geeignet also für eine Analyse der Meinungsbildner und Stimmungsmacher. Wenig überraschend sind Medien à la Zeit, Spiegel, Welt und Tagesschau als Quellen tagesaktueller Nachrichten die Ausgangs- und Knotenpunkte der Diskussion. Während politische Parteien zwar in großer Zahl vertreten sind (alleine 29 Accounts der Grünen in Österreich und Deutschland nahmen im Analysezeitraum an der Diskussion teil), sind es dennoch die klassischen Medien, welche das Diskussionsnetz dominieren.

Interessant ist auch die Entfernung und Verbindung zwischen verschiedenen Usern. Diese Anordnung wird im obigen Beispiel durch den Force-Atlas-2-Algorithmus bestimmt. Wie aufgeladene Partikel stoßen User (Nodes) im Netz einander ab, während die Verbindungslinien (Vertices) sie wieder aneinander ziehen. Mit einiger Berechnungszeit ergibt sich damit ein Gesamtbild, in dem die Position eines Punktes zwar bedeutungslos ist, die Nähe von Punkten zueinander aber sehr wohl interpretiert werden kann [Q3]. Im konkreten Beispiel zeigt dies etwa links unten eine eigene, in sich geschlossene Diskussion zum Thema Christenverfolgung im Irak und in Syrien. Diese scheint (zumindest auf Twitter) weitgehend abseits der Massenmedien stattzufinden.

Ein Aufruf zur Nachahmung

Das Sammeln und Auswerten von Daten für Analysen wie diese ist auch ohne Programmierkenntnisse und den Einsatz teurer Software möglich. Fertige Plugins und Skripte ermöglichen das einfache Sammeln von Daten, die dann wiederum mit Open-Source-Programmen analysiert werden können. Die Daten für diesen Artikel wurden beispielsweise mit NODEXL importiert und mit dem Netzwerk-Visualisierungstool GePhi analysiert und veranschaulicht. Auswertungen wie diese sind ein Startpunkt für Netzwerkanalysen sozialer Medien, die uns über eine große Vielfalt sozialer Phänomene Aufschluss geben können. Es zeigt sich, dass in einem Daten-Heuhaufen wie Twitter schon die bloßen Verbindungsdaten viel über die Struktur und Akteure von Diskussionen preisgeben – und wie einfach diese gesammelt und ausgewertet werden können. Daher kann es in der Analyse von Netzwerken mitunter interessanter sein, den Heuhaufen zu verstehen als die Nadel zu suchen. In diesem Sinne: Viel Spaß mit Big Data!

Quellen
[Q1] Kumar, S., Morstatter, F., & Liu, H. (2014). Twitter data analytics. Springer.
[Q2] Prell, C. (2012). Social network analysis: History, theory and methodology. Sage.
[Q3] Jacomy, M., Venturini, T., Heymann, S., & Bastian, M. (2014). ForceAtlas2, a continuous graph layout algorithm for handy network visualization designed for the Gephi software. PloS one, 9(6).

Software-Empfehlung
NODEXKL (kostenloses Template zum einfachen Import von Daten in Microsoft Excel): http://nodexl.codeplex.com
GePhi (Open-Source-Programm zur Analyse und Visualisierung): http://gephi.github.io

What do you meme? Lisa Jank

Dark Net Melanie Köhler

Zensur – (k)eine Lösung? Clara Puller

Join the conversation Cancel