Project X Haren: een (digitale) analyse

In dit tweede deel van het drieluik de analyse van de digitale kant van Project X.
TNO deed kort na Project X Haren een klein onderzoek naar de impact van social media op de openbare orde. Hieronder volgt een deel van die analyse met daarin de invloed van de traditionele media, de autoriteiten en alle betrokkenen, zoals die waarneembaar was op social media. Ben je niet bekend met het verloop van het incident, dan kun je het eerste deel ‘de reconstructie‘ lezen. Wil je meteen naar de aanbevelingen, dan kun je naar het derde deel ‘de (digitale) handreiking‘?klikken.

Eerder al zijn analyses online gezet van?tweetonderzoek.nl?op basis van de ‘ Hackathon’ olv?Thomas Boeschoten?(die daarna heeft plaatsgenomen in de commisie Cohen). Op die dag bundelden onderzoekers en studenten van o.a. Universiteit Utrecht en?Amsterdam, datajournalisten en andere ge?nteresseerden de krachten om 500.000 tweets over ProjectX Haren te onderzoeken, te analyseren en te visualiseren. Ook?Harro Ranter?deed daaraan mee en hij heeft zijn verzamelde Twitterdataset beschikbaar gesteld en op?Twetrics?enkele impressies geplaatst.?Ritzo ten Cate?analyseerde?eerst kwalitatief?de Facebook data en besloot later?de gevangen dataset?van Clockwork (Rienk Prinsen) te ontsluiten voor nadere analyse, terwijl?Oane Hettema?en?Gideon de Kok?al eerder?15.000 Facebookposts op een?rijtje?zetten.?Martijn Kriens?van Upstream plaatste beknopte analyses in een?artikel?en?presentatie, gebruikmakend van?Coosto. Peter Vasterman plaatste een stuk over?Sociale onrust en sociale media?in?Magazine Nationale Veiligheid en crisisbeheersing?(pag #12) en Ina Strating?maakte een?Storify?met een interessante selectie tweets.?

Onderstaande analyse is slechts een beperkte blik op de vragen die je zou kunnen stellen bij het volledige verloop van Project X Haren. Aanvullende delen op deze analyse zijn te vinden op?de website?van de Universiteit Twente die onder leiding van Jan van Dijk het onderzoek deed in opdracht van Commissie Cohen.

In de week na Project X Haren en andere Project X aankondigingen?hebben we?reeds een presentatie geplaatst?met een beknopte analyse die we in een paar uur tijd maakten:

http://www.slideshare.net/ArnoutdeVries/project-x-impact-of-social-media-on-public-safety

Kort daarna hebben we nog een paar dagen iets dieper gegraven in een miljoen tweets en 60.000 Facebook berichten van de Project X pagina die beschikbaar waren. We hebben ons de volgende vragen gesteld, waarbij we de analyse naar het verloop van Project X Haren in 4 blokken hebben verdeeld:

Blok 1: het ontstaan

Een veel gehoorde opmerking is: ?Dit had je kunnen zien aankomen?. Het moment van de uitnodiging van Merthe was zo’n twee weken voor het incident in Haren en in die tussentijd is er heel wat gebeurd. Maar had je echt op basis van de digitale bronnen kunnen voorspellen dat het zo gewelddadig ging worden?

Deze eerste fase vindt vrijwel uitsluitend op Facebook plaats, waar de kiem zat. Hierbij moet de kanttekening geplaatst worden dat in deze analyse alleen naar de berichten is gekeken die op de publieke Project X Facebook pagina stonden. Besloten communicatie op andere plekken op Facebook, of organiserend vermogen op bijvoorbeeld Whatsapp, is hier buiten beschouwing gelaten.

Vragen in deze eerste fase zijn onder andere: Wie waren er actief na de kaping van het feestje van Merthe toen het werd omgedoopt tot Project X? Wie waren daarbij het meest actief en op welke manier? Was er een kern van organisatoren? Zijn de plunderaars en relschoppers al vroegtijdig actief geweest? Welke dreigingen en risico’s kwamen er in de eerste fase al aan het licht (vroegdetectie van wat Haren te wachten zou staan)? En in welke mate waren media of autoriteiten aanwezig, of in welke mate zijn ze daardoor?be?nvloed?

Blok 2: De ‘viral’ en aanloop naar het Project X feestje

In de tweede fase is de vonk overgeslagen van Facebook naar een grotere groep (middels Facebook, Twitter en traditionele media). Hoe is de sociale?be?nvloeding,?die voor Nederlandse begrippen ongekende vormen aannam, te verklaren??

Vragen in deze fase zijn onder andere: wat was de invloed van?jongeren?in het verspreiden van het promotiemateriaal en vele grappen? Wat was de invloed van de?media? Wat was de invloed van de?autoriteiten?in de aanloop naar het beoogde feestje? En wie werd er eigenlijk?be?nvloed?door wie? Hoe konden dreigingen en risico’s in deze fase onderscheiden worden? Had men wel iets kunnen doen om deze digitale explosie te voorkomen of te stoppen?

Blok 3: de dag waarop het misging (21 september 2012)

De derde fase doet vooral verslag van hoe die bewuste vrijdagmiddag en -avond verlopen zijn. Vanaf het moment dat er nog feesthoedjes werden uitgedeeld en scholieren een kijkje kwamen nemen tot de avond waarin de sfeer omsloeg en het gewelddadig eindigde. In deze fase neemt Twitter het volledig over in de real-time verslaglegging.

Vragen in deze fase zijn: wat waren de onderwerpen die op social media rondgingen (trending topics)? Welke risico’s en dreigingen ontstonden er op die bewuste middag en avond??Wie is er uiteindelijk ook aanwezig geweest of heeft zelfs gevochten met de ME of geplunderd??Welke ooggetuigen zijn te onderkennen en wat hebben die gerapporteerd?

Blok 4: De nafase

De nafase behelst slechts een deel van wat er daarna aan discussie loskwam. De nafase zoals die in deze analyse besproken wordt, gaat vooral over het ’thuiskomen’ van de jeugd en de verhalen die ze daarover nog delen.

Deze fase maakt het mogelijk een kleinere kern te identificeren die tot het einde aanwezig was, waaronder ooggetuigen en ogenschijnlijke relschoppers. Deze groep is gebruikt om vervolgens te kijken wanneer zij actief geworden zijn tav Project X en door wie zij be?nvloed zijn. Naast deze groepen is er een enorme groep mensen geweest het incident van een afstandje volgde (meestal thuis op de bank), maar wel real-time via social media actief waren. Deze tweede groep is niet in de analyse meegenomen, maar onder deze groep zou goed een sentiment analyse gedaan kunnen worden, want velen waren geraakt door de gebeurtenissen. Anderen bleven het ‘cool’ vinden, sommigen vonden het jammer dat ze er niet bij waren en hadden het alweer over het plannen van nieuwe ‘feestjes’.

Blok 1: vroegsignalering

We waren benieuwd naar de activiteit op Twitter van mensen die aanwezig zijn geweest bij Project X Haren, en dan met name?ge?nteresseerd?in hun activiteit daaraan voorafgaand (voor de 21e). Wellicht zijn daar eerste signalen van georganiseerd relschoppen, verhoogd risico en diverse dreigingssoorten in te ontdekken.

Onderstaande heatmap visualisatie laat de activiteit van deze geselecteerde personen door de tijd heen zien. De tijd loopt van links naar rechts, alle personen staan onder elkaar, van boven naar beneden. De tweets zijn geaggregeerd naar tijdsvakken van 1 uur (voor de 1e dataset) en 4 uur (voor de 2e en 3e dataset).

Figuur: alle tweets van personen waarvan waarschijnlijk is dat ze daadwerkelijk aanwezig waren, geplot door de tijd.

Aangezien Twitter vooral een rol had in de korte aanloop naar de 21e, en het begon als een ‘Facebook feestje’, zijn we ook benieuwd hoe deze gebruikers actief waren op Facebook. Daartoe hebben we met een eenvoudige methode de Facebook gebruikers en Twitteraars gekoppeld. Middels een exacte ‘naam-match’ in beide datasets (Facebook en Twitter) zit er wel enige onzekerheid, maar vele malen minder dan een willekeurige ‘ naam-match’ ?die op Twitter en Facebook zelf gedaan zou worden.

Onderstaande grafiek toont alle tweets ?n Facebookberichten van personen, waarvan waarschijnlijk is dat ze daadwerkelijk aanwezig waren.

Hoe feller een blokje is gekleurd, des te meer berichten er door de betreffende gebruiker in het betreffende tijdvak zijn gepost.?Opvallend is dat het aandeel Facebook berichten voor de rellen groter is dan daarna: daarna wordt er vooral getweet. De kleur gaat van paars naar blauw, van facebook naar twitter.

Voor de 2e en 3e dataset geldt: hoe paarser een blokje, des te meer facebookposts zijn er gedaan (ten opzichte van tweets). Een blokje dat blauwer is heeft meer tweets ten opzichte van Facebook posts.

Van de ongeveer 200 geselecteerde tweets voor de 21e, zijn er slechts een aantal waarin duidelijk wordt gesuggereerd dat er geweld gebruikt gaat worden. De meeste tweets of Twitteraccounts zijn inmiddels weer verwijderd, enkele accounts zijn op besloten gezet, vandaar dat onderstaande tweet zo wordt weergegeven:

Dit geeft aan dat, als het om vroegsignalering via Twitter gaat, er zeer nauwkeurig gezocht dient te worden. Maar ook dat dit niet onmogelijk is, want de woorden? “affikken” en “slopen” in combinatie met “haren” laten weinig aan de verbeelding over: er is in dit geval geen ‘codetaal’ gebruikt. Yolo is overigens een term die heel veel gebruikt wordt en betekent “You only live once”.?Of dit bericht echter serieus te nemen is, is een andere kwestie (duiding). Op Facebook zijn meer signalen te onderkennen die duiden op de geplande uitspattingen, veelal gebaseerd op de film.?De lading van de film is duidelijk aanwezig, maar duiding ten aanzien van een serieuze dreiging of risico?s hangt van meer af dan alleen de inhoud van een bericht, waarover later meer.

Sommige gebruikers zijn zeer actief in de periode voor de 20^e, ??n?ervan is bijvoorbeeld Bauke Bos. Maar veel zegt dat niet, want zijn/haar berichten zijn vrij onschuldig. Tevens wordt al in vroegtijdig stadium naar de traditionele media verwezen, met berichten als ?radio 2 heeft reclame gemaakt voor de trein van 17:17?. Er zijn veel berichten die aangeven dat men concreet aan het plannen is hoe men in Haren gaat komen, met wie men samen reist en wat men daar wil gaan doen of hoopt aan te treffen.

Blok 2. Hoe is de viral ontstaan en verlopen?

De media

De rol van de media op social media is onderzocht, waarbij we 45.200 tweets hebben opgedeeld naar verschillende categorie?n, in de onderstaand analyse afgebeeld naar volume en tijd. Entertainmentmedia (zoals 3FM) zijn sterk betrokken bij zowel verslaglegging als bij het bepalen van het momentum en zenden ook veel via dezelfde media als waarmee het feestje zelf wordt georganiseerd. Nieuwsmedia als de NOS hebben een groot bereik, ook op social media, terwijl RTV Noord een belangrijke rol had bij de live verslaggeving.

Opiniesite Joop.nl schrijft erover op zondag 16 september, maar zonder de naam van het dorp te noemen. ?Paniek in dorp: Meisje zet verjaardagsparty?opFacebook .??Dat bericht wordt dan nog niet overgenomen door andere media. Dat gebeurt wel als Trouw er op dinsdag 18 september een artikel over publiceert:??Het verjaardagsfeestje van een meisje uit Haren, in Groningen, lijkt gigantisch uit de hand te lopen?. Trouw tilde?het nieuws?naar de traditionele media, Tot dat moment hebben zich op Facebook een kleine vijfduizend jongeren aangemeld voor Project X.

Het bericht over de mogelijke noodverordening vormt voor andere media het signaal dat de gemeente het feestje kennelijk serieus neemt. Dus wordt het nieuws vervolgens overgenomen door het ANP en door allerlei nieuwswebsites als?Nu.nl,?NOS op 3,?Spits,Telegraaf,?AD, en?Editie.nl. In veel artikelen wordt vervolgens geschreven dat Haren al een noodverordening heeft afgekondigd terwijl het alleen maar geopperd is als mogelijkheid, evenals inzet ME. Die stukken verschijnen allemaal in de loop van de middag op dinsdag de 18^e. Vaak bevatten ze links naar de landingspagina op Facebook en naar de diverse?teasers?of ze nemen het promotiemateriaal 1-op-1 over.

Ondernemers??

Hoewel ondernemers ook in enige mate actief waren, ligt het zwaartepunt van hun berichtgeving meer aan het begin dan aan het einde, in vergelijking met bijvoorbeeld de autoriteiten. Omdat zij zo vroeg actief waren, nog eerder dan de media, betekent dit dat ze het eerder aan zagen komen.

De groep die wij als aanwezig hebben gemarkeerd, was in verhouding niet eens bijzonder actief in de tijd voor het feestje en zeker niet in vergelijking met hun activiteit op de avond zelf. Het is niet eenvoudig om met deze informatie de daadwerkelijke grote aanloop te kunnen duiden.

De grafiek toont het aantal media mentions onder alle Twitteraars (met uitzondering van de media en autoriteiten zelf), een groep Twitteraars waarvoor we op basis van de inhoud van hun tweets? hebben afgeleid dat ze in Haren aanwezig waren, en de Facebookgebruikers. Onder media? mention scharen we de mentions van media-accounts, retweets van media-accounts of verwijzingen naar media in de inhoud (namen van omroepen, nieuwssites, verslaggevers, dj?s, etc.).

De grafiek toont de percentages per uur van het aantal specifieke media mentions (voor 3FM, DWDD en NOS). NOS is al vrij vroeg aanwezig, het zwaartepunt van 3fm en DWDD?ligt duidelijk n? het evenement.

Op eerdere grafieken die we produceerden was te zien dat de piek van de NOS duidelijk voor het evenement zit, namelijk op het moment dat er over de noodverordening wordt gecommuniceerd.

De totale media invloed vertoont hetzelfde verloop als het totale verkeer, wat aangeeft dat de media altijd wel een rol heeft in het geheel.

Als we kijken naar de invloed op Facebook gebruiken we een andere visualisatie, omdat Facebook een andere dynamiek kent in de berichtgeving (geen mentions of retweets). Onderstaande word clouds tonen enkele momentopnames van berichten die spreken over de media: hoe groter het woord, hoe meer het genoemd is.

Figuur: Word cloud van de media-gerelateerde?posts van de Facebookgebruikers op dinsdag 18 september van 16:00 tot 18:00 uur, vlak nadat de noodverordening werd afgeroepen.

Figuur: Word cloud van de media-gerelateerde tweets van de groep die later aanwezig was in Haren op basis van al hun tweets de avond voor de rellen (donderdag 20 september), tussen 22:00 en 23:00 uur.

Figuur: Word cloud van de media-gerelateerde tweets van alle Twitteraars (exclusief media en de groep aanwezigen) op basis van al hun tweets de avond voor de rellen (donderdag 20 september), tussen 22:00 en 23:00 uur.

Figuur: Word cloud van de media-gerelateerde tweets van de groep die later aanwezig was in Haren, op basis van al hun tweets de middag van de 21e (15:00-16:00 uur).

Figuur: Word cloud van de media-gerelateerde? posts van de Facebookgebruikers op 21 september van 21:00 tot 22:00 uur, tijdens de escalatie.

De verschillen in de media die door de verschillende groepen worden aangehaald, worden groter naarmate de escalatie dichterbij komt. We zien op de avond voor het feestje dat de groep aanwezigen relatief meer twittert over Shownieuws en de Telegraaf dan de overige twitteraars die vooral naar NU.nl verwijzen. Dit kan erop wijzen dat de groep aanwezigen de media vooraf pro-actiever hebben bijgehouden voor informatie over Project X dan de overige groep. De word clouds laten verder zien dat de Facebookers tijdens de escalatie vooral naar live radio en video streamers linken, en meer naar web-url?s verwijzen. Dit wordt uiteraard veroorzaakt door het feit dat onder de Facebookers relatief meer computergebruikers vallen dan onder de twitteraars.

Invloed van genoemde media op Facebook en Twitter (relatief):

De media invloed op de aanwezigen:

Trend analyse: is het verloop van virals te voorspellen?

Kijkend naar de grafiek van project X zie je een enorme piek op de 21^e, We hebben ons de vraag gesteld: hadden we deze enorme piek aan activiteit vroegtijdig kunnen zien aankomen? Meer specifiek, hadden we dit 24 uur van te voren kunnen zien aankomen?

Aanpak

Het goed en tijdig voorspellen van gebeurtenissen is lastig en speculatief. Het vraagt om een aanpak waarbij een voorspellend model wordt gemaakt of gekozen om zo goed mogelijk de kans op een uitkomst te voorspellen. In veel gevallen wordt een model gekozen dat op basis van detectie uit de input gegevens een kans probeert te berekenen. Hier is dat op basis van Twitter berichten bepalen hoe groot de kans is dat een bepaalde hoeveelheid berichten zal ontstaan op een volgens tijdstip. Onze aanpak valt uiteen in twee delen. Deel 1 is het analyseren van de volledige dataset die wij tot onze beschikking hebben. Deel 2 is het toewerken naar een voorspellend model.

Deel 1

We zijn begonnen met het analyseren van alle beschikbare Twitter data. Dit geeft een beeld van het verloop in volumes van de berichten (Figuur 1). Opvallend is de enorme piek op 21 september rond 22.00 uur (rond t=110) en de kleinere piek daar vlak voor om ongeveer 16.00 uur (t=104).

Figuur 1: Aantal Tweets per uur vanaf maandag 17 september 11.00 uur t/m 26 september om 06.00 uur.

Normaal twittergedrag wordt gekenmerkt door een dagelijks ritme: de heartbeat. Het is normaal dat er om 16.00 meer getwitterd wordt dan eerder op de dag of midden in de nacht. Dit is een dagelijks terugkerend patroon. Dit patroon wordt vaak aangetroffen en lijkt onafhankelijk te zijn van specifieke gebeurtenissen ? in de nasleep van de aardbeving in Japan en de opstand in Libi??zijn soortgelijke ritmes of ?heartbeats??ontdekt. Willen we een goede trendanalyse doen, dan zullen we met dit dagelijks ritme rekening moeten houden. Een trendanalyse is een ontwikkeling van of naar een bepaald event toe, door de tijd heen; toenemend, afnemende activiteit op Twitter op een bepaald onderwerp. Kortom: willen we accurate voorspellingen kunnen doen, zullen we rekening moeten houden met het dagelijkse patroon van Twitteractiviteit.

Normaal gesproken is de trend een min of meer vlakke lijn, d.w.z. er is activiteit, maar het is niet trending. ProjectX is na Haren regelmatig onderwerp van gesprek geweest, maar in veel mindere mate trending geweest. Trending topics zoals Twitter die aanbiedt zijn tellingen op ??n specifiek moment en geven geen indicaties voor de toekomst. Er wordt geteld hoeveel berichten er over een bepaald onderwerp gaan, vervolgens wordt er een ranglijst gemaakt; de meest populaire komen bovenaan de ranglijst. Wij kijken verder kijken en doen een voorspelling van een trending topic door de tijd heen. Daarbij houden we rekening met normale dagelijkse ritme ?en fluctuaties die bij de uren van de dag horen. We onderzoeken of er daadwerkelijk sprake is van een toenemende populariteit van een onderwerp, in dit geval ProjectX Haren op Twitter.

Wat we hebben gedaan is het deconstrueren van alle beschikbare Twitter data rondom Project X Haren. Het decomponeren van een tijdreeks, zoals deze Twitter data, houdt in dat de data uitgesplitst wordt naar drie verschillende delen:

???Trend component

???Seizoen component

???Onregelmatige component

De resultaten daarvan staan in? Figuur 2. De tijdslijn loopt van 17 september 11.00 uur t/m 26 september 06.00 uur.? Grafiek 1 van Figuur 2 toont het Twitterverkeer. Dit is het absolute aantal tweets per uur. Hier zien we de enorme piek en de kleinere piek daar vlak aan voorafgaand terug. ?Grafiek 2 van Figuur toont de trendlijn. Grafiek 3 toont de heartbeat of seizoenscomponent van Twitter, in dit geval de heartbeat van #ProjectXHaren. Grafiek 4 van Figuur 1 toont de onregelmatige component. Met onregelmatig wordt ruis bedoeld die wij eruit filteren.

Figuur 2: Aantal Tweets per uur vanaf 17 september 11.00 uur t/m 26 september om 06.00 uur, uitgesplitst naar ruwe data (grafiek1), de trend (grafiek2), seizoen/dagelijks ritme (grafiek3) en onregelmatige component (grafiek4).

Deel 2

Op basis van Figuur 2 kunnen we duidelijk zien dat er een trend en seizoen component in de data zitten. Omdat deze figuur betrekking heeft op de volledige dataset gebruiken we deze niet om de gebeurtenissen op de 21^e?september te voorspellen. Deze data zou dan immers in het model zitten en de schattingen ?bevuilen?. Om dit te voorkomen hebben we een nieuwe, onvolledige dataset gemaakt. Deze dataset loopt van 17 september 11.00 uur t/m 20 september 24.00 uur. Op basis van deze data kunnen we gaan onderzoeken of we de gebeurtenissen van Project X in Haren, zoals deze zich uitten op Twitter, hadden kunnen zien aankomen c.q. voorspellen. De vraag die hierbij hoort is dus: kun je voor de 21^e?september een voorspelling maken als je aan het einde de 20^e?een trendanalyse doet?

Eerst hebben we de data opnieuw gedecomponeerd.? Wederom uitgesplitst in drie verschillende delen:

???Trend component

???Seizoen component

???Onregelmatige component

De resultaten daarvan staan in? Figuur 3. Onderstaande grafiek laat een gecorrigeerde stijgende trend zien, die de aanloop naar de 21^e?weergeeft. Deze is anders dan de bovenstaande Figuur 2 doordat de data is afgekapt voor de 21^e. Kortom, piek in data van de 21^e?en de nasleep zijn niet meegenomen in deze schattingen. Hierdoor zijn de grafieken van de trendlijn, de seizoen component (de hartslag van Twitter) en de onregelmatige component ?anders. Onderstaande Figuur 3 laat de gedecomponeerde data zien als aanloop naar 21 september 2012.

Figuur 3: Aantal Tweets per uur vanaf 17 september 11.00 uur t/m 26 september om 06.00 uur, uitgesplitst naar ruwe data (grafiek1), de trend (grafiek2), seizoen/dagelijks ritme (grafiek3) en onregelmatige component (grafiek4).

Grafiek 1 van Figuur 3 toont het Twitterverkeer tot 20 september middernacht, dit is het absolute aantal tweets per uur. Verder valt er te zien dat er sprake is van een stijgende trend: per uur neemt het volume in Twitter berichten toe. Op basis van deze grafiek (grafiek 2 in Figuur 3) mag afgeleid worden dat de activiteit op Twitter toenam, onafhankelijk van het dagelijks ritme of door toedoen van ruis. Grafieken 3 en 4 tonen respectievelijk het dagelijks ritme en de onregelmatige component.

Wat hebben we aan dit inzicht? Een dergelijke analyse kan indicaties geven over opschaling of afschaling, om dit soort evenementen ordentelijk te laten verlopen. Natuurlijk is het tevens belangrijk om (1) te kijken naar de inhoud van de berichtgeving, welke in andere delen van onze analyse naar voren komt, (2) hoeveel mensen er potentieel zouden kunnen komen, (3) andere media, bijvoorbeeld de trendlijn? van aanmeldingen op Facebook (mensen die zeggen dat ze komen) en de aandacht van de traditionele media.

Om mogelijk meer afgewogen keuzes te maken voor opschaling of afschaling is het mogelijk om te onderzoeken of we korte termijn voorspellingen kunnen maken op basis van de reeds bekende data. We hebben immers data tot onze beschikking die gekenmerkt kan worden door een trend en seizoen component.

Figuur 4 geeft een voorspellend model weer. We hebben een techniek gebruikt die de trendlijn vloeiend probeert te continueren. Het model is zo ingesteld dat het relatief veel nadruk legt op meer recentere datapunten dan datapunten die verder in het verleden liggen. Zo nemen bijvoorbeeld de gegevens van 20 september een belangrijkere plaats in dan de gegevens van 17 september. De donkere zwarte lijn geeft de werkelijke data weer. De blauwe lijn is het gemiddeld aantal Twitter berichten per uur dat we mogen verwachten op basis van de trend en seizoen component die we uit de data hebben gehaald. Het donker grijze gebied geeft met 80% en het licht grijze met 95% zekerheid weer dat de trendlijn in dat gebied zou moeten liggen. Op basis van dit model mogen we veronderstellen dat er een gerede kans aanwezig was dat het aantal Twitter berichten (erg sterk) zou toenemen en het plausibel was om aan te nemen dat de enorme activiteit op Twitter nog zeker 24 uur zou aanhouden.

Figuur 4: Aantal Tweets per uur vanaf 17 september 11.00 uur t/m 20.00 uur en de voorspelling voor 21 september (van 0.00-24.00).?

Echter er kleven een aantal algemene nadelen aan het werken met predictieve modellen. Mogelijke fundamentele beperkingen van voorspellend model op basis van gegevens fitting:?

1) De geschiedenis kan niet altijd voorspellen: met behulp van relaties afgeleid uit historische gegevens om de toekomst te voorspellen veronderstelt impliciet dat er bepaalde steady-state condities of constanten in het complexe systeem aanwezig zijn. Dit is bijna altijd verkeerd wanneer in het systeem mensen betrokken zijn. Zo is bijvoorbeeld op Twitter in de meeste gevallen sprake van een dagelijks ritme maar dit ritme heeft niet altijd dezelfde structuur.?

2) De kwestie van onbekende onbekenden: bij het verzamelen van gegevens, definieert de onderzoeker eerst een set van variabelen waarvoor gegevens worden verzameld. Echter, ongeacht hoe groot de onderzoeker zijn selectie van variabelen acht, er is altijd de mogelijkheid van nieuwe variabelen die niet werden beschouwd en van groot belang zijn voor de resultaten.?

3) Zelf-nederlaag van een algoritme: dit is het geval als mensen het algoritme begrijpen en het voor de gek gaan houden of manipuleren, ten einde de uitslag te be?nvloeden. Bijvoorbeeld door veel spam-tweets te versturen.

4. Verspreiden van geruchten: invloed van geruchten op de openbare orde

Van onder andere analyses van?Pukkelpop?en de?Londonse rellen?weten we hoe geruchten zich kunnen verspreiden en dat het zelfcorrigerend vermogen lang niet altijd aanwezig is. Wel laat men zich?be?nvloeden?door autoriteiten, waarbij er diverse niveau’s onderscheiden kunnen worden (zo lijkt). Een (potenti?le) ooggetuige is al redelijk geloofwaardig en een individuele journalist ter plaatse al weer iets meer.?Offici?le?nieuwssites (die soms berichten zomaar overnemen) worden als nog betrouwbaarder geschat (uiteraard zijn er verschillen tussen diverse media) omdat men verwacht dat daar een filter op zit en aan enige ‘fact checking’ wordt gedaan. Een individueel persoon van de hulpdiensten ter plaatse (hoewel dit steeds minder voorkomt) wordt ook altijd snel opgepikt, maar een Twitterbericht van de?offici?le?autoriteit (zeker als het een link bevat naar een?offici?le?website) is het meest geloofwaardig. Helaas zijn die meestal nogal laat met hun berichtgeving als het om feiten gaat, in de tussentijd doen burgers en journalisten meestal hun best om de ‘waarheid’ zo snel mogelijk zelf boven tafel te krijgen.?

We hebben 3 onderwerpen gevisualiseerd:?

– De HellsAngels tweet ‘Moeten wij anders even naar Haren komen. Politie kan het duidelijk niet aan.’?
– Het gerucht over een doodgedrukt meisje.?
– Het gerucht over een dode jongen.?

??1 HellsAngels?(2041 tweets, eerste tweet om 2012-09-21 21:28:35):

Onderstaande plaat laat een social graph zien met mentions en retweets van alle accounts (blauwe lijnen). De mentions en retweets van de Hells Angels en voorlichter Haren zijn in geel aangegeven om het contrast te kunnen zien.?

Onderstaande wordcloud laat zien wat het beeld was rond 21.30 uur op de 21e september.

Onderstaande figuren tonen de “Retweet ripples” na 1 uur en na 2 uur. De retweet ripple van 24 uur is elke lijn een uur, waarbij je kunt waarnemen hoe het gerucht nog wat?na-ijlt, maar grotendeels is uitgedoofd.?

De?retweet-ripple?visualisatie toont alle tweets over 1 onderwerp. Elk bolletje is een tweet. De eerste tweet over het onderwerp staat in het midden. Alle volgende tweets staan verder uit het midden: de afstand tot het midden is evenredig met de tijd sinds die eerste tweet. De tijd loopt dus van binnen naar buiten. De uren worden aangeven met cirkels: van binnen naar buiten stelt elke cirkel 10 minuten of 1 uur verstreken tijd voor sinds de eerste tweet. Retweets en mentions worden met een lijn verbonden met de originele tweet. Als een tweet wordt geretweet of gementioned, loopt er dus een lijn van die tweet naar de retweet/mention. Des te vaker een tweet wordt geretweet / gementioned, des te groter is het bolletje van die tweet. Tweets met meer dan 100 retweets / mentions zijn donkerblauw, net als al hun retweets en mentions.?

In de visualisaties van de laatste 2, de geruchten, zijn de tweets die het gerucht ontkennen rood gekleurd.

Retweet ripple na 1 uur (elke ring is 10 minuten):

Retweet ripple na 2 uur (elke ring is 10 minuten):

Retweet ripple na 24 uur?(iedere ring is 1 uur):

Deze tweet is vaak geretweet (2040 keer). Behalve deze retweets zijn er andere tweets die verwijzen naar deze grap, zoals: ‘Hells Angels Holland bieden op Twitter politie hulp aan omdat ‘ze het niet redden zo’. #projectx’. Onderstaande word cloud bevat woorden die statistisch onderscheidend zijn in het Twitterverkeer tussen 21:00 uur en 22:00 uur, ten opzichte van al het Project-X gerelateerde Twitterverkeer daarvoor. De word cloud laat zien dat de @HellsAngels tweet een van de belangrijkste ?hot topics? was het betreffende?uur.

2 Dood meisje?(11980 tweets, 1e tweet om 2012-09-21 21:45:01)

Na 21.45 uur die avond werd het doodgedrukte meisje ’trending’ binnen de ProjectX Haren communicatie. Hieronder is dat goed te zien in een wordcloud van dat moment.

Bekijk hieronder de animatie van dit gerucht, waarbij de rode tweets het gerucht ontkrachten of in twijfel trekken:

Retweet ripple na 1 uur?(iedere ring is 10 minuten):

Retweet ripple na 2 uur?(iedere ring is 10 minuten):

Retweet ripple na 24 uur?(iedere ring is 1 uur):

De visualisatie laat zien dat er niet ??n enkele tweet direct verantwoordelijk is voor alle retweets. De eerste meldingen op twitter over een dood meisje worden nauwelijks opgepakt door de twitter community. Na een paar minuten zijn er tweets die onafhankelijk van elkaar zijn gepost en door veel mensen worden geretweet.? Dat zou kunnen duiden op een externe bron, buiten twitter, die iets meldt over een dood meisje wat vervolgens door verschillende mensen wordt getweet. Ook is te zien dat de ontkennende tweets (rood) niet worden opgepakt door de Twitter community. Ze worden een aantal keren geretweet, maar lijken geen effect te hebben op de tweets die het gerucht bevestigen.?

3 Dode jongen?(202 tweets, eerste tweet om 2012-09-21 22:31:10)

Retweet ripple 1 uur (iedere ring is 10 minuten):

Retweet ripple 2 uur?(iedere ring is 10 minuten):

Retweet ripple 24 uur??(iedere ring is 1 uur):

Dit gerucht slaat bijna niet aan, in vergelijk met het gerucht over het dode meisje. Wel zijn er een aantal tweets die verwijzen naar een bericht over een dode jongen, zoals gerapporteerd via RTV noord.

Al voor het gerucht over het doodgedrukte meisje werd al over doden getwitterd.:

21:16:49 2 dode tussen de menigte in #haren?http://t.co/LIKiKWrT
21:12:20 Enkele doden en vele gewonden door charges ME #projectx #haren

Van het eerste gerucht wordt direct duidelijk dat het om een grap gaat als we de link volgen waarop een foto van iemands kruin wordt getoond. In het tweede geval is het niet duidelijk dat het om een grap gaat. Toch is dit gerucht niet opgepikt, maar de volgende (vrijwel gelijktijdig verstuurd), over het doodgedrukte meisje, wel:

21:45:01 Meisje van 19 dood gedrukt in #haren #ProjectX?
21:45:41 Holy shit meisje doodgedrukt bij #ProjectXHaren

Vele factoren, zoals de grootte en invloedrijkheid van de sociale netwerken van deze gebruikers, kunnen eraan bijgedragen hebben dat dit laatste gerucht wel is opgepakt. Daarnaast is de specifieke omschrijving (slachtoffer: een jong meisje, leeftijd: 19, wijze van overlijden: doodgedrukt) mogelijk overtuigender geweest dan de vrij algemene tweet van 21:12. Binnen 1 minuut volgt de eerste retweet, na een kwartier komt de geruchtenstroom echt op gang. Om kwart over tien versterkt @HarenLive (nu @OnrustBrigade) het bericht door te twitteren dat de geruchten lijken te kloppen:

22:17:14 Geruchten lijken te kloppen. Steeds meer berichten over doodgedrukt 19-jarig meisje. Bizar. #ProjectXHaren #Haren #Projectx

@HarenLive wist op de dag van de rellen binnen 4 uur 12.000 volgers aan zich te binden.

Uiteraard is er veel meer onzin geproduceerd, waarvan veel berichtgeving als een lopend vuurtje rond gaat. Op zich is dit niet erg, maar als autoriteiten zich gaan baseren op social media-informatie dienen zij goede filters te hebben en mensen met verstand van zaken om de duiding te doen. Een paar voorbeelden staan hieronder. Neem berichtgeving die van belang is voor crowd control. De drukte werd geuit in vele tweets, maar kijk eens naar onderstaande foto’s. Veel van deze foto’s zijn eenvoudig als grap aan te merken. Toch zijn er enkele foto’s bij waarvan je zou denken dat het om de drukte gaat die er in het geval van projectX Haren was, zeker als je de serieuze berichtgevingstekst erbij ziet. Toch zijn al deze foto’s nep.

En dan de foto’s die geproduceerd werden ten aanzien van drank, drugsgebruik en rellen. Ogenschijnlijk echt, met de berichtgeving erbij, maar al snel als nep te classificeren als je Haren kent of tools gebruikt zoals?TinEye.

5. De dag zelf: wie waren er en zijn ooggetuigen en mogelijke relschoppers te detecteren?

Wie zijn er eigenlijk geweest? Deze vraag hebben wij via verschillende filter mechanismen geprobeerd te beantwoorden.

Om dit te bepalen kun je een combinatie gebruiken van meerdere methode. De meest eenvoudige, die in vrijwel alle gratis tools aanwezig is, is om te kijken naar tweets met een geotag. Die zijn eenvoudig te plotten op een kaart, dus daar kun je de ooggetuigen uit Haren vinden. Kleine kanttekening is wel dat een GPS?co?rdinaat?eenvoudig te ‘faken’ is, maar we gaan er in dit geval even uit dat de?co?rdinaten?kloppen. Zoals we in eerdere onderzoeken aangetoond hebben, is het percentage tweets met een geotag bijzonder klein te noemen. In de meeste gevallen ligt dat percentage rond 0,5% van alle tweets. Bij sommige incidenten zie je dat het iets hoger is, of toeneemt, omdat mensen hun GPS juist aanzetten bijvoorbeeld om te laten weten dat ze nog leven. Maar in het geval ProjectXHaren ligt dat percentage zelfs onder de 0,1% wat bijzonder laag te noemen is. Verklaringen van de jeugd die wij ontvingen waren dat veel jongeren het bewust uitzetten, omdat er steeds meer ouders zijn die meekijken. Hieronder eerst de grafiek met de absolute aantallen per tijdseenheid en daarna de grafiek met de percentages van het totaal aantal tweets. Hieronder zie je de grafiek met het aantal tweets dat voorzien is van GPS-tag en over ProjectX Haren ging.

Als we op de kaart kijken valt het aantal bruikbare tweets met geotags al helemaal tegen. In Haren zelf zijn op de 21e slechts tientallen tweets te vinden met een geotag.

Een andere indicator om te kijken wie er echt geweest kan zijn, is de gebruikte Twitterclient? Uit deze eigenschappen van een tweet is af te leiden op welke manier de tweets zijn geproduceerd (via het web of via een van de vele softwareprogramma’s en operating systemen). Aangezien de operating systemen Android en Apple ook met tablets gebruikt kunnen zijn, is alleen?enigszins?aannemelijk te maken dat de webclient?via een PC geproduceerd kan zijn. Mobile web en alle softwareprogramma’s kunnen mobiel geproduceerd zijn. Hoewel er wel enkele laptops gesignaleerd zijn in Haren die dag (maar minder op de avond), is aannemelijk dat alle webclient?gebruikers niet in de straten van Haren waren en dus geen ooggetuige kunnen zijn. Onderstaande grafieken laten zien wat de verhouding web vs (potentieel) mobiele clients is. ?Het is logisch te verwachten dat het percentage hoog is, aangezien veel jongeren een mobiele client gebruiken. De grafiek is nog onder te verdelen in alle typen Twitter clients die er zijn, maar we gaan voor verdere analyse even verder met de set van mobiele gebruikers.

Uit de handmatig en deels automatisch geannoteerde dataset zijn gebruikers ingedeeld in?categorie?n?op basis van de tweets, tijdstippen en foto’s die ze produceren.

Er zijn ongeveer 5000 tweeps die in de kritieke uren meer dan 15 tweets hebben verstuurd. Dit is een wat grotere groep, die je bijvoorbeeld ?live betrokkenen? zou kunnen noemen.?Er zijn, zoals eerder genoemd, ook 6500 gegeotagde tweets.?Uit de bio?s zijn via geboortedata en aanduidingen als ?12 jaar? of ?5H? voor ongeveer 30% van de tweeps leeftijdsindicaties te krijgen.

125 bio’s van de set van tweeps die wij als aanwezig hadden getagd, hebben een duidelijke locatie-aanwijzing in hun bio staan. Bijvoorbeeld Groningen, Amsterdam of hoogte-breedte co?rdinaten. Deze mensen hebben in totaal een ruime 2000 tweets verstuurd, die hier over de tijd in een heatmap zijn weergegeven. Onderstaande figuur toont slechts een stilstaand beeld van die animatie.

Hoewel de set van gebruikers misschien verre van representatief is (gezien het aantal) is wel opvallend dat het verkeer in eerste instantie sterk beperkt blijft tot Groningen en Eindhoven. Pas in aanloop van 21 september komen daar enkele ander steden bij. Opvallend is verder (zonder er een conclusie aan te verbinden) dat een aantal steden als Alkmaar, Arnhem en Rotterdam maar ook kleine dorpjes eigenlijk niet in deze set voorkomen. Waarneembaar is dat er groepen mensen/ jongeren zijn die elkaar aansteken binnen bepaalde gebieden ” als er een schaap over de dam is volgen er meer”. Een bepaalde kritische massa werd wel bereikt in een aantal groepen en gebieden (met name steden), maar in andere steden is dit veel minder gebeurd, afgaande op deze doorsnede. Ook is in de animatie (waarbij de tijd meeloopt) te zien dat er een duidelijk ??half vier? ? effect optreedt in deze groep; op dat moment komen de grote volumes op gang.

Van de harde kern, waarvan de identiteiten uiteraard niet bekend gemaakt zullen worden, is vrij eenvoudig een netwerkkaart te maken. Deze netwerkkaart is ook te maken binnen de context van de Project X Haren data, zodat duidelijk wordt wie met wie het over Project X Haren gehad heeft. Als je deze kaart in de tijd weergeeft, kun je reconstrueren hoe dit verlopen is. Hieronder wordt echter slechts een deel van die netwerkkaart getoond, waarbij duidelijk wordt dat bepaalde individuen (online) een belangrijke rol hebben vervuld. ?

Hierboven een voorbeeld van een netwerkkaart van vermeende relschoppers

In de film die we gemaakt hebben is te zien hoe de kaart van Nederland volstroomt met tweets

Eerder maakte Harro Ranter ook een mapping van zijn ruim 5000?#projectX?tweets uit 500.000 die een geografische locatie bevatten (bron).

Als laatste zijn er vele andere, meer kwalitatieve, analyses gemaakt over de rellen zelf en hoe het gedrag van jongeren is te verklaren, zoals onderstaand artikel in de secondant. Dit artikel gaat meer in op het digitale gedrag van deze jongeren, de media, de overheid en vele anderen.

Mochten we nog interessante analyses missen: laat het ons weten!

Social Media DNA

SocialMediaDNA richt zich op kennisdeling rondom social media, politie en maatschappelijke veiligheid. Onderwerpen vari?ren van de online aspecten van openbare orde, opsporing, vervolging, rechtspraak tot crisisbeheersing en communicatie.

Project X Haren: een (digitale) analyse

Geef een reactie Reactie annuleren