FIFA World Cup 2014, the biggest sporting event in four years (sorry Olympics) is starting today. The tournament holds 736 players from 32 countries. When the players are not playing for their national teams, they play in 301 different clubs. Players from different national teams meet in these clubs. For example, Manchester United has players from 9 different national teams. This means that players in the World Cup who play in Manchester United know players from at least eight different national teams. Why is this important? If two players belong to the same team (national or club), they have a social connection. Using social network analysis we can analyze and visualize this connection (examples from UEFA 2012 and World Cup 2010 similar networks). So, here’s the social network of FIFA World Cup 2014:

worldcup_players_all_v3

In the picture above is the player-to player-connections (here’s a pdf with a better resolution). The size of a players name represents the total number of other players he shares a club with. The top players, Antonio Valencia, Javier Hernández, Julian Green, Shinji Kagawa, Robin van Persie, Nani, Arjen Robben, Mario Mandžukić, Patrice Evra, Xherdan Shaqiri, Daniel Van Buyten, Dante and Javi Martínez have all 13 club mates in the tournament. The color of the player is determined by a computer program that detects clusters. Most of the clusters are the same as the national teams, but we notice that in the middle, the line between Spain, France, Brazil etc. start to become blurry. To get a better picture of the most connected players, below is the core of the network: top 10 % of the players.

worldcup_players_coreWe can also visualize the connections between different national teams and the clubs.

worldcup_teams_clubs_v1

A line between a club and team is formed when a player plays in both of them (pdf). The more a national team has players from a specific team, the thicker the line. For example the German team has seven players from Bayern Munich and Spain has seven players from Barcelona. The most diverse teams are Algeria and Nigeria whose players come all from different clubs. To clarify the situation, below is a picture of the teams and clubs that have at least two common players. Four countries have at least two players from Napoli.

worldcup_players_core_v3Most interesting finding for me is that all of the players are connected one way or another. On average, two players have less than three steps between them. It would be interesting to extend this analysis to the players’ previous clubs and see how the social network of past five years would look like.

EDIT: For those that are more of DIY type network analysts, here are the network files (GraphML): player-player network and team-club network.

Twitter: jattipaa

99analytics.com

Data from Wikipedia. Visualizations with Gephi.

Tieto Venäjän presidentin, Vladimir Putinin joutumisesta Keskusrikospoliisin “epäiltyjen listalle” sai aikaan viime vuonna täysin aiheellisen kohun . Naapurivaltion päämiehen päätyminen listalle, jonka “tiedot koskevat henkilöitä, joiden on mm. syytä epäillä syyllistyvän tai syyllistyneen rikokseen, josta saattaa seurata vankeutta” (lähde: Yle uutiset) on vähintäänkin noloa. Taustalla on Putinin kaveeraaminen venäläisen moottoripyöräkerho “Yön sudet” kanssa. Yhteys rikollisuudesta epäiltyyn riitti tässä epäiltyjen listalle pääsemiseen.

Poliisilla on myös “Poliisiasian tietojärjestelmä”, ‘Patja‘ jossa on tiedot mm. “rikoksesta epäillyistä henkilöistä sekä ilmoittajina, todistajina ja asianomistajina esiintyvistä tai muutoin ilmoitukseen liittyvistä henkilöistä“. Edellä mainittujen rikos- ym. rekistereiden lisäksi ollaan Suomeen nyt rakentamassa havaintorekisteriä, johon joutumisen syyksi Aamulehden mukaan pelkkä epäilyttävä käytös.

Mutta, miksi kerätä listoja, joihin nimensä saadakseen ei tarvitse tehdä muuta kuin kaveerata moottoripyöräilijöiden kanssa tai haista naapurin mielestä omituiselta? Oma veikkaukseni on, että Putinin sotkun taustalla on verkostoanalyysiin pohjautuva tietojärjestelmä. Verkostoanalyysissä - tai sosiaalisen verkoston analyysissä – tutkitaan erilaisten toimijoiden välisiä kytköksiä ja näiden kytköksien muodostamia isompia rakenteita.  Näiden kytköksien, eli yhteyksien, muodostamaa kokonaisuutta on vaikea hahmottaa ääneen kuvailemalla tai esim. listoilla: “Pekka tuntee Liisan, Pertin ja Annan, joka tuntee Marin, Heikin ja Mikan mutta eivät Bengtiä ja Larsia, jotka tuntevat Pertin, Kaisan jne…”. Listana kuvattuna edellinen tilanne ei paljoa helpottaisi:

Pekka;Liisa
Pekka;Pertti
Pekka;Anna
Liisa;Mari
Liisa;Heikki
Liisa;Mika
Bengt;Pertti
Bengt;Kaisa
Lars;Pertti
Lars;Kaisa

Näitä monimutkaisa kokonaisuuksia voidaan kuitenkin analysoida verkostoanalyysillä ja yhteyksistä voidaan muodostaa kuva.

verkosto_esimerkkiKuvasta voimme nopeasti todeta, että henkilöistä löytyy kaksi ryhmää, joiden välissä on Pekka. Voimme keskittyä näiden ryhmien (Lars, Pertti, Kaisa ja Bengt sekä Liisa, Heikki, Mari ja Mika) analysointiin: miksi Liisa tuntee eniten muita, miksi Bengt ja Lars eivät tunne toisiaan jne. Toinen vaihtoehto on keskittyä analyysissä henkilöihin ryhmien välissä: miksi Pekka yhdistää nämä kaksi ryhmää, miksi Annalla on yhteys hyvin yhdistettyyn Pekkaan, mutta ei keneenkään muuhun jne.

Kuvan tilanne on vielä helppo, mutta entä jos verkosto on monimutkaisempi?

verkosto_mustavalkoYllä olevasta kuvasta on vaikea löytää olennaisimmat toimijat silmämääräisesti. Alla olevassa visualisoinnissa on verkoston solmujen kokoa kasvatettu vastaamaan niiden yhteyksien määrää. Toisin sanoen, mitä enemmän yhteyksiä on, sitä isompi pallo. Mutta, pelkkä yhteyksien määrä ei riitä, sillä se voi antaa verkoston avaintoimijoista väärän kuvan. Visualisoinnissa on värin tummuudella korostettu solmun asemaa verkostossa: kuinka hyvin se tavoittaa muut verkoston jäsenet.

verkosto_varitHuomaamme punaisista solmuista, että verkoston avaintoimija ei ole se, kenellä on eniten yhteyksiä vaan usein sen vieressä oleva toimija.

Verkostoanalyysiä on käytetty rikollisuuden tutkimisessa, terroristijahdissa sekä kadonneiden entisten diktaattoreiden löytämisessä. Tiedot epäillyistä ja heidän yhteyksistään muihin henkilöihin tallennetaan tietojärjestelmään. Tällaisten järjestelmien toimintaperiaate on analyytikon kannalta anteeksiantavainen. Kunhan vain nimet on kirjoitettu samalla tavalla, voi verkostoanalyysiä tietokoneohjelmiin pudottaa isot kasat tietoa ja ne melkein järjestäytyvät itsestään. Tässä kuitenkin piilee myös niiden vaara. Joskus ihmiset ovat täsmälleen saman nimisiä, joskus epäily on täysin aiheeton, mutta se kirjataan silti jne.. Yksittäisinä tällaisista tiedoista niistä ei ole suurta vaaraa, muuta yhdistettynä toiseen vastaavaan rekisteriin, voivat täysin satunnaiset yhteydet vaikuttaa hyvinkin epäilyttäviltä. Kun Putinin nimi on kirjoitettu varmuuden vuoksi muutamaan rekisteriin, voi se yhteyksiensä kautta joutua epäilyttävään valoon. Ja nyt kun jatkossa nimen kirjoittamiseen riittää pelkkä epäily, tulee vastaavat tilanteet lisääntymään myös tavallisten ihmisten elämässä.

Täytyy loppuun sanoa, että en ole poliisin eri rekistereiden asiantuntija, eikä minulla ole näistä mitään wikipediasta ja mediasta saatavaa tietoa enempää asiasta. Tämä teksti on siis pelkkää spekulaatiota aiheesta verkostoanalyysin näkökulmasta.

@jattipaa

Kansalaisaloite tasa-arvoisesta avioliittolaista sai nopeasti tarvittavat 50000  nimeä, jotta eduskunnan on se käsiteltävä. Lakivaliokunnan puheenjohtajan Anne Holmlundin harkitsematon ja väheksyvä kommentti Aamulehdessä 21.3.2013  sai samana päivänä aikaan mielenkiintoisen sosiaalisen median ilmiön, kun Joonas Pekkanen julkaisi siitä kirjoituksen Avoimen ministeriön Facebook-seinälle. Pekkanen ihmetteli myöhemmin samaista ilmiötä, ja tällä analyysillä pyrin sen purkamaan.

Keskimääräisenä torstaina (lähde 99analytics.com) on suomenkielisillä Facebook-sivuilla noin eri 53 000 henkilöä aktiivisena – jakaa, tykkää ja kommentoi sivujen julkaisuja. Käytännössä kuva sai siis kuudesosan suomenkielisillä Facebook-sivuilla aktivoituvista toimimaan. Ei mikään pieni saavutus.

Kuvassa on visualisoitu jaot eli pallo kuvastaa jokaista tahoa, joka on välittänyt viestin edelleen (jakoyhteys on kuvassa viiva). Nämä jaot tavoittivat yhteensä 266 240 henkilöä. Nopeasti laskettuna jokainen jako tavoitti n. 90 silmäparia.

99analytics.com

Hyödyllistä on purkaa vuorovaikutus myös aikajanalle. Alla on kuvaaja viestin julkisista jaoista.

99analytics.com

Ensimmäinen piikki alkaa klo 10.15, jolloin Avoin ministeriö jakaa linkin. Se ottaa vauhtia kun Facebook-sivu Järkeä tekijänoikeuslakiin jakaa linkin Facebook-seinällään. Seuraava piikki kuvaajassa näkyy puolenpäivän maissa, jolloin todellinen viraalivaihe alkaa. Jakokeskuksia syntyy useita ja pitkiä jakoketjuja kehittyy. Pisin jakoketju on 9 peräkkäistä jakoa. Puolenpäivän jälkeen yli puolet julkisista jaoista on tehty. Jakojen määrä piikkaa aina kun viesti tavoittaa jonkun aliverkoston. Tämä näkyy nopeana nousuna, tasaantumisena ja sitten laskuna.

Suurin osa vuorovaikutuksesta kohdistui Avoimen Ministeriön sivuun, mutta monessa paikassa yhä uudelleen ryöpsähtänyt keskustelu tekee siitä PR:n painajaisen. Yhden tulipalon sijaan lakivaliokunnan puheenjohtajan olisi pitänyt sammutella kymmeniä paloja. Erona edelliseen vastaavaan sosiaalisen median “kuohuntaan” on se, että tässä ei ollut mukana valtamediaa vauhdittamassa jakoja. Tämä oli sosiaalisen median oma ryöpsähdys.

Joonas Pekkanen myös kysyi, miten Facebookin Stories Created -luku muodostuu. Vastaus on, että hyvin sotkuisesti. Facebookin tarjoamat tiedot ovat yleensä kovin hämäriä, sillä niiden syntymistapa on jonkinasteinen liikesalaisuus. Itse suosin selkeitä, yksiselittelisiä lukuja: tämän postauksen tiedot haettu 99analytics.com -palvelulla (siitä vastuussa Mikael Rekola ja allekirjoittanut), joka erikoistuu yksinkertaiseen ja edulliseen sosiaalisen median analytiikkaan.

99analytics.com
twitter.com/jattipaa

A couple of years ago – and still today – any unexplained phenomenon that included social media would simply be named “viral”. Virality means that idea/news/meme starts to spread without the help of the original source. This spreading happens by the infectious nature of the idea or by the influence of those who have come to contact to the viral agent. This has been both the dream and the nightmare of the marketing and PR departments. Last week the nightmare scenario occurred to the The Copyright Information and Anti-Piracy Centre in Finland (CIAPC).

In the spring 2012 the CIAPC contacted a Finnish man claiming copyright violations in a P2P network. Long story short: After some threatening emails by the CIAPC and the man’s refusal to pay a compensation the police performed a search and seizure operation. The seizure part included a 9-year old girl’s Winnie the Pooh labeled laptop. Last week, the man described the situation in a Facebook post (original in Finnish) that suddenly started spread through the Facebook’s share-function. Soon the main stream media caught on (first online article in Finnish) and by the end of the next day in even made its way to international media (TorrentFreak and TechCrunch). The result: a PR disaster for the CIAPC.

The original post has at the moment 2 655 Facebook shares. The video below is the dynamic network of the public sharing of the post. The data was gathered by Mikael Rekola using the 99analytics.com  social media analytics platform. Each line represents a share of post, not the post views.

The video visualizes how the original post was shared and re-shared in the first 48 hours of its publication. Largest portion of the shares happened before middle part of the video within the first 24 hours. Actually, 97 % of the public shares happened during the 48 hour period. Those users whose shares got the most re-shares joined the game early.  This means that that the time is of the essence if the PR departments wish to react to these events.

When we look at the time scale of the spreading, we notice a sharp increase in the shared posts between 8 and 11 A.M..  The cascade started from several sources, including politicians  Dan Koivulaakso and Jyrki Kasvi,  who shared the post around 9 A.M. The first news story increased the shares of the original post. Before that, most of the shares were re-shares. The role of main stream media in facilitating these viral phenomenon cannot be forgotten.

The picture below that holds all of the shares. Size of the node represents the amount of shares the user caused and the brightness of the color of the node represents the amount of comments and likes the share received.

Almost all of the shares became directly from the original post (73 %). Less than 4 % of the shares reached some sort of virality i.e. spread beyond the first sharer.The longest chain of shares expanded for 5 steps. ( In Facebook, users are in average 4 steps from one another). We also checked if a friend relationship is present in the shares. Of the public shares, only 14 % of sharing happened between friends. But in the second degree shares, friend relationship was present in 43 % of the shares. The long sharing chains are actually quite rare (pdf) and awareness doesn’t require sharing: for every share there are tens or hundreds of share views.

The power of main stream media to spread a message is unparalleled: the power of social media comes from the power of amplification and raising awareness.

Twitter: jattipaa

99analytics.com

 

EDIT: added some details on what the lines between the nodes represent.

When we look in to our past, we see different communities: schools, companies, teams etc. Most important thing in these communities is that we meet people; we network. One big community, UEFA European Championship 2012 is nearing its final: Spain vs. Italy.

Like all of us, the players in these teams have a past of different communities. In this case, the most interesting communities are football clubs. Like in my previous post of all of the teams, I ventured a guess: if two players have played in the same club, they share a connection (in this post they share a connection if they have played in the same club in the same year). Combine all those connections and you get a social network of the players.

Size of the players name represents the betweenness of the player: how important the player is to the experience flow of the team. We see that Pepe Reina is the most important player from the network perspective. Second and third are Christian Maggio and Álvaro Arbeloa. We see that most of the players are connected. Note: I only took in to account the prime league clubs.

The network structure of the both teams are similar in their density: both utilize about 20 % of all possible ties. Spain, however form almost twice the amount of cliques. This translates as more tightly connected groups. Data from team Spain from here and from team Italy here. Interesting is that Thiago Motta and Mario Balotelli are more connected to the Spanish team than to the Italian team. This may translate to better knowledge of the opposing team. The Spanish team does however have more players that have played together for several years. In other organizations this usually leads to better performance, so based on social network analysis, my money would be on Spain.

twitter: jattipaa

www.verkostoanatomia.fi

facebook: Verkostoanatomia

Visualized with Gephi.

The UEFA European Championship 2012 has some interesting statistics. For example its 16 teams have 368 players from 137 clubs. This means that in average each club has almost 3 of its players on the tournament. But averages are a poor tool when you can use social network analysis.

Like in 2010 World Cup the teams, clubs and players form a social network. In short, if a two players belong to the same team (country or club), they have a connection and this connection can be visualized. For similar visualizations, check out this viz from a Finnish newspaper Helsingin Sanomat (I also got the raw data used to do this analysis from the site).

The picture below is all the players, teams and clubs in the same network. The size of the node represents the amount of connections the node has.

Bayern München is the best represented club: it has 13 players in the tournament.

The next picture has only the clubs and teams. They are connected through players. The size of the node represents the “importance” (or eigenvector centrality) of the node. This means that the players from the Netherlands team are best connected throughout the network. Surprisingly Sweden is second. As the number of common players increase, so does the thickness of the line between the club and the team. They also get closer they get on the map. For example Spain and Portugal both have lot of players from Real Madrid and these two countries end up close to each other on the map. From the clubs’ perspective the players from Arsenal, Bayern München and Manchester City are central to the network.

To take the analysis even further here is the network of all the players in the tournament. A connections here means a shared team or a club membership. The size of the node represent the importance (or a good position) of the player. The color represents the “community” of players; a clique of sorts.

Franck Ribéry and Arjen Robben are the most well positioned players in the network. Every player can reach every other player in max 5 steps. A more clearer picture emerges after we remove all the players that play with less than 27 other players (22 from their team + 5 from the club). A sort of crème de la crème of players.


For you SNA enthusiasts here is the .net file of the players, teams and all of the actors. Visualized with Gephi.

twitter: jattipaa

www.verkostoanatomia.fi

facebook: Verkostoanatomia

Suomalaisessa twitterissä kuluneen kuukauden aikana on vaikea ollut välttyä #mmkisat-tägiltä. En itse ole aiemmin kohdannut näin laajassa käytössä olevaa ja pitkäikäistä tägi-meemiä (tuleeko muille mieleen mitään?).

No, luonnollisesti minua kiinnostaa myös se, mitä toistuvia rakenteita tweettien taustalla on: kuinka paljon puhutaan, milloin puhutaan ja ketkä puhuvat. Kysymykset eivät ole vähäpätöisiä sillä mielestäni twitterin ja sosiaalisen median järjestelmällistä seurantaa tehdään aivan liian vähän. Tässä on kerätty muutama esimerkki, mitä twitter-tapahtumasta voidaan saada irti.

Keräsin kaikki #mmkisat-tägillä varustetut tweetit ajalla 5.5.-23.5.2012 yourTwapperKeeper-työkalulla. Verkostot visualisoin Gephillä.

Perustietoja:  18 päivän ajanjaksolla tuli huimat 38064 tweettiä, eli keskimäärin yli 2000 tweettiä per päivä! Yhteensä 3399 eri toimijaa tweettasi jokainen keskimäärin 11 kertaa. Yli puolet tweettasi kuitenkin vain kaksi kertaa. Tweettajista 130 ahkerinta tuottivat yli puolet tweeteistä, eli loppujen lopuksi äänessä oli eniten pienehkö joukko (4 % kokonaisjoukosta), jotka onnistuivat tuomaan mukaan loputkin kolmisen tuhatta henkilöä. Ahkerin tweettaaja oli Urheilulehden uutispäällikkö @EskoSeppanen 994:llä tweetillä, toisena @Valonkuvaaja 810 tweetillä ja kolmantena Jääkiekkoliiton virallinen tili @leijonat 759 tweettiä.

Suurimmat piikit päivistä olivat sunnuntaisin, jolloin tuli neljännes kaikista tweeteistä.

Toukokuun 17. päivä oli taas kiivain tweettauspäivä. Iltapelit saivat aikaan eniten tweettejä.



Tweettaajista 2310 mainitsi jonkun toisen. Tästä saamme keskusteluun osallistumisprosentiksi 68 %. Eli yli kaksi kolmannesta tweettaajista otti twitterin sosiaalisen ulottuvuuden käyttöön.

Alla oleva kuvat on tehty keräämällä tweettien sisällä olevat maininnat. Jos esimerkiksi @KKammola mainitsee @leijonat, piirretään toimijoiden välille yhteys. Toistetaan prosessi kaikkien toimijoiden kesken ja saamme lopulta alla olevan kuvan, jossa tweettaajan nimen kokoa kasvattaa tämän saama mainintojen lukumäärä. Väri määrittää “yhteisön”, eli tässä tapauksessa taipumuksen mainita samoja henkilöitä ristiin.

Verkostossa @EskoSeppanen, sai yhteensä 1301 mainintaa 645:ltä tweettaajalta, @KKammolla 1018 mainintaa 521 tweettaajalta. Virallinen @leijonat oli kolmas 764 maininnalla ja nämä maininnat tulivat 233 eri tweettaajalta. Aikaisemmin mainittu 4 %:n joukko, joka tuotti suurimman osan sisällöstä muodosti myös puolet eniten mainintoja saaneesta joukosta. Jos mainintojen lukumäärä katsottaisiin tässä onnistumisen mittariksi (kuinka suuren huomioarvon tweettaaja saa), niin @ESkoSeppanen sai yhdellä omalla tweetillä keskimäärin 1,31 vastausta, @leijonat 1,01 ja @KKammola todella hyvän 2,83. Tästä saa jonkinlaisen ROC-arvon siis laskettua.

Kuva muistuttaa kuitenkin jotain, mitä Nyan Cat rykäisisi matolle. Pohjalla olevan rakenteen selvittääksemme siivosin kuvasta pois sellaiset toimijat, jotka eivät saaneet yhtään mainitaa ja sellaiset yhteydet, jotka toistuivat alle kolme kertaa. Tuloksena on selkeämpi kuva mm2012-twitter-keskustelua tukevasta vuorovaikutus- ja viestintäsuhteista.

Itselle mielenkiintoisin havainto oli, että alle 5 % tuotti suurimman osan sisällöstä ja että itse asiassa tämä aktiivisten joukko herätti myös eniten keskustelua. Mutta ei kuitenkaan kaikkea keskustelua, ja tämä tulee muistaa kun mietitään viestinnän analyysissä äänekkäimpien huomioista: huutajat eivät aina välttämättä muodosta keskustelua. Yhtäkaikki, hauskaa nähdä, että twitter alkaa ottaa paikkaansa myös suomalaisessa mediakentässä.

EDIT: Korjasin #mm2012 -> #mmkisat-tägiksi (oli alunperinkin). Edit 2: Esko Seppänen korjattu päätoimittajasta uutispäälliköksi, kiitos Niku.

twitter: jattipaa

www.verkostoanatomia.fi

facebook: Verkostoanatomia

Follow

Get every new post delivered to your Inbox.