FIFA World Cup 2014, the biggest sporting event in four years (sorry Olympics) is starting today. The tournament holds 736 players from 32 countries. When the players are not playing for their national teams, they play in 301 different clubs. Players from different national teams meet in these clubs. For example, Manchester United has players from 9 different national teams. This means that players in the World Cup who play in Manchester United know players from at least eight different national teams. Why is this important? If two players belong to the same team (national or club), they have a social connection. Using social network analysis we can analyze and visualize this connection (examples from UEFA 2012 and World Cup 2010 similar networks). So, here’s the social network of FIFA World Cup 2014:

worldcup_players_all_v3

In the picture above is the player-to player-connections (here’s a pdf with a better resolution). The size of a players name represents the total number of other players he shares a club with. The top players, Antonio Valencia, Javier Hernández, Julian Green, Shinji Kagawa, Robin van Persie, Nani, Arjen Robben, Mario Mandžukić, Patrice Evra, Xherdan Shaqiri, Daniel Van Buyten, Dante and Javi Martínez have all 13 club mates in the tournament. The color of the player is determined by a computer program that detects clusters. Most of the clusters are the same as the national teams, but we notice that in the middle, the line between Spain, France, Brazil etc. start to become blurry. To get a better picture of the most connected players, below is the core of the network: top 10 % of the players.

worldcup_players_coreWe can also visualize the connections between different national teams and the clubs.

worldcup_teams_clubs_v1

A line between a club and team is formed when a player plays in both of them (pdf). The more a national team has players from a specific team, the thicker the line. For example the German team has seven players from Bayern Munich and Spain has seven players from Barcelona. The most diverse teams are Algeria and Nigeria whose players come all from different clubs. To clarify the situation, below is a picture of the teams and clubs that have at least two common players. Four countries have at least two players from Napoli.

worldcup_players_core_v3Most interesting finding for me is that all of the players are connected one way or another. On average, two players have less than three steps between them. It would be interesting to extend this analysis to the players’ previous clubs and see how the social network of past five years would look like.

EDIT: For those that are more of DIY type network analysts, here are the network files (GraphML): player-player network and team-club network.

Twitter: jattipaa

99analytics.com

Data from Wikipedia. Visualizations with Gephi.

Advertisements

Tieto Venäjän presidentin, Vladimir Putinin joutumisesta Keskusrikospoliisin “epäiltyjen listalle” sai aikaan viime vuonna täysin aiheellisen kohun . Naapurivaltion päämiehen päätyminen listalle, jonka “tiedot koskevat henkilöitä, joiden on mm. syytä epäillä syyllistyvän tai syyllistyneen rikokseen, josta saattaa seurata vankeutta” (lähde: Yle uutiset) on vähintäänkin noloa. Taustalla on Putinin kaveeraaminen venäläisen moottoripyöräkerho “Yön sudet” kanssa. Yhteys rikollisuudesta epäiltyyn riitti tässä epäiltyjen listalle pääsemiseen.

Poliisilla on myös “Poliisiasian tietojärjestelmä”, ‘Patja‘ jossa on tiedot mm. “rikoksesta epäillyistä henkilöistä sekä ilmoittajina, todistajina ja asianomistajina esiintyvistä tai muutoin ilmoitukseen liittyvistä henkilöistä“. Edellä mainittujen rikos- ym. rekistereiden lisäksi ollaan Suomeen nyt rakentamassa havaintorekisteriä, johon joutumisen syyksi Aamulehden mukaan pelkkä epäilyttävä käytös.

Mutta, miksi kerätä listoja, joihin nimensä saadakseen ei tarvitse tehdä muuta kuin kaveerata moottoripyöräilijöiden kanssa tai haista naapurin mielestä omituiselta? Oma veikkaukseni on, että Putinin sotkun taustalla on verkostoanalyysiin pohjautuva tietojärjestelmä. Verkostoanalyysissä – tai sosiaalisen verkoston analyysissä – tutkitaan erilaisten toimijoiden välisiä kytköksiä ja näiden kytköksien muodostamia isompia rakenteita.  Näiden kytköksien, eli yhteyksien, muodostamaa kokonaisuutta on vaikea hahmottaa ääneen kuvailemalla tai esim. listoilla: “Pekka tuntee Liisan, Pertin ja Annan, joka tuntee Marin, Heikin ja Mikan mutta eivät Bengtiä ja Larsia, jotka tuntevat Pertin, Kaisan jne…”. Listana kuvattuna edellinen tilanne ei paljoa helpottaisi:

Pekka;Liisa
Pekka;Pertti
Pekka;Anna
Liisa;Mari
Liisa;Heikki
Liisa;Mika
Bengt;Pertti
Bengt;Kaisa
Lars;Pertti
Lars;Kaisa

Näitä monimutkaisa kokonaisuuksia voidaan kuitenkin analysoida verkostoanalyysillä ja yhteyksistä voidaan muodostaa kuva.

verkosto_esimerkkiKuvasta voimme nopeasti todeta, että henkilöistä löytyy kaksi ryhmää, joiden välissä on Pekka. Voimme keskittyä näiden ryhmien (Lars, Pertti, Kaisa ja Bengt sekä Liisa, Heikki, Mari ja Mika) analysointiin: miksi Liisa tuntee eniten muita, miksi Bengt ja Lars eivät tunne toisiaan jne. Toinen vaihtoehto on keskittyä analyysissä henkilöihin ryhmien välissä: miksi Pekka yhdistää nämä kaksi ryhmää, miksi Annalla on yhteys hyvin yhdistettyyn Pekkaan, mutta ei keneenkään muuhun jne.

Kuvan tilanne on vielä helppo, mutta entä jos verkosto on monimutkaisempi?

verkosto_mustavalkoYllä olevasta kuvasta on vaikea löytää olennaisimmat toimijat silmämääräisesti. Alla olevassa visualisoinnissa on verkoston solmujen kokoa kasvatettu vastaamaan niiden yhteyksien määrää. Toisin sanoen, mitä enemmän yhteyksiä on, sitä isompi pallo. Mutta, pelkkä yhteyksien määrä ei riitä, sillä se voi antaa verkoston avaintoimijoista väärän kuvan. Visualisoinnissa on värin tummuudella korostettu solmun asemaa verkostossa: kuinka hyvin se tavoittaa muut verkoston jäsenet.

verkosto_varitHuomaamme punaisista solmuista, että verkoston avaintoimija ei ole se, kenellä on eniten yhteyksiä vaan usein sen vieressä oleva toimija.

Verkostoanalyysiä on käytetty rikollisuuden tutkimisessa, terroristijahdissa sekä kadonneiden entisten diktaattoreiden löytämisessä. Tiedot epäillyistä ja heidän yhteyksistään muihin henkilöihin tallennetaan tietojärjestelmään. Tällaisten järjestelmien toimintaperiaate on analyytikon kannalta anteeksiantavainen. Kunhan vain nimet on kirjoitettu samalla tavalla, voi verkostoanalyysiä tietokoneohjelmiin pudottaa isot kasat tietoa ja ne melkein järjestäytyvät itsestään. Tässä kuitenkin piilee myös niiden vaara. Joskus ihmiset ovat täsmälleen saman nimisiä, joskus epäily on täysin aiheeton, mutta se kirjataan silti jne.. Yksittäisinä tällaisista tiedoista niistä ei ole suurta vaaraa, muuta yhdistettynä toiseen vastaavaan rekisteriin, voivat täysin satunnaiset yhteydet vaikuttaa hyvinkin epäilyttäviltä. Kun Putinin nimi on kirjoitettu varmuuden vuoksi muutamaan rekisteriin, voi se yhteyksiensä kautta joutua epäilyttävään valoon. Ja nyt kun jatkossa nimen kirjoittamiseen riittää pelkkä epäily, tulee vastaavat tilanteet lisääntymään myös tavallisten ihmisten elämässä.

Täytyy loppuun sanoa, että en ole poliisin eri rekistereiden asiantuntija, eikä minulla ole näistä mitään wikipediasta ja mediasta saatavaa tietoa enempää asiasta. Tämä teksti on siis pelkkää spekulaatiota aiheesta verkostoanalyysin näkökulmasta.

@jattipaa

Suomalaisessa twitterissä kuluneen kuukauden aikana on vaikea ollut välttyä #mmkisat-tägiltä. En itse ole aiemmin kohdannut näin laajassa käytössä olevaa ja pitkäikäistä tägi-meemiä (tuleeko muille mieleen mitään?).

No, luonnollisesti minua kiinnostaa myös se, mitä toistuvia rakenteita tweettien taustalla on: kuinka paljon puhutaan, milloin puhutaan ja ketkä puhuvat. Kysymykset eivät ole vähäpätöisiä sillä mielestäni twitterin ja sosiaalisen median järjestelmällistä seurantaa tehdään aivan liian vähän. Tässä on kerätty muutama esimerkki, mitä twitter-tapahtumasta voidaan saada irti.

Keräsin kaikki #mmkisat-tägillä varustetut tweetit ajalla 5.5.-23.5.2012 yourTwapperKeeper-työkalulla. Verkostot visualisoin Gephillä.

Perustietoja:  18 päivän ajanjaksolla tuli huimat 38064 tweettiä, eli keskimäärin yli 2000 tweettiä per päivä! Yhteensä 3399 eri toimijaa tweettasi jokainen keskimäärin 11 kertaa. Yli puolet tweettasi kuitenkin vain kaksi kertaa. Tweettajista 130 ahkerinta tuottivat yli puolet tweeteistä, eli loppujen lopuksi äänessä oli eniten pienehkö joukko (4 % kokonaisjoukosta), jotka onnistuivat tuomaan mukaan loputkin kolmisen tuhatta henkilöä. Ahkerin tweettaaja oli Urheilulehden uutispäällikkö @EskoSeppanen 994:llä tweetillä, toisena @Valonkuvaaja 810 tweetillä ja kolmantena Jääkiekkoliiton virallinen tili @leijonat 759 tweettiä.

Suurimmat piikit päivistä olivat sunnuntaisin, jolloin tuli neljännes kaikista tweeteistä.

Toukokuun 17. päivä oli taas kiivain tweettauspäivä. Iltapelit saivat aikaan eniten tweettejä.



Tweettaajista 2310 mainitsi jonkun toisen. Tästä saamme keskusteluun osallistumisprosentiksi 68 %. Eli yli kaksi kolmannesta tweettaajista otti twitterin sosiaalisen ulottuvuuden käyttöön.

Alla oleva kuvat on tehty keräämällä tweettien sisällä olevat maininnat. Jos esimerkiksi @KKammola mainitsee @leijonat, piirretään toimijoiden välille yhteys. Toistetaan prosessi kaikkien toimijoiden kesken ja saamme lopulta alla olevan kuvan, jossa tweettaajan nimen kokoa kasvattaa tämän saama mainintojen lukumäärä. Väri määrittää “yhteisön”, eli tässä tapauksessa taipumuksen mainita samoja henkilöitä ristiin.

Verkostossa @EskoSeppanen, sai yhteensä 1301 mainintaa 645:ltä tweettaajalta, @KKammolla 1018 mainintaa 521 tweettaajalta. Virallinen @leijonat oli kolmas 764 maininnalla ja nämä maininnat tulivat 233 eri tweettaajalta. Aikaisemmin mainittu 4 %:n joukko, joka tuotti suurimman osan sisällöstä muodosti myös puolet eniten mainintoja saaneesta joukosta. Jos mainintojen lukumäärä katsottaisiin tässä onnistumisen mittariksi (kuinka suuren huomioarvon tweettaaja saa), niin @ESkoSeppanen sai yhdellä omalla tweetillä keskimäärin 1,31 vastausta, @leijonat 1,01 ja @KKammola todella hyvän 2,83. Tästä saa jonkinlaisen ROC-arvon siis laskettua.

Kuva muistuttaa kuitenkin jotain, mitä Nyan Cat rykäisisi matolle. Pohjalla olevan rakenteen selvittääksemme siivosin kuvasta pois sellaiset toimijat, jotka eivät saaneet yhtään mainitaa ja sellaiset yhteydet, jotka toistuivat alle kolme kertaa. Tuloksena on selkeämpi kuva mm2012-twitter-keskustelua tukevasta vuorovaikutus- ja viestintäsuhteista.

Itselle mielenkiintoisin havainto oli, että alle 5 % tuotti suurimman osan sisällöstä ja että itse asiassa tämä aktiivisten joukko herätti myös eniten keskustelua. Mutta ei kuitenkaan kaikkea keskustelua, ja tämä tulee muistaa kun mietitään viestinnän analyysissä äänekkäimpien huomioista: huutajat eivät aina välttämättä muodosta keskustelua. Yhtäkaikki, hauskaa nähdä, että twitter alkaa ottaa paikkaansa myös suomalaisessa mediakentässä.

EDIT: Korjasin #mm2012 -> #mmkisat-tägiksi (oli alunperinkin). Edit 2: Esko Seppänen korjattu päätoimittajasta uutispäälliköksi, kiitos Niku.

twitter: jattipaa

www.verkostoanatomia.fi

facebook: Verkostoanatomia

Eduskuntavaaleista on jo kaksi kuukautta, eikä Suomella ole kirjoitushetkellä hallitusta. Haasteita on riittänyt, eikä vieläkään ministereitä ole nimitetty. Eräässä aikaisemmassa kirjoituksessani ennustin harhaan, ettei Vihreitä ja Kristillisdemokraatteja tulla samassa hallituksessa näkemään (samaan aikaan totesin että “Hallitusneuvotteluista tullee mielenkiintoiset”). Hallituksen muodostamisessa on omassa mielessäni jotain samaa kuin eräissä toisissa neuvotteluissa yli vuosikymmen sitten.

Hallitus tullaan kuitenkin muodostamaan, mutta keitä siihen tulee ja miten eri puolueiden mielipiteet osuvat yhteen?

Käyttäen samaa Ylen vaalikoneaineistoa, joka julkaistiin sittemmin myös avoimena datana, tein kartan hallituksen ja opposition kansanedustajien mielipiteiden samankaltaisuudesta. Datassa on 192 ehdokasta 200:ta (Hemmilä Pertti,  Holmlund Anne,  Jurva Johanna,  Kalli Timo,  Kettunen Pentti,  Kärnä Jukka,  Oinonen Pentti ja  Tuomioja Erkki puuttuvat)

Kuvassa on yhteys kahden edustajan välillä, jos heillä oli sama mielipide vähintään 14 eri asiassa. Kuvassa on korostettu sen ehdokkaan nimen kokoa, jonka mielipiteet ovat muiden mielipiteiden välissä; “mielipidevälittäjiä”. Esim. Henna Virkkunen (kok), Petteri Orpo(kok),  Johanna Karimäki (vihr), Jouko Jääskeläinen (kd) sekä Kristiina Salonen (sdp) ja Eeva-Johanna Eloranta (sdp) toimivat konsensuksen rakentajina. SPD tuntuu muutenkin toimivan Vasemmistoliiton puskurina. Ryhmät ova yhtenäisiä Vihreitä ja RKP:tä lukuun ottamatta.

Oppositiossa on hieman enemmän yhtenäisyyttä: kuvassa on yhteys kahden edustajan välillä, jos heillä on sama mielipide vähintään 15 eri asiassa. Kahtiajako on kuitenkin näkyvää, vaikka “mielipidesoluttautujia” näkyy molemmin puolin: Ville Vähämäki (ps), Inkeri Kerola (kesk) ja Jari Leppä (kesk) ovat ehkä enemmän kotonaan toisessa oppositiopuolueessa.

Hallituksen sisälle näyttää syntyvän kokoomus-rkp-kd sekä vihreät-sdp-vasemmistoblokit. Six-packissa löytyy siis selkeästi kahta eri juomalaatua (mitähän sitä nuorena varoiteltiinkaan eri juomalaatujen ristiinjuomisesta). Veikkauksena tulevalle hallituskaudelle näiden tulosten pohjalta on, että tulevassa hallituksessa tarvitaan sillanrakentajia ja paljon kärsivällisyyttä.

www.verkostoanatomia.fi

facebook: http://www.facebook.com/pages/Verkostoanatomia/189756439160

twitter: jattipaa

Eurovision song contest is a great example of networks: people tend to vote their neighboring country. In twitter one could follow and comment the pan-European event using the hashtags #eurovision, #esc, #esc2011 and in Finland #euroviisut. To a network analyst the @-mentions are the most interesting: who mentions whom. A tweet using one of the #-tags and an @name means a connection between two tweeters. Using NodeXL to retrieve the tweets (script here) from 1 hour before the final to the end of the voting and Gephi to visualize the dynamic structure of the network I came up with the following picture:

The size of the node represents received mentions and the darkness of the node represents activity of mentioning other tweeters (detailed picture here, see if you can find yourself with ctrl-f). Tweeters that didn’t mention anyone else are not shown here. @queen_uk (343 mentions received), @malena_ernman (81 mentions) and @bbceurovision (73) were the most popular tweeters. The most active tweeter was @davis3xm. Overall 64187 tweeters used the hashtag during the 4,5 hour period and 6378 mentioned someone else.

If we focus in the biggest connected network (2094 nodes with 3618 mentions) we get a clearer picture. This time the color represents the “community” of tweeters:

Pdf here.

twitter: jattipaa

www.verkostoanatomia.fi

facebook: http://www.facebook.com/pages/Verkostoanatomia/189756439160

EDIT: Finnish Eurovision twitter network

The Finnish tag #euroviisut attracted 840 tweeterers and had 619 mentions. The most mentioned (represented by the size of the node) were @jyrkikasvi (38 mentions), @johannasl (17 mentions), @euroviisut and @eskoseppanen (both 14 mentions). The most active mentioners (represented by the darkness of the node) were @oolatus and @kestinen (both mentioned 10 other. Here’s the picture and pdf.

Elinkeinoelämän valtuuskunnan Suora yhteys – raportti sosiaalisesta mediasta suomalaisissa yrityksissä julkaistiin 5.5. Aiheeseen sopivasti twitterissä tilaisuutta pystyi seuraamaan #suorayhteys -tägillä. Ja kuten yleensä, visualisoin tweetit. Kuvassa on tagin ympärillä klo 9.20-10.15 käydyt keskustelut. Yhteys siis tarkoittaa mainintaa tai retweettausta.

Huomaamme, että verkosto on yhtenäinen, ja keskustelua syntyi. Kaiken kaikkiaan tweettajia oli 86 ja joku muu mainittiin 118 kertaa. Pallon koko vastaa mainintojen lukumäärää ja värin tummuus aktiivisuutta mainita muut. @eskokilpi oli mainituin tweettaja ja @nestafo mainitsi eniten muita. Huomion arvoista on, että @eva_fi on verrattain syrjässä: sosiaalinen media ei siis todellakaan ole tiedotusta, vaan keskusteluja, joissa tulisi olla – aktiivisemmin – mukana. Jos haluat etsiä itsesi verkostosta, tässä tarkempi kuva.

twitter: jattipaa

www.verkostoanatomia.fi

facebook: http://www.facebook.com/pages/Verkostoanatomia/189756439160

Tiedot kerätty NodeXL:n kätevällä skriptillä ja visualisoitu Gephillä.

The recent tragedies in Japan, New Zealand and Haiti had me thinking: how are the occurrences of earthquakes connected? The effects of the Pacific Ring of Fire are known: when something occurs in Japan, something can be expected in the US. Using the data of the biggest quakes in the world from U.S. Geological Survey, I used network analysis to answer the question: how do the earthquakes link?

A link between two earthquake sites happens when a quake has happened directly after or one after the initial quake at least two in two occasions. The more common is the co-occurrence of quakes, the thicker is the connection between two nodes. The size of the node represents the amount of quakes happened. We see that Japan and Indonesia are strongly connected, as are Japan and California. The color of the connection represents the “community” of earthquakes: repeated co-occurrence.

Could this method be used to predict future big earthquakes? Using the same data I highlighted the strings of earthquakes that have happened at least four times in a row. I accounted the last three big quakes: Chile, New Zealand and Japan. The stronger the color red, the bigger is historical change for big quake to happen.

We see that Indonesia is likely to be hit next as well is California and Papua New Guinea. I have to note that my expertise is not in geology but in social network analysis. But never the less, if we accept that the movements in the crust of the Earth are not independent, network analysis can provide some insight into these life changing  events.

twitter.com/jattipaa

facebook

www.verkostoanatomia.fi

Visualization is made with Gephi.