Datum en tijd

zaterdag 10 maart 2012 in Sonstiges. Permanente link | Geen reacties

Ik ben stekejaloers op Stephen Wolfram’s datavisualisaties. En ik had vroeger data over vanalles (muisbewgingen! toetsaanslagen! programma’s gebruikt!), maar sinds ik op allerlei verschillende computers allerlei dingen doe, is het allemaal wat verwaterd.

Mijn mail, die heb ik in principe nog tot ergens in 1994, maar waar precies de mails van 1994 tot 2004 staan: ik zou er eens heel erg hard naar moeten zoeken.

Ik kan wél gemakkelijk dingen over dit weblog te weten komen, ‘t is toch altijd dat. En ik heb geen Mathematica bij de hand liggen, maar uiteindelijk is er met een paar databasequeries en een gewone spreadsheet ook redelijk wat te visualiseren.

Zoals wanneer ik dingen geschreven heb, de afgelopen tien jaar. Elk puntje is een post, de X-as geeft de jaren weer en de Y-as de uren (klik voor detail):

Screen Shot 2012-03-10 at 12.10.09.png

In 2002-2003 waren er heel veel korte postjes van een paar zinnen, vaak als ik voor de televisie hing. In 2004 heb ik een jaar in mijn trekzetel geleefd. Vanaf midden 2009 zat ik vaak in Zaventem te werken bij Sony, wat ‘s morgens anderhalf uur of meer trein en bus betekende, en dus geen internet. In 2010 ben ik in Gent komen werken, en werd mijn leven wat regelmatiger.

De horizontale strepen zijn automatische posts van links die ik verzamelde (eerst op delicious, daarna op pinboard).

[Om de grafiek te maken, trouwens, vooropgesteld dat het WordPress is dat achter uw weblog zit: in mysql select date(post_date), time(post_date) from wp_posts where post_status='publish'; doen, het resultaat daarvan in Excel plakken en een scatterplot maken met datum in X-as en tijd in Y-as.]

Met nog minder moeite is het mogelijk om te zien wanneer ik op uurbasis gemiddeld post:

Screen Shot 2012-03-10 at 13.51.27.png

[select time_format(post_date,'%H'), count(id) from wp_posts where post_status='publish' group by extract(hour from post_date);]

…of per minuut:

Screen Shot 2012-03-10 at 13.47.49.png

[select extract(hour_minute from post_date), count(id) from wp_posts where post_status='publish' group by extract(hour_minute from post_date)]

(Ik heb hierboven wel de waarden afgekapt wegens dat die automatische posten van delicieus/pinboard het anders vertekenden: )

Screen Shot 2012-03-10 at 13.59.30.png

Post ik meer tijdens de week of in het weekend? Euh nee, niet echt:

Screen Shot 2012-03-10 at 14.20.05.png

[select date_format(post_date,'%W'), count(id) from wp_posts group where post_status='publish' by date_format(post_date, '%W');]

Is er misschien een verschil in uren, afhankelijk van de dag in de week? Nee, ook niet echt heel erg duidelijk (rood is meer schrijven, groen is minder schrijven):

Screen Shot 2012-03-10 at 14.46.42.png

select date_format(post_date,'%W'), time_format(post_date,'%H'), count(id) from wp_posts group by date_format(post_date, '%W'), time_format(post_date, '%H'); en dan een pivot table maken, en conditional formatting op de cellen (en de cijfers in de cellen number formatting ” “, wat ze dus doet verdwijnen, ha!).

Of als ik toch bezig ben met van die heatmapachtige dingen: het aantal flickr-foto’s dat ik per week post? Waarmee het meteen duidelijk is dat ik sinds een tijd minder foto’s online zet, en ook dat de week met foto’s uit Marokko redelijk veruit de week met de meeste foto’s ooit was:

Screen Shot 2012-03-10 at 15.44.18.png

De cijfers hierboven zijn er van uitgaand dat ik voor zover ik weet praktisch nooit naar Flickr verwijs tenzij naar mijn eigen foto’s: select year(post_date), week(post_date), sum((length(post_content)-length(replace(post_content,'flickr.com','')))/length('flickr.com'))/2 from wp_posts where post_status='publish' group by year(post_date), week(post_date);.

En met dezelfde ruwe teltechniek: over welke kinderen spreek ik, opgeteld per maand?

Screen Shot 2012-03-10 at 16.52.40.png

Of: aantal woorden per post? (Ervan uitgaand dat er ruwweg evenveel woorden als spaties in een tekst staan.)

Screen Shot 2012-03-10 at 17.42.04.png

De puntjes zijn de individuele posts, de lichtste lijn is een gemiddelde per week, de donkere lijn een gemiddelde per maand, en de rode stippellijn het gemiddelde op jaarbasis bekeken.

Afijn ja. :)

De tools maken de man (niet) ii

dinsdag 12 december 2006 in Computers en dingen. Permanente link | 10 reacties

Ik geef het toe: ik word er een beetje kregelig van, als ik zoiets lees van “met welk programmaatje hebt gij dat gemaakt”. Dat is voor mij de andere kant van de zo mogelijk nog meer irritante vaststelling “PowerPoint zuigt”.

It’s a poor workman who blames his tools, zeggen ze, en ze hebben daar overschot van gelijk in. Een min of meer leesbare grafiek maken, heeft weinig of niets te maken met het programma waarin de grafiek gemaakt wordt.

Gegeven een lijst van gegevens in ongeveer deze vorm, die ik met een query uit de WordPress-database gegenereerd heb en dan geopend in Excel (2007, maar dat doet hier niets ter zake):

post_datepostscommentspostlengthwordslength/post
02/07/2002415361929183572686
03/07/200254410029567254754101
04/07/200264511636028866720103
05/07/2002428852096343882191

Stap één, de kolommen geselecteerd waarin ik geïnteresseerd ben en insert > line chart gedaan. Dat geeft iets in deze zin (alhoewel: ik heb hier al twee van de drie lijnen op één as gezet, en één op de andere as):

Graf5a

…en dan kan een mens zich gaan uitleven in de Mogelijkheden Van Het Programma. Zoiets bijvoorbeeld:

Graf5b

Woohoo! Groots! 3D! Spectaculair! Onleesbaar! Nutteloos!

Nee, ik ben helemaal een gelover in de Tufte School of Infographics: haal alles weg dat niet absoluut noodzakelijk is, en wees zo eerlijk als mogelijk in het voorstellen van de gegevens.

En daar heb je helemaal geen speciaal tool voor nodig, gewoon wat minimale kennis van om het even welk programma waarin je werkt. In mijn geval is dat Excel 2007, maar het had even goed een oudere versie van Excel kunnen zijn, of Illustrator, of voor mijn part Openoffice.org calc.

Stap één: overbodige kleur weghalen. In het ideale geval en als het missiekritisch is, betrouw ik niet op kleur: een redelijk percentage van de volwassen mannen zijn kleurenblind, niet iedereen heeft een kleurenprinter, kleuren hebben een intrinsieke emotionele waarde, etc., etc.

Graf5c

Hier: de achtergrond weggehaald (deed niets te zake), aantal posts en lengte per post in dezelfde kleur gezet en onderscheiden door het soort lijn (discutabel, ik weet het).

Stap twee: overbodige lijnen weghalen. Al die kaders en de lijnen op de assen, brengen die eigenlijk informatie aan? Nee, niet echt. Dus ze mogen weg. De gridlines, die brengen wel informatie aan, maar ze storen omdat ze te nadrukkelijk aanwezig zijn. Dus die mogen in een lichter grijs komen te staan.

Graf5d

Zo. De grafiek is nu wel heel erg gecomprimeerd in de breedte, dus heb ik ze nog wat uitgerekt. Eens ze uitgerekt was, heb ik de data op de Y-as anders geformatteerd (jaar maand, vertikaal ipv dag/maand/jaar, schuin), en heb ik nog vertikale gridlines toegevoegd ook, dat ik gemakelijker kan zien in welke maand iets gebeurt. En om duidelijk te maken welke lijnen op welke as gevolgd moeten worden, heb ik de labels van de assen dezelfde kleur gegeven als de lijnen.

Dat geeft dan dit:

Graf2

Graf5e

…enfin ja, om maar te zeggen: het tool maakt dus écht niet uit. Koop dit en dit en dit en ge zijt vertrokken.

Vriendjes

Zoek

<insert standard disclaimer>

Alles wat hier staat is mijn eigen opinie. Het wordt niet nagelezen of goedgekeurd door mijn werkgever voor het on-line komt, en ik bied geen enkele garantie voor kwaliteit of correctheid.

Mijn werkgever is het niet noodzakelijk eens met wat ik schrijf, en het spreekt vanzelf dat hij dan ook op geen enkele wijze aansprakelijk kan zijn voor wat ik hier publiceer.

Ter info

Eén van mijn e-mailadressen is michel [at] zog punt org. Normaal gezien antwoord ik daar, buiten de kantooruren, onmiddellijk op.

Valideert, in principe: css & xhtml.
Gemaakt met WordPress.
Syndicatie: Entries (RSS) en commentaar (RSS).



ISSN 1780-1338