Michel Vuijlsteke's weblog

Tales of Drudgery & Boredom.

Tag: excel

Links van 7 december 2014 tot 8 december 2014

How Not to Write an API — On Coding — Medium
One common pattern I see is that most APIs have a REST or NVP based API at it’s core. Then they generally have some method if signing a request. Following that is more than 1 way to send different types of data, between JSON, XML or a file stream. But one pattern always puzzles me. The documentation on these core APIs are usually lacking. Instead, they develop SDKs for specific languages. Now, on the surface, that make sense. Let’s make it easy to use our API in your language of choice. But that idea is flawed.

Programming Modern Systems Like It Was 1984
Imagine you were a professional programmer in 1984, then you went to sleep and woke up 30 years later. How would your development habits be changed by the ubiquitous, consumer-level supercomputers of 2014?

Dementia, Alzheimers and the Wanderers
Six in 10 people with Alzheimer’s and other forms of dementia become lost at least once. Why do they wander, and how do we stop them?

[48924] Please Offer An Excel Export Option
Data is ultimately meant to be consumed by people. This may come as a shock, but most people are not computer programmers. They are not going to read your CSV with Python and process it with Pandas or Numpy. They are not versed in the libcsv API, nor do they possess ambitions to convert your CSV to JSON in order to build a web mashup. Of the grammar of graphics, they know nothing. In all likelihood they are going to open your CSV file in Microsoft Excel 2004, or if you're lucky Microsoft Excel 2007, and they are going to spend hours building pixelated pie charts, bar charts, and 3D line graphs. You might not use Excel to analyze data, but they almost certainly will. So why not accommodate their intentions as well as you can? Isn't programming fundamentally about helping users achieve their goals?

Revealed: victims of UK’s cold war torture camp | UK news | The Guardian
A few were starved or beaten to death, while British soldiers are alleged to have tortured some victims with thumb screws and shin screws recovered from a gestapo prison. The men in the photographs are not Nazis, however, but suspected communists, arrested in 1946 because they were thought to support the Soviet Union, an ally 18 months earlier.

Datum en tijd

Ik ben stekejaloers op Stephen Wolfram’s datavisualisaties. En ik had vroeger data over vanalles (muisbewgingen! toetsaanslagen! programma’s gebruikt!), maar sinds ik op allerlei verschillende computers allerlei dingen doe, is het allemaal wat verwaterd.

Mijn mail, die heb ik in principe nog tot ergens in 1994, maar waar precies de mails van 1994 tot 2004 staan: ik zou er eens heel erg hard naar moeten zoeken.

Ik kan wél gemakkelijk dingen over dit weblog te weten komen, ’t is toch altijd dat. En ik heb geen Mathematica bij de hand liggen, maar uiteindelijk is er met een paar databasequeries en een gewone spreadsheet ook redelijk wat te visualiseren.

Zoals wanneer ik dingen geschreven heb, de afgelopen tien jaar. Elk puntje is een post, de X-as geeft de jaren weer en de Y-as de uren (klik voor detail):

Screen Shot 2012-03-10 at 12.10.09.png

In 2002-2003 waren er heel veel korte postjes van een paar zinnen, vaak als ik voor de televisie hing. In 2004 heb ik een jaar in mijn trekzetel geleefd. Vanaf midden 2009 zat ik vaak in Zaventem te werken bij Sony, wat ’s morgens anderhalf uur of meer trein en bus betekende, en dus geen internet. In 2010 ben ik in Gent komen werken, en werd mijn leven wat regelmatiger.

De horizontale strepen zijn automatische posts van links die ik verzamelde (eerst op delicious, daarna op pinboard).

[Om de grafiek te maken, trouwens, vooropgesteld dat het WordPress is dat achter uw weblog zit: in mysql select date(post_date), time(post_date) from wp_posts where post_status='publish'; doen, het resultaat daarvan in Excel plakken en een scatterplot maken met datum in X-as en tijd in Y-as.]

Met nog minder moeite is het mogelijk om te zien wanneer ik op uurbasis gemiddeld post:

Screen Shot 2012-03-10 at 13.51.27.png

[select time_format(post_date,'%H'), count(id) from wp_posts where post_status='publish' group by extract(hour from post_date);]

…of per minuut:

Screen Shot 2012-03-10 at 13.47.49.png

[select extract(hour_minute from post_date), count(id) from wp_posts where post_status='publish' group by extract(hour_minute from post_date)]

(Ik heb hierboven wel de waarden afgekapt wegens dat die automatische posten van delicieus/pinboard het anders vertekenden: )

Screen Shot 2012-03-10 at 13.59.30.png

Post ik meer tijdens de week of in het weekend? Euh nee, niet echt:

Screen Shot 2012-03-10 at 14.20.05.png

[select date_format(post_date,'%W'), count(id) from wp_posts group where post_status='publish' by date_format(post_date, '%W');]

Is er misschien een verschil in uren, afhankelijk van de dag in de week? Nee, ook niet echt heel erg duidelijk (rood is meer schrijven, groen is minder schrijven):

Screen Shot 2012-03-10 at 14.46.42.png

select date_format(post_date,'%W'), time_format(post_date,'%H'), count(id) from wp_posts group by date_format(post_date, '%W'), time_format(post_date, '%H'); en dan een pivot table maken, en conditional formatting op de cellen (en de cijfers in de cellen number formatting ” “, wat ze dus doet verdwijnen, ha!).

Of als ik toch bezig ben met van die heatmapachtige dingen: het aantal flickr-foto’s dat ik per week post? Waarmee het meteen duidelijk is dat ik sinds een tijd minder foto’s online zet, en ook dat de week met foto’s uit Marokko redelijk veruit de week met de meeste foto’s ooit was:

Screen Shot 2012-03-10 at 15.44.18.png

De cijfers hierboven zijn er van uitgaand dat ik voor zover ik weet praktisch nooit naar Flickr verwijs tenzij naar mijn eigen foto’s: select year(post_date), week(post_date), sum((length(post_content)-length(replace(post_content,'flickr.com','')))/length('flickr.com'))/2 from wp_posts where post_status='publish' group by year(post_date), week(post_date);.

En met dezelfde ruwe teltechniek: over welke kinderen spreek ik, opgeteld per maand?

Screen Shot 2012-03-10 at 16.52.40.png

Of: aantal woorden per post? (Ervan uitgaand dat er ruwweg evenveel woorden als spaties in een tekst staan.)

Screen Shot 2012-03-10 at 17.42.04.png

De puntjes zijn de individuele posts, de lichtste lijn is een gemiddelde per week, de donkere lijn een gemiddelde per maand, en de rode stippellijn het gemiddelde op jaarbasis bekeken.

Afijn ja. 🙂

De tools maken de man (niet) ii

Ik geef het toe: ik word er een beetje kregelig van, als ik zoiets lees van “met welk programmaatje hebt gij dat gemaakt”. Dat is voor mij de andere kant van de zo mogelijk nog meer irritante vaststelling “PowerPoint zuigt”.

It’s a poor workman who blames his tools, zeggen ze, en ze hebben daar overschot van gelijk in. Een min of meer leesbare grafiek maken, heeft weinig of niets te maken met het programma waarin de grafiek gemaakt wordt.

Gegeven een lijst van gegevens in ongeveer deze vorm, die ik met een query uit de WordPress-database gegenereerd heb en dan geopend in Excel (2007, maar dat doet hier niets ter zake):

post_date posts comments postlength words length/post
02/07/2002 415 36 192918 35726 86
03/07/2002 544 100 295672 54754 101
04/07/2002 645 116 360288 66720 103
05/07/2002 428 85 209634 38821 91

Stap één, de kolommen geselecteerd waarin ik geïnteresseerd ben en insert > line chart gedaan. Dat geeft iets in deze zin (alhoewel: ik heb hier al twee van de drie lijnen op één as gezet, en één op de andere as):

Graf5a

…en dan kan een mens zich gaan uitleven in de Mogelijkheden Van Het Programma. Zoiets bijvoorbeeld:

Graf5b

Woohoo! Groots! 3D! Spectaculair! Onleesbaar! Nutteloos!

Nee, ik ben helemaal een gelover in de Tufte School of Infographics: haal alles weg dat niet absoluut noodzakelijk is, en wees zo eerlijk als mogelijk in het voorstellen van de gegevens.

En daar heb je helemaal geen speciaal tool voor nodig, gewoon wat minimale kennis van om het even welk programma waarin je werkt. In mijn geval is dat Excel 2007, maar het had even goed een oudere versie van Excel kunnen zijn, of Illustrator, of voor mijn part Openoffice.org calc.

Stap één: overbodige kleur weghalen. In het ideale geval en als het missiekritisch is, betrouw ik niet op kleur: een redelijk percentage van de volwassen mannen zijn kleurenblind, niet iedereen heeft een kleurenprinter, kleuren hebben een intrinsieke emotionele waarde, etc., etc.

Graf5c

Hier: de achtergrond weggehaald (deed niets te zake), aantal posts en lengte per post in dezelfde kleur gezet en onderscheiden door het soort lijn (discutabel, ik weet het).

Stap twee: overbodige lijnen weghalen. Al die kaders en de lijnen op de assen, brengen die eigenlijk informatie aan? Nee, niet echt. Dus ze mogen weg. De gridlines, die brengen wel informatie aan, maar ze storen omdat ze te nadrukkelijk aanwezig zijn. Dus die mogen in een lichter grijs komen te staan.

Graf5d

Zo. De grafiek is nu wel heel erg gecomprimeerd in de breedte, dus heb ik ze nog wat uitgerekt. Eens ze uitgerekt was, heb ik de data op de Y-as anders geformatteerd (jaar maand, vertikaal ipv dag/maand/jaar, schuin), en heb ik nog vertikale gridlines toegevoegd ook, dat ik gemakelijker kan zien in welke maand iets gebeurt. En om duidelijk te maken welke lijnen op welke as gevolgd moeten worden, heb ik de labels van de assen dezelfde kleur gegeven als de lijnen.

Dat geeft dan dit:

Graf2

Graf5e

…enfin ja, om maar te zeggen: het tool maakt dus écht niet uit. Koop dit en dit en dit en ge zijt vertrokken.

© 2017 Michel Vuijlsteke's weblog

Thema gemaakt door Anders NorenBoven ↑