Ik ben zo ongeveer de hele dag bezig geweest data over te zetten van een spreadsheet naar een database.

In het ideale geval is dat relatief eenvoudig werk, gewoon wat normaliseren en zo, maar dit was verre van een ideaal geval. Om te beginnen was de spreadsheet eigenlijk niet de brondata, maar wel een manuele kopie van de brongegevens. Manueel gekopieerd, het origineel hier en daar aangepast, de kopie hier en daar aangepast, consistentie nul.

Voornamen die achternamen worden, achternamen die plots op verschillende manieren gespeld worden, namen van locaties en talen die op tien verschillende manieren geschreven worden, hier en daar HEELDER STUKKEN IN HOOFDLETTERS, dubbele records waarbij de ene een helft ingevuld is en de andere de andere helft — serieus, ik denk dat ik alle mogelijk vuiligheid die men kan uithalen met een gegevensbestand meegemaakt heb.

En dus was het veel, zeer veel manueel werk. Hier en daar wat bijgestaan door knip- en plakwerk en scripts met Excel en Python en gerief, maar toch vooral veel manueel werk om het in een min of meer bruikbaar formaat te krijgen.

f6e58537a4c0d3da12692960a985b6f3_csi-modern-computer-csi-zoom-enhance-meme_650-488

Ik zeg wel: min of meer. Want net zoals het niet mogelijk is om CSI-gewijs uit het niets iets te maken, is het bijvoorbeeld niet mogelijk om iets te maken van een lijn waar allerlei details ingevuld staan maar stomweg geen voornaam, achternaam, geboortedatum, locatie, of contactgegevens. Al de rest staat er wel hoor, maar geen manier om te achterhalen wie het juist is, of het zou moeten zijn dat iemand nog ergens notities op papier heeft of zo.

En dat er dan iemand zich serieus zal mogen bezig houden met het allemaal uit te vlooien op correctheid — want al weet ik van sommige dingen dat ze fout zijn, ik kan ze bijna nooit zelf corrigeren.

Afijn. Andermaal Django to the rescue: wat een fijn frameworkje is dat toch. De mensen die met de data zullen werken, zouden er moeten content van zijn. Snel en handig en met geschiedenis bijgehouden en alles: een gerief.

 



Reacties

2 reacties op “Vuile, vuile data”

  1. Ouch, dan hoop ik stilletjes dat ze niet de mother-of-all-no-no’s hebben gedaan en een bestaande record volledig hebben aangepast met de data van iets kompleet anders…

    1. Dit zijn letterlijke dingen die in het (normaal gezien automatisch gegenereerde) ID-veld staan: “1?”, “288? denken we”. 😀