Ik ben  zo ongeveer de hele dag  bezig geweest data over te zetten van een spreadsheet naar een database.

In het ideale geval is dat relatief eenvoudig werk, gewoon wat normaliseren en zo, maar dit was verre van een ideaal geval.  Om te beginnen was  de spreadsheet eigenlijk niet de brondata, maar wel een manuele kopie van de brongegevens. Manueel gekopieerd, het origineel hier en daar aangepast, de kopie hier en daar aangepast, consistentie nul.

Voornamen die achternamen worden, achternamen die plots op verschillende manieren gespeld worden, namen van  locaties en talen die op  tien verschillende manieren geschreven worden, hier en daar  HEELDER STUKKEN IN HOOFDLETTERS, dubbele records waarbij de ene een helft ingevuld is en de andere de andere helft — serieus, ik denk dat  ik alle mogelijk vuiligheid die men kan uithalen met een gegevensbestand meegemaakt heb.

En dus was het veel, zeer veel manueel werk. Hier en daar wat bijgestaan door knip- en plakwerk en scripts met Excel en Python en gerief, maar toch vooral veel manueel werk om het in een min of meer bruikbaar formaat te krijgen.

f6e58537a4c0d3da12692960a985b6f3_csi-modern-computer-csi-zoom-enhance-meme_650-488

Ik zeg wel: min of meer. Want net zoals het niet mogelijk is om CSI-gewijs uit het niets iets te maken, is het bijvoorbeeld niet mogelijk om iets te maken van een lijn waar allerlei details ingevuld staan maar stomweg geen voornaam, achternaam, geboortedatum, locatie, of contactgegevens. Al de rest staat er wel hoor, maar geen manier om te achterhalen wie het juist is, of het zou moeten zijn dat iemand nog ergens notities op papier heeft of zo.

En dat er dan iemand zich serieus zal mogen bezig houden met het allemaal uit te vlooien op correctheid — want al weet  ik van sommige dingen dat ze fout zijn, ik kan  ze bijna nooit zelf corrigeren.

Afijn. Andermaal Django to the rescue: wat een fijn frameworkje is dat toch. De mensen die met de data zullen werken, zouden er moeten content van zijn. Snel en handig en met geschiedenis bijgehouden en alles: een gerief.

 



Reacties

2 reacties op “Vuile, vuile data”

  1. Ouch, dan hoop ik stilletjes dat ze niet de mother-of-all-no-no’s hebben gedaan en een bestaande record volledig hebben aangepast met de data van iets kompleet anders…

    1. Dit zijn letterlijke dingen die in het (normaal gezien automatisch gegenereerde) ID-veld staan: “1?”, “288? denken we”. 😀