Statistiek

Mijn leven hangt, denk ik wel eens, aan elkaar van spijt. Van had ik maar en was ik maar, en, wat nog veel erger is: van spijt-op-voorhand, van zou ik maar en van dingen waar in het Latijn en waarschijnlijk het Sanskriet allemaal specifieke vormen voor zijn, voltooid verleden toekomstige tijd en zo. 

Eén van die dingen is dat veel zaken die ik nu interessant vind en nu zou willen kunnen, mij in de tijd voor geen halve centimeter konden boeien. 

Dan zit ik zoals een hond op een kegelspel, een koe op een kluit, of Richard Dreyfus op een hoop aardappelpuree te kijken naar een grafiek als deze, en denk ik alsmaar this must mean something:

Statistiek

En dan weet ik wel van standaardafwijking en betrouwbaarheidinterval en normale verdelingen en percentielen en dergelijke. En dan weet ik ook dat er dingen zijn waar ik de klepel van weet hangen, maar de klok nog niet heb horen luiden. En daar lig ik ook niet zo hard wakker van: dat kan ik altijd opzoeken, als ik het nodig heb.

Maar dan zijn er nog de duizend dingen waarvan ik niet eens weet dat ik ze niet weet. De unknown unknowns, gelijk ze zeggen. En daar kan ik de muren van oplopen. Aaargh. 

Khan dan maar zeker? 

11 reacties op “Statistiek”

  1. Wat de cijfers precies zijn, maakt niet meteen uit, ‘t is gewoon het gevoel van crap. 🙂

    Maar in concreet: het gaat over aantallen (aankopen, bezoekers, totaal uitgegeven geld, whatever) die over tijd veranderen. Hier staan de gemiddelden en de medianen van een paar honderd reeksen cijfers over een gegeven tijdsperiode.

    Stel dat ik Amazon ben, en ik heb voor verschillende categorieën van boeken het totaal in euro dat er per dag van gekocht wordt, en ik wil van die totalen extrapoleren hoeveel ik er ongeveer deze week zou verkopen. Als er toevallig één science fiction-boek één dag lang gelinkt werd vanop de homepagina van Amazon, dan zal dat boek die ene dag veel (véél) meer verkopen, maar dat wil niet noodzakelijk zeggen dat dat een permanent iets is.

    Nu, “science fiction” is een zeer ruime categorie, waar de verkoopscijfers relatief stabiel zullen zijn. Wat we willen weten, is hoe volatiel de verkoopscijfers zijn voor mindere populaire categorieën. En of het structurele volatiliteit is (categorie “boeken over Albanië”) dan wel toevallige volatiliteit (categorie “categorie X”, toevallige categorie van de dag bij Amazon), of een voorspelbaar opkomende en even voorspelbaar weer weggaande opstoot, maar die geen enkel statistisch model kan voorspellen (categorie “boeken over de Ronde van Frankrijk).

    Enfin ja. 🙂

  2. Dus als k grafiek zie en uw uitleg daarnaast leg, wilt dat zeggen dat op een logaritmische schaal, vanaf het moment dat je ongeveer 10.000 boeken verkocht hebt, de schommelingen niet meer meetbaar zijn in vergelijking met de mediaan.

    Ik dacht eerst, zonder uitleg dat het zo een grafiek was die aantoonde dat je genoeg samples nodig hebt voordat de mediaan ~ gemiddelde. Maar toen viel mij op dat het gemiddelde nooit een piek naar onder kende (dus nooit onder de mediaan viel). Dus het kan niet random data zijn, er moest een reden zijn waarom de pieken altijd naar boven waren.

  3. De data is, gho ja, pseudo-random. Hangt van heel erg veel factoren af dat, hoe kleiner het getal, het meer en meer random wordt.

    Maar inderdaad: de mediaan is op een heel erg klein aantal uitzonderingen na (<0.5%) altijd kleiner dan het gemiddelde.

    Om bij die boeken te blijven: een goed verkopende categorie heeft praktisch nooit een zo grote "off-day" dat het het gemiddelde naar beneden trekt, maar hoe minder de categorie verkoopt, hoe meer het voorkomt dat er zo grote verkoopspieken zijn dat ze het gemiddelde buitensporig veel naar boven trekken.

  4. Dan zijn het ongewogen gemiddelden,veronderstel ik, om aan zo’n pieken te komen met kleine categorieën, terwijl de mediaan vlak blijft?

  5. Ja, maar alle dagen tellen even veel, ik zou niet wegen hoe er daar dan een gewogen gemiddelde van zou moeten bekeken worden.

    Een 10%-getrimd gemiddelde, denk ik, zou al veel meer zeggen. Als het om een proper symmetrisch normale verdeling zou gaan dan toch (en ik vermoed dat die grafiek hierboven zegt dat dat niet het geval is aaargh).

  6. ‘t Maakt niet veel uit, maar neem nu nog: vertikale as, gemiddelde/mediaan euro opbrengst per dag. Horizontale as: euh, niets. Gewoon: reeksen van gemiddelde opbrengsten dus, oplopend gerangschikt op mediaan.

  7. Euh nee. Echt niet. Hoedatzo?

    Als dat van die boeken niet duidelijk was: het zou ook het aantal bezoekers op een paar honderd verschillende pagina’s van een website kunnen zijn. Elk puntje op de ene lijn zou dan het gemiddelde aantal bezoekers over een periode van een paar weken of maanden kunnen zijn, en op de andere lijn is het dan de mediaan.

    Links de pagina’s (of boeken, of mp3’s, of watdanook) die weinig bezoek krijgen (gekocht worden, gedownload worden), rechts de pagina’s met veel bezoek.

Reacties zijn gesloten.