Dus.

Stel, meneer A komt op 15 december 2010 voor het eerst naar een website. Hij bezoekt er pagina’s a, b, c, d, terug naar c, terug naar b, en dan naar e.

Op 3 januari 2011 komt hij terug, bekijkt hij a, b, c, f, g. Op 10 januari nog eens, daar gaat hij van g naar c, herlaadt hij c, naar d, naar h. Op 14 januari kijkt hij ‘s morgens om 8u naar a. En dan opnieuw om 9u15. En om 9u30.

Ik kan me inbeelden dat er voor de website-eigenaar een aantal verschillende gegevens interessant zouden kunnen zijn:

  • Het duidelijkst van al: het aantal bekeken pagina’s. Iemand die een pagina bekijkt en daarna opnieuw, dat is twee bekeken pagina’s, ongeacht hoeveel tijd er tussen die twee keer zit, een kwartier of een maand.  In het voorbeeld hierboven: 19 bekeken pagina’s.
  • Iets minder voor de hand liggend: het aantal uniek geziene pagina’s. Ik kan me inbeelden dat alle bezoeken naar pagina a van 14 januari als één uniek geziene pagina tellen. Misschien dat “unieke pagina’s” wel zouden moeten rekening houden met de inhoud van de pagina’s? Dat als pagina a niet veranderd is van inhoud in de loop van 14 januari, dat alle views van van meneer A tellen als één unieke geziene pagina? In het voorbeeld hierboven, ervan uitgaand dat pagina’s niet meer dan eens per dag van inhoud veranderen: 14 uniek bekeken pagina’s.
  • Nog minder voor de hand liggend: aantal bezoeken. Wat telt als “een bezoek”? Google zegt, min of meer arbitrair, dat na een half uur niets doen, een bezoek als een nieuw bezoek telt. dat had even goed een kwartier kunnen zijn, of een uur, eigenlijk, vermoed ik, maar een half uur lijkt wel degelijk. In het voorbeeld hierboven: 4 bezoeken. Dat geeft de 14de januari dus meer bezoeken dan uniek geziene pagina’s.
  • En dan is er nog het aantal bezoekers. Ha. Niet eenvoudig, want in het hoofd is dat redelijk duidelijk (“euh ja, gewoon, het aantal verschillende mensen die komen kijken hé”), maar voor de computer is dat absoluut niet evident. In het voorbeeld hierboven heeft de website van december tot januari natuurlijk welgeteld één bezoeker, maar hoe kan een computer zeker weten dat het bezoek op 14 januari door dezelfde mens gedaan werd als dat van 15 december? Om maar iets te zeggen: als die meneer op een andere computer zit of verschillende browsers gebruikt, is het meteen einde verhaal. Tenzij het gaat om mensen die ergens inloggen met een naam en wachtwoord of zo — tenzij die logingegevens gedeeld worden, natuurlijk.
    En dus wordt er met vooronderstellingen gewerkt: als er een cookie staat, als een min of meer unieke combinatie van bezoek + computereigenschappen (OS, browser, plugins, geïnstalleerde fonts, locatie) gezien wordt, dán spreken we van één bezoeker. Maar omdat de computer niet alle gegevens van iedereen eeuwigdurend kan bijhouden, wordt er gewerkt met aantal bezoekers per periode — in het voorbeeld heb ik op vier verschillende dagen telkens één bezoeker per dag. En heb ik, tegelijkertijd, één bezoeker per maand van december tot en met januari. (En zou ik, met wat slechte wil, tot 19 verschillende bezoekers kunnen raken, gewoon door bij elke pagina mijn cookies te wissen).
    Dus, afhankelijk van hoe lang de computer dingen bijhoudt, heb ik 1, 2 of 4 “bezoekers”. Ahem.
  • En om te besluiten, bijna volledig voodoo: aantal unieke bezoekers. Google Analytics spreekt van “absolute unique visitors” om er een soort air van authoriteit aan te geven, maar het gaan eigenlijk om hetzelfde probleem als bij het berekenen van het “gewoon” aantal bezoekers. Net zoals één echte bezoeker kan tellen voor 1, 2, 4 of 19 “bezoekers” afhankelijk van hoe ruim de computer het venster maakt en hoe slecht mijn slechte wil, gaat precies hetzelfde op voor het aantal unieke bezoekers. Als de computer een cookie zet die twee jaar lang meegaat, zoals Google doet, dan kan dat venster wat groter zijn en is het wellicht wat dichter in de buurt dan als de computer telt per dag.

…maar het is dus absoluut niet zo evident.

Hoe rapporteren analytics-paketten dat? Misschien niet verwonderlijk, maar het varieert nogal. Ik heb bij wijze van test een paar verschillende dingen naast elkaar laten draaien, en de resultaten zijn, euh, weird.

De terminologie verschilt, maar de twee cijfers die meestal terugkomen, zijn iets met “totaal aantal dinges” en een ander met “uniek aantal dinges”. Voor één en dezelfde site, over een periode van een week, en teruggebracht op 100, kreeg ik van de verschillende paketten voor de totalen:

  • 100 “total visits”
  • 93 “impressions”
  • 91 “views”
  • 83 “pageviews”
  • 60 “visits”

En kreeg ik voor de unieke:

  • 100 “contacts”
  • 92 “visits”
  • 91 “unique visits”
  • 77 “absolute unique visitors”
  • 60 “uniques”

Ja, dat loopt redelijk uiteen. Om het zacht te zeggen. En het is absoluut niet altijd even duidelijk welke term op wat precies slaat.

(Onderzoek wijst trouwens, geheel terzijde, uit dat de plaats op de pagina waar het ding staat dat de analytics doet, ook een erg een groot verschil geeft: hetzelfde pakket bovenaan de pagina aangeroepen kan gemakkelijk 10% meer watdanooks geven dan als het onderaan de pagina aangeroepen wordt.)

Oh, en is dat het enige? Wel, neen.

Bij ons op het werk is het nog wat moeilijker. Daar komt er nog een dimensie bij. Stel, in het voorbeeld, dat er advertenties op de pagina’s staan. Op pagina a staat een leaderboard en een IMU en een skyscraper, op pagina’s b en c staat er een leaderboard en een skyscraper, op de rest staat er enkel een leaderboard.

Als ik wil zeggen aan een adverteerder hoeveel mensen zijn advertentie gezien hebben, welk cijfer moet ik dan zeggen? Ah. Wát was nu weer precies “een bezoeker”? Voor hoeveel “mensen” telt meneer A uit het voorbeeld hierboven?

Daaraan verwant: een vaak voorkomende vorm van advertenties bestellen is met een frequency cap, ‘t is te zeggen, “toon deze advertentie maximaal x keer aan een bezoeker”. Ah. Aan unieke bezoekers? Echt reëel unieke bezoekers kan een computer niet weten, dus wat doen we dan? Met een frequency cap van 1, mag meneer A die reclame dan één keer per dag zien? Ah neen. Is één keer per maand verschoonbaar? Neen? Eén keer over de hele loop van van de campagne, zelfs als die drie maand loop? Oooo-kaaayyy… gesteld dat hij altijd vanop één computer komt bezoeken, zonder cookies te verversen, met telkens dezelfde browser, bedoelt u dus?

Gnn.

Want ik zeg nu “advertenties”, om het eenvoudig te houden, maar het zou even goed om het even welke relevante inhoud kunnen zijn. Die, ah, eigenlijk, helemaal niet aan verouderde concepten als “pagina’s” gebonden hoeft te zijn. Want wat is dat eigenlijk, een “pagina”, als ik naar een site ga die voor een groot deel voor mij persoonlijk gepersonaliseerd is, waarvan de inhoud wijzigt terwijl ik er sta naar te kijken, zelfs als ik geen muis of keyboard aanraak?

En hoe relevant is een “pagina” als stukken inhoud op verschillende plaatsen terugkomen, op verschillende websites zelfs?

Om maar te zeggen dat het niet zo simpel is om zelfs maar achteraf gegevens te gaan achterhalen.

En vandaag heb ik me bezig gehouden met te zien hoe dat allemaal zit met voorspellingen. Met profielen. In allerlei dimensies. En met allemaal combinaties van vanalles (ik wil alle reclameruimte op die en die plaats vol zetten met mijn dingen! ik wil aan een bezoeker eerst banner A tonen, en dan B, en dan C! ik wil alleen mijn banner tonen als er geen enkele andere staat!).

Ayup.

Pas op, niet dat het verschrikkelijk moeilijk is per se, eens men het door heeft. ‘t Is maar dat het moet aanschouwelijk voorgesteld worden, voor mensen die in geen honderd jaar de moeite gaan doen om er een studie van te ondernemen. Die gewoon een A4 willen zien waarop relevante cijfers staan. Proper gepresenteerd, als het even kan. En vooral begrijpbaar.

Zeg nu zelf: is dat geen leutig werk?