Logaritmische schaal

Graag wil ik de data rondom de corona pandemie in Nederland beter duiden. Enerzijds zijn er heel veel gegevens te vinden en nog meer discussie. Anderzijds mis ikzelf inzichten in de presentaties die ons geleverd worden door de overheid en andere media. Daarom heb ik een reeks artikelen gepubliceerd op LinkedIn onder de noemer 'R-waarde, even wat ruis van de lijn halen'. 

Deze pagina bevat een transscript van mijn eerste LinkedIn publicatie hierover. De oorspronkelijke titel daarvan is gelijk aan de boven vernoemde noemer en ging over de logaritmische weergave van gegevens die centraal staat in al mijn stukken over dit onderwerp.

De originele publicatie en mijn up-to-date voorspeller vind je hier:

Dagelijks komen er veel cijfers voorbij omtrent corona. Ook zien we veel grafieken. Vaak wordt er gewerkt met veel ruwe getallen die niet altijd even accuraat zijn. Om duidelijk beleid en trends in de gegevens te kunnen ontwaren pas ik centrale weekmiddeling toe en presenteer ik de gegevens op een logaritmische schaal. Processen die een exponentiele aard hebben van nature worden meestal inzichtelijker door ze weer te geven op zo'n schaal. Dan kan je de trend goed in beeld brengen maar tegelijkertijd ook de mate van ernst. Hieronder wordt dit gedemonstreerd aan de hand van het aantal ziekenhuisopnames:

De gele lijn zijn de cijfers zoals die via NICE via RIVM te vinden zijn op 3 januari. De blauwe lijn is een gecentraliseerd weekgemiddelde over die reeks. Door te kiezen voor een centraal gemiddelde over 7 dagen voorkom je fase verschuivingen en haal je de week gerelateerde trends uit de data. Wel raak je door deze bewerking 3 dagen aan data aan weerszijden kwijt. Tevens zijn ook de laatste 3 dagen aan ziekenhuisopnames onvolledig. Het laatste betrouwbare punt in mijn blauwe lijn was dus 27 december op 3 januari.

Verschillende knikpunten zijn zichtbaar en gelabeld met de letters A t/m G. 

  • A: Aanvankelijk kon het virus zich ongelimiteerd verspreiden. Bij knikpunt A is het effect zichtbaar van de eerste intelligente lockdown in maart. 
  • B: Knikpunt B is het gevolg van de versoepelingen van het kabinet in mei. 
  • C: Knikpunt C lijkt verband te houden met strengere reisadviezen naar het buitenland begin augustus. 
  • D: Vanaf Knikpunt D gaat het ineens weer slechter, de oorzaak moet zo rond half augustus gezocht worden. De timing van dit punt lijkt verband te houden met het einde van de vakanties, echter de knik is erg scherp terwijl het einde van de vakanties gespreid is.
  • E: duwde de R weer omlaag en is duidelijk gecorreleerd met de gedeeltelijke lockdown in oktober.
  • F: Knikpunt F was een onverwachte stijging aan het eind van november. Deze trendbreuk noopte het kabinet om verder in te grijpen.
  • G: In dit figuur net niet zichtbaar, maar uiteindelijk is het wel duidelijk geworden (zie mijn huidige waardes op de Corona Voorspeller pagina) dat inderdaad een knik zich heeft afgetekend als gevolg van de hardere lockdown eind december.


De log-schaal laat in één keer de R-waarde zien, die is namelijk direct gekoppeld aan de helling van de grafiek. Tegelijkertijd zie je aan de hoogte van de lijn om hoeveel absolute opnames het gaat, een belangrijke maat voor hoe hoog de nood voor de ziekenhuizen is. Deze informatie mist in een lineaire R-waarde grafiek. Het verschil tussen de R van het RIVM en die van mij ziet er als volgt uit: 

Deze data heb ik gebruikt: RIVM. In principe hanteer ik dezelfde methode om de R-waarde te schatten als het RIVM tot 12 juni. Helaas is hun eigen verantwoording vrij ambigue. Ze verwijzen naar Wallinga & Lipsitch, daarin worden 2 formules voor de R-waarde schatter gegeven. De ene is de lineaire Taylor expansie benadering van de ander. Ik hanteer de volgens mij completere formule: R = exp(rTc), R is de gezochte reproductie waarde, Tc is de tijdsconstante die ik overneem van het RIVM (4 dagen) en r is de helling die je afleest van de logaritmische grafiek.

Tot 12 juni baseerde het RIVM zich net als ik op de ziekenhuisopnames, daarna zijn ze daarvan afgeweken. Toch zijn er voor 12 juni ook al flinke verschillen. Het kan zijn dat een andere database die ze toen gebruikten hier debet aan is (Osiris), maar ook verschillen in details, in rekenmethode en filter settings sluit ik niet uit.

Om de R-waarde uit te rekenen is dus de helling nodig van het logaritme van het aantal ziekenhuisopnames. Om dit met voldoende nauwkeurigheid te doen gebruik ik het verschil van dag op dag. Om de ruis die dat oplevert te onderdrukken gebruik ik voor een tweede keer een centraal weekgemiddelde van de waardes. Dit geeft weer 3 dagen verlies aan data aan weerszijden. Totaal ben ik nu 10 dagen kwijt door data onvolkomenheden, noodzakelijke filters om de ruis te onderdrukken en op het bepalen van de helling zet ik ook 1 dag.

De weekgemiddeldes die ik gebruik zijn een soort zeer grof lowpass filter bewerking. Zeer strikt genomen heeft zo'n filter slechte eigenschappen bij normaal gebruik, echter zien we in de praktijk hele sterke effecten van de weekdag terugkomen zoals meer registraties op een bepaalde dag. Deze worden door deze weekmiddeling heel sterk onderdrukt. Tevens is zo'n middeling van gegevens eenvoudig te programmeren of in een spreadsheet uit te zetten zodat iedereen die dat wil mijn analyse kan repliceren.

We nemen aan (zoals het RIVM) dat maatregelen gemiddeld genomen pas 10 dagen later te zien zijn. Dit gegeven lijkt ook sterk terug te komen in de correlatie tussen maatregelen en R-waarde.

Alles bij elkaar opgeteld kunnen we met deze R-waarde schatter de gevolgen van beleid en maatregelen en ons maatschappelijke gedragen meten van 20 dagen of pakweg 3 weken terug. Persoonlijk vind ik het aantal ziekenhuisopnames de meest nauwkeurige parameter om de R-waarde mee te schatten en de meest relevante omdat deze direct iets zegt over de zorgbelasting. Deze methode gebruik ik momenteel in de voorspeller.

De overheid kijkt meer naar het aantal positieve testresultaten omdat ze daarmee een iets recenter beeld kunnen vormen, ik schat zo'n 4 tot 6 dagen eerder, echter ten koste van nauwkeurigheid en een hoop maatschappelijke discussie omdat de koppeling tussen het aantal positieve testen en de te verwachten zorgdruk niet constant is door verscheidene factoren. Persoonlijk snap ik heel goed dat ze daarnaar kijken ten behoeve van signalering.

Verder lezen

In mijn vervolg artikelen behandel ik mijn keuze voor ziekenhuisopnames als leidend voor het schatten van de R-waarde (Deel 2), hoe mijn voorspellingen werken (Deel 3), wat er gebeurd zou zijn zonder ingrijpen van de overheid (Deel 4) en hoe vaccinaties enerzijds en de opkomst van de Britse variant (B1.1.7) anderzijds voor invloed hebben (Deel 5).