R-waarde Schatten

Graag wil ik de data rondom de corona pandemie in Nederland beter duiden. Enerzijds zijn er heel veel gegevens te vinden en nog meer discussie. Anderzijds mis ikzelf inzichten in de presentaties die ons geleverd worden door de overheid en andere media. Daarom heb ik een reeks artikelen gepubliceerd op LinkedIn onder de noemer 'R-waarde, even wat ruis van de lijn halen'. 

Deze pagina bevat een transscript van mijn tweede LinkedIn publicatie hierover. De oorspronkelijke titel daarvan was 'R-waarde, even wat ruis van de lijn halen - Deel 2, welke R is beter?' en ging over de keuze om het aantal ziekenhuisopnames als leidend te nemen en hoe dit zich verhoudt tot andere parameters om de R-waarde mee te schatten.


De originele publicatie en mijn up-to-date voorspeller vind je hier:

In dit tweede deel behandel ik mijn keuze voor ziekenhuisopnames als leidend voor het schatten van de R-waarde en laat ook zien hoe andere parameters zich verhouden tot deze R-waarde en die van het RIVM.


Waarom gebruik ik normaliter het aantal ziekenhuis opnames om de R-waarde te bepalen? Om die vraag te beantwoorden doen we eerst even een stap terug in definitie; er bestaat een feitelijke R-waarde. Dit is de zogenaamde ware R-waarde. Deze werkelijke verspreiding van het virus is alleen niet te meten, we kunnen enkel een inschatting maken aan de hand van parameters die iets met de R-waarde te maken hebben.


Vergelijk het met een krachtsensor. De werkelijke krachten tussen alle moleculen meten in eens sensor zijn niet te meten, maar met een strategisch geplaatst rekstrookje waarvan wel de elektrische weerstand bekend is kan de kracht in de sensor afgeleid worden, met enige onzekerheid weliswaar.


Het aantal ziekenhuis opnames, het aantal IC opnames, het aantal overlijdens, het aantal positieve tests en het percentage positieve tests zijn in feite analoog aan verschillende rekstrookjes op een krachtsensor. Door hun verschillende plaatsing hebben ze net allemaal een wat andere uitslag. Maar tot op zekere hoogte zouden al deze verschillende manieren van meten dezelfde waarneming moeten opleveren, onder voorbehoud van onzekerheidsmarges en systematische afwijkingen, e.g. behandelmethodes die verbeteren. 

De 5 voornoemde parameters die gebruikt kunnen worden om de R-waarde te schatten staan hier bij elkaar in een logaritmische grafiek zoals uitgelegd in het vorige Deel 1. Ik gebruik nu bewust het woord ‘schatten’ om te duiden dat we met onzekerheidsmarges van doen hebben.

In dit figuur zal gelijk opvallen dat alle 5 de parameters zeer vergelijkbare trends opleveren. Het knikpunt van de eerste lockdown in maart, het opheffen van die eerste lockdown en alle andere knikpunten die ik in Deel 1 had beschreven kan je herkennen. Daarbij treden in de basis twee verschuivingen op.

Een verticale verschuiving als de aantallen verhoudingsgewijs verschillen; er worden veel meer mensen positief getest dan dat er opgenomen worden in het ziekenhuis, dus de lijn ligt hoger. Omdat de verhouding redelijk constant is de verschuiving in hoogte op een logaritmische schaal een vrij constante waarde.


Een horizontale verschuiving treedt op als gevolg van faseverschillen. De trend in overlijdens is duidelijk de laatste van allemaal, de trend in aantal positieve tests is nipt het eerste.


Vaak betekenen hogere aantallen een betere nauwkeurigheid. Ruis in het eindresultaat is vaak een teken van een slechte nauwkeurigheid door variabiliteit tussen opeenvolgende punten die dominant wordt. Het aantal ziekenhuis opnames is zo laag rond juli dat de R-waarde in die maanden meer ruis vertoont dan anders. Dit geldt voor de R-waarde verkregen uit IC opnames en overlijdens nog sterker. Toch koos ik in Deel 1 het aantal ziekenhuisopnames en niet het aantal of percentage positieve tests om de R-waarde mee te schatten. Het percentage is trouwens een laag getal in deze grafiek, maar is gebaseerd op het delen van twee zeer grote getallen; positieve tests gedeeld door tests met een bekende uitslag en daarom is levert dat wel een lage maar gladde lijn.


Waarom koos ik dan niet voor aantallen of percentage positieve tests als de ruis (en dus de onnauwkeurigheid) beter is? Dat komt door systematische onzekerheden. Die worden vaak aangehaald in discussies. Wie laat zich testen, wie mag er testen (de eerste 4 maanden wijken flink af door beleidswijzigingen), wat doen de kerstdagen met de opkomst? Allemaal onbekende zaken die ook lastig in te schatten zijn voor mij, maar ook voor het RIVM.


Een wat persoonlijker argument om het bij ziekenhuisopnames te houden is dat het mij persoonlijk weinig uitmaakt hoeveel mensen het virus hebben, het maakt vooral uit hoeveel mensen naar het ziekenhuis moeten en naar de IC. Hoe zwaar is de belasting voor ons zorgsysteem vooral? Deze getallen, mits goed geanalyseerd, geven een goed beeld van de belasting aan de poort van de zorg in de zeer nabije toekomst.


Het aantal ziekenhuis opnames valt zodanig te bewerken, ook in de maanden met zeer weinig opnames, dat er wat mij betreft een prima R-waarde uit komt en is om de genoemde redenen dus mijn voorkeurs parameter om R-waarde te schatten. Echter loopt deze wel achter t.o.v. R-waarde schatters gebaseerd op positieve testresultaten. Het RIVM heeft er rond 12 juni voor gekozen om niet langer naar het aantal ziekenhuisopnames te kijken. Mijn vermoeden is dat hun keuze voor de filtering verkeerd was, wellicht (even heel technisch) werd er een filter met oneindige responsie gebruikt. Als je hele grote waardes hebt (de piek in maart), dan kunnen er artefacten verderop in de tijd ontstaan. Bij een verkeerde keuze van het filter en domein krijg je dan een soort van Gibbsverschijnsel. Deze artefacten vermoed ik te zien in de RIVM R-waarde slingers eind mei/begin juni. Om dit te voorkomen gebruik ik een zeer grove weekmiddeling en pas deze een tweede keer toe in het log domein. Niet mooi, wel praktisch.

Alle R-waarde schatters die ik via mijn methodiek kan uitrekenen en die van het RIVM staan hier bij elkaar geplaatst. De pasteltinten pas ik toe om de donkere R-waarde gebaseerd op ziekenhuisopnames duidelijk naar voren te laten springen. Deze benaderd naar mijn mening de werkelijke R-waarde het beste en is een van de meer relevantere schatters. De juiste tijdsverschuiving bepalen is niet triviaal. Mijn manier van verschuiven is in principe dat de belangrijkste kenmerken van alle R-schatters op elkaar liggen in de tijd en dat de knikpunten in het log figuur goed correleren met maatschappelijke veranderingen zoals de lockdown of het opheffen daarvan.

De R-waarde gebaseerd op ziekenhuisopnames neem ik weer als leidend. Deze geeft volgens mij bij benadering de R-waarde weer 10 dagen van te voren zoals in Deel 1 aangegeven. Een beetje verbazend, maar voor IC opnames geldt hetzelfde faseverschil. Daarbij lijkt de IC bezetting waardes via een iets andere weg tot stand te komen en iets meer up to date te zijn, zie NICE. Deze R-waarde schatter biedt daardoor 2 dagen recentere informatie, maar bevat veel meer ruis. Hoe dan ook vertellen beide R-waarde schatters hetzelfde verhaal, medio december zakt de R-waarde net naar rond de 1.00-1.01. Precies rond de lockdown.


De R-waarde gebaseerd op het aantal positieve tests lijkt een vertraging van 5 dagen te hebben. Deze data van RIVM gebruik ik. Die van het percentage positieve tests lijkt 7 dagen vertraagd, bron RIVM. De R-waarde gebaseerd op totaal aantal positieve tests geeft het meest positieve beeld en loopt opvallend gelijk met die van het RIVM, dit geeft duidelijk aan dat het RIVM ook vooral naar het totale aantal positieve testresultaten kijkt. Het RIVM meld een R-waarde van 0.91 rond 18 december net na de hardere lockdown. Mijn methodiek gaat daar in mee, doet er nog een schepje onder en lijkt te stabiliseren rond 0.90 rond 22 december in dit figuur. (Noot: dit artikel is wat ouder, kijk voor de meest recente data naar mijn Corona Voorspeller pagina). 


De R-waarde gebaseerd op overlijdens komt uit dezelfde bron als het totaal aantal positieve tests. Deze heb ik gesteld op 16 dagen vertraagd, maar dat mag je met een flinke korrel zout nemen.

Over het algemeen vind ik de R-waarde gebaseerd op het percentage positieve tests een wat gedempte weergave van wat ik denk dat de werkelijkheid had moeten zijn (R-waarde gebaseerd op ziekenhuisopnames). Ten tijde van het herschreven van deze tekst voor deze webpagina (16 jan) lijkt het absoluut zo te zijn dat alle parameters een R-waarde aangeven van 0.90-0.92 en dat de R-waarde gebaseerd op het percentage positief blijft steken rond 0.96. Dit is ook te zien in de logaritmische weergave van mijn Corona Voorspeller pagina.


Voor niet vermelde bronnen zie Deel 1, maar alles is te vinden via het Corona Dashboard van de overheid.

Verder lezen

In mijn vervolg artikelen behandel ik hoe mijn voorspellingen werken (Deel 3), wat er gebeurd zou zijn zonder ingrijpen van de overheid (Deel 4) en hoe vaccinaties enerzijds en de opkomst van de Britse variant (B1.1.7) anderzijds voor invloed hebben (Deel 5).