Cattura e ricattura, quante platesse ci sono nel mare?

Cattura e ricattura, in inglese capture-recapture o anche capture-mark-recapture, è un metodo statistico per stimare la consistenza numerica di una popolazione sulla base di due campionamenti. Gli individui esaminati al primo campionamento vengono marcati, contati e rilasciati. Al secondo si contano quanti individui esaminati sono marcati e quanti no. Sulla base di questi due rilevamenti è possibile stimare il numero dei componenti l’intera popolazione.
Il metodo viene utilizzato sia in Biologia sia in Medicina, per stimare quanti individui ci siano o siano affetti da una determinata patologia, ad esempio il diabete.
Come funziona il metodo cattura e ricattura?

Le origini storiche del metodo cattura e ricattura

Il primo a utilizzare il metodo fu, nel 1802, Pierre Simon Laplace, quello della trasformata di Laplace, che ha deprivato del sonno intere generazioni di studenti di analisi matematica. Laplace utilizzò il metodo per stimare la popolazione della Francia, sulla base di una sua stima dei nati in Francia in un anno e dei dati di nati e residenti in alcune comunità francesi, particolarmente ordinate e accurate nella gestione amministrativa.

Per una seconda applicazione documentata bisogna attendere quasi un secolo, il 1896, quando il biologo marino danese Johannes Petersen, stimò la presenza numerica, in un determinato tratto di mare, della platessa, elemento immancabile del Fish ‘n’ Chips caro ai Britannici.

Al giorno d’oggi si utilizza il metodo sia in biologia sia in medicina. È sulla base del cattura-ricattura, ad esempio, che viene stimato il numero di animali di una determinata specie in zone parzialmente inaccessibili. Lo stesso metodo si applica per stimare la diffusione del diabete, sulla base dei dati del sistema sanitario su dimissioni, esenzioni, prescrizioni di analisi e di farmaci.

Le basi statistiche del metodo

Proviamo a ripercorrere la stima effettuata da Petersen nel 1896.
Nel tratto di mare che ci interessa ci saranno un numero di platesse N, non noto a priori. Percorriamo il tratto in questione, pescando nella rete n platesse. Le marchiamo in qualche modo indelebile e le ributtiamo in mare.
Lasciamo qualche giorno alle platesse catturate al primo giro, per riprendersi dallo spavento e tornare alla vita di tutti i giorni, ed effettuiamo un secondo giro di pesca. Questa volta cattureremo K platesse e, tra queste, ne troveremo alcune, k, marcate al primo giro.

Per ragionare sui numeri che abbiamo raccolto, occorre ipotizzare alcune condizioni ideali:

prima ipotesi: che la popolazione delle platesse in quel tratto sia chiusa, cioè che sia rimasta invariata nei giorni trascorsi tra la prima e la seconda cattura, quindi senza nascite, senza morti e senza immigrati ed emigrati;
seconda ipotesi: che gli individui abbiano una uguale probabilità di essere catturati e poi ricatturati; il criterio di cattura non deve quindi privilegiare in alcun modo particolari caratteristiche degli individui;
terza ipotesi: che la marcatura non alteri il comportamento degli individui marcati; quindi, ad esempio, che l’esperienza vissuta non li renda più guardinghi, spingendoli a evitare una successiva ricattura.

Ma allora, quante sono le platesse?

A questo punto si può ipotizzare che il campione ricatturato sia rappresentativo dell’intera popolazione. Quindi la frazione di platesse marcate rispetto all’intera popolazione (n ⁄ N) si può assumere uguale alla frazione delle platesse ricatturate che risultano marcate (k ⁄ K).
Basta allora risolvere l’equazione nell’incognita N:

N = n x K ⁄ k

Un esempio. Si supponga che al primo giro si catturino 100 platesse (n = 100), che vengono marcate e ributtate in mare con delicatezza. Al secondo giro si peschino ancora 100 platesse (K = 100) di cui 5 risultino marcate (k = 5).
La stima del numero N di platesse in quel tratto di mare è quindi:

N = 100 x 100 ⁄ 5  =  2.000

Si tratta di una stima e non di un valore esatto, evidentemente, perché si utilizza un metodo statistico. Quanto sia verosimile la stima dipende sia da quanto sono realistiche le tre assunzioni fatte, sia dal numero di individui esaminati.
Esistono raffinamenti del metodo per migliorare la verosimiglianza del risultato, anche in presenza, ad esempio, di una popolazione non chiusa, ma il metodo restituisce comunque una stima. Questo è però esattamente quanto serve, ad esempio per dimensionare in modo consapevole budget sanitari, predisporre efficaci misure di prevenzione per il diabete e misurarne l’effetto.

In rete si trovano descrizioni più rigorose del metodo. Esempi: Un’analisi del modello di cattura-ricattura, Mark-recapture.

La stima della diffusione del diabete con il metodo cattura e ricattura

In questo caso il metodo si basa sui dati raccolti dal sistema sanitario. Si utilizzano quindi dati sui ricoveri e dimissioni degli ammalati (quanti erano diabetici?), richieste di analisi specifiche (come l’emoglobina glicata), numero di pazienti con esenzione.
Si veda ad esempio lo studio del 2007 sulla Stima di prevalenza di diabete mellito in una provincia del Lazio attraverso i modelli cattura e ricattura.
Vale la pena di ricordare qui, anche se fuori tema, come la dieta sia una misura fondamentale per prevenire e controllare il diabete di tipo 2.

La cattura e ricattura in excel

Non poteva mancare il consueto esercizio con Excel (o LibreOffice Calc). Nel file, scaricabile da qui, si trova la simulazione su una popolazione di 1.000 individui, della cattura e ricattura del 5%, 10%, 15%, 20% e 25% del totale.
A decidere se un individuo venga o meno catturato o ricatturato è la funzione CASUALE() di Excel:

=SE(CASUALE()<J$2;”sì”;””)

riportata due volte (cattura e ricattura) per ciascuno dei 1.000 individui. Nella formula si assume che in J2 ci sia la percentuale del campione sul totale. Esempio: 1.000 individui, campione di 100, percentuale 10%.
A ogni modifica di una cella ripartono le 2.000 formule. Può essere noioso avere lo schermo in continuo movimento, ma è anche un modo semplice per eseguire facilmente diversi run della simulazione.
La stima della consistenza numerica si discosta dal valore di 1.000 in modo significativo e molto variabile da run a run. Ecco un esempio:

Per fare un’analisi un po’ più seria occorrerebbe eseguire almeno alcune decine di simulazioni e visualizzare quanto è variabile l’errore in funzione della dimensione del campione. Da fare appena trovo il tempo per farlo!

Foto di apertura di tommy pixel da Pixabay.