Hola a todos y a todas,
como llevamos unas semanas con la turra de los tests en las noticias, que si homologados, que si no homologados, que si rapidos, que si lentos... Hoy vengo a explicar algunos conceptos basicos que nos ayudaran a entender un poquito mejor (incluso, con esfuerzo, mejor que algunos medicos) como se relaciona el diagnostico medico con la teoria de la probabilidad. Mi objetivo es que, si leeis el post completo, podais entender que el concepto "test fiable" es falaz de manera individual, y que en realidad dicha fiabilidad tiene que estar sujeta a unas condiciones que han de acompanyar dicha declaracion. Por ejemplo, "el test es fiable si asumimos X, bajo condiciones Y" podria ser una afirmacion correcta una vez inspeccionamos X e Y.
Bien, comencemos. Lo primero que tenemos que entender es el teorema de Bayes. Dicho teorema dice, grosso modo, que la probabilidad de que un evento A ocurra dado a un evento B -escrito P(A|B)- depende de: la probabilidad de que ocurra A -P(A)-, la probabilidad de que ocurra B -P(B)-, y de la probabilidad de que ocurra B dado A -P(B|A)-. Escrito de la siguiente manera:
P(A|B) = P(A) * P(B|A) / P(B).
Esto es un poco lioso por ahora, pero es necesario introducirlo. Luego le pondre nombre a cada termino y lo entenderemos mucho mejor. De donde viene todo esto? Bien, si nos imaginamos estos dos eventos, A y B, en un diagrama de Venn como el siguiente:
Si entendemos las areas como probabilidades, el area con lineas negras representa la probabilidad de que A y B ocurran a la vez. Esto se escribe P(A∩B). Y se puede calcular como:
P(A∩B) = P(A) * P(B|A),
leido como 'la probabilidad de que ocurra A multiplicada por la probabilidad de que ocurra B dado A' (tiene sentido si lo leemos varias veces). Esto es la probabilidad de que A y B ocurran a la vez, recalco. Pero esto se puede leer al reves. Es 'la probabilidad de que ocurra B multiplicada por la probabilidad de que ocurra A dado B'. O bien podemos escribir:
P(A∩B) = P(B) * P(A|B).
Si igualamos las dos ecuaciones anteriores (las dos representan lo mismo, la probabilidad de que ocurran ambos eventos a la vez), podemos escribir:
P(B) * P(A|B) = P(A) * P(B|A).
Y despejando uno de los dos condicionales podemos llegar al teorema de Bayes inicial:
P(A|B) = P(A) * P(B|A) / P(B).
Bien, una vez tenemos claro que el teorema de Bayes no es arte de magia, si no mas bien logica (algunos me mataran por esto), que demonios tiene todo esto que ver con los tests?
Pues muy sencillo. Nosotros asociamos la efectividad de los tests a que dos eventos ocurran a la vez, y estos eventos son: infectado y positivo, o no infectado y negativo.
Es decir, se dice que un test "dice la verdad" cuando el resultado que muestra es positivo con pacientes infectados, y el resultado es negativo con pacientes sanos.
Hasta aqui espero que todo bien, aunque quiza todavia te estes preguntando que tiene que ver el teorema de Bayes en todo esto. Bien.
Vamos a cambiarle el nombre a los eventos. Vamos a cambiar A por "infectado", y B por "positivo".
P(infectado|positivo) = P(infectado) * P(positivo|infectado) / P(positivo).
Vamos a ignorar P(positivo) por ahora porque no tiene demasiada relevancia para lo que quiero explicar. Por lo tanto:
P(infectado|positivo) = P(infectado) * P(positivo|infectado)
Resulta que P(positivo|infectado) es lo que se llama "sensitividad" del test. Esto es la probabilidad que tiene el test de devolver un positivo cuando se le realiza a una persona infectada. Es la probabilidad de que el test detecte el virus. Pero recordemos que es algo muy diferente a la probabilidad de que la persona este infectada cuando el test dice positivo. Esto otro es lo que tenemos al otro lado de la ecuacion: P(infectado|positivo). Y depende de otro factor.
Aha, estamos llegando a la conclusion.
Resulta que la probabilidad de que una persona este infectada, dado que el test ha devuelto positivo, depende tambien de la probabilidad de que esa persona este infectada: P(infectado). Este termino se conoce como prevalencia, y es la clave de todo. Esto representa los X e Y que comentaba al principio.
La prevalencia es un factor MUY dificil de conocer y que vamos a asumir en la mayoria de ocasiones. En un hospital colapsado, con personas con los mismos sintomas, podemos asumir que la prevalencia es alta, y por lo tanto los tests generalmente devolveran una respuesta correcta.
Ahora bien, hacer tests aleatorios en comunidades donde la prevalencia es desconocida (por ejemplo a todo un pais), es un error y no va a devolver numeros fiables. Para muestra un ejemplo (no es importante que sepais los aspectos tecnicos de los terminos que voy a escribir):
Vamos a suponer que se trata de un test "muy muy fiable": sensitividad 95%, especificidad 95%.
Ahora vamos a suponer dos escenarios: hospital con prevalencia del 50%, y Espanya con prevalencia 5%.
Si hacemos los numeros, en el hospital la probabilidad de que una persona este infectada dado que el test ha salido positivo es del 95%, mientras que en el caso de Espanya, la probabilidad es de aproximadamente el 48% -casi como echar una moneda al aire-.
Esta discrepancia en la "efectividad" de los tests de debe unicamente a que se han aplicado en entornos distintos, con suposiciones distintas, y condiciones distintas. Incluso tratandose de un test que a todas vistas cualquiera diria que es suuuuuuuuper fiable, resulta que su fiabilidad no es tal en determinadas ocasiones.
Asi que, amigos y amigas, cuando alguien os diga que un test es "fiable, homologado, y con todas las garantias", preguntadle cual es su a priori
Un abrazo.
PD: Se me olvidaba recalcar que con esto se demuestra que los tests no son los salvadores, y tener 627478264 tests no va a mejorar demasiado la situación. Tampoco está claro que vayan a servir para ir quitando gente de cuarentena progresivamente (estamos trabajando en un paper sobre esto, quizá lo tengamos esta semana).