A menudo, los desarrolladores de herramientas de evaluación de riesgos (RAT) describen herramientas como recientemente o localmente "validadas", con la esperanza de que esto indique la precisión científica para aquellos que podrían adoptar una herramienta. Pero, ¿qué es la validación? Validación significa determinar estadísticamente qué tan bien una RAT mide lo que está diseñado y calibrado para medir.

Como explican los investigadores Sarah Desmarais y Evan Lowder, "para que las herramientas de evaluación de riesgos previas al juicio se consideren" válidas ", deben poder estimar la probabilidad de que no aparezcan y / o la detención preventiva previa a tasas estadísticamente significativas y políticamente aceptables".1Sarah L Desmarais y Evan M Lowder: Herramientas de evaluación de riesgos previos al juicio: un manual para jueces, fiscales y abogados defensores, Reto de seguridad y justicia de la Fundación MacArthur

Utilizando datos anteriores sobre personas reales que quedaron atrapadas en el sistema legal penal, los investigadores aplican la RAT a casos en los que ya saben si alguien fue arrestado nuevamente o no acudió a los tribunales después de la liberación previa al juicio. Luego pueden comparar lo que predice la RAT que sucedería con lo que realmente sucedió..2Sandra G Mayson: Acusados ​​peligrosos, Revista de derecho de Yale

Sin embargo, los estudios de validación no consideran a las personas que nunca fueron liberadas antes del juicio, lo que limita la "validez" de las estadísticas de validación.

Explore cómo los diseñadores intentan determinar la "precisión" de una RAT con esto herramienta interactiva de MIT Technology Review.3Karen Hao y Jonathan Stray: ¿Puedes hacer que la IA sea más justa que un juez? Juega nuestro juego de algoritmos de sala, MIT Technology Review

La validación de RAT previas al juicio no tiene una definición estandarizada en diferentes jurisdicciones.4Cynthia A. Mamalian: Estado de la ciencia de la evaluación del riesgo preventivo, Instituto de justicia preventiva Diferentes jurisdicciones han validado sus herramientas de diferentes maneras, algunas internamente y otras con un investigador externo independiente.

Además, el hecho de que una herramienta esté validada no significa que sea perfectamente precisa o transparente sobre cómo funciona, o que esté calibrada para una comunidad local.5Brandon Buskey y Andrea Woods: Dar sentido a las evaluaciones de riesgo previas al juicio, El campeón

La Análisis de las prácticas preventivas de 2019 del Instituto de Justicia Pretrial6Instituto de justicia previa al juicio: Escaneo de prácticas previas al juicio (2019) El informe encontró que solo el 45% de las jurisdicciones que encuestaron tenían estudios de validación.

En nuestra investigación, la mayoría de los estudios de validación no fueron realizados por un investigador independiente o externo. Muchas jurisdicciones están utilizando herramientas que no se han validado con su población local o no se han validado en absoluto.

El gráfico a continuación muestra con qué frecuencia la jurisdicción que entrevistamos había sido validada localmente.

Movimiento Alianza Proyecto generado en base a entrevistas.
Número total de jurisdicciones con información de validación = 33

¿Cómo funciona la validación?

Los informes de validación documentan la relación entre los resultados de la evaluación y los resultados reales para los grupos. Al igual que los algoritmos, los informes de validación se realizan en conjunto, no para individuos específicos.

Medida de estudios de validación Validez predictiva. Ayudan a determinar si las RAT previas al juicio predicen con precisión si el resultado para una persona en el conjunto del estudio sería el mismo para la persona acusada que la RAT juzga hoy.

Una forma estadística común de medir la precisión y la validez predictiva es a través del "área bajo la curva" o AUC. Se supone que el puntaje AUC muestra qué tan bien la herramienta equilibra sus predicciones correctas e incorrectas: con qué frecuencia responde correctamente la pregunta en cuestión (como cuán "arriesgado" es alguien) y con qué frecuencia se equivoca la predicción.

Cuanto más cercano sea un puntaje de AUC a 1, más precisa se dice que es una herramienta. Un puntaje de AUC de 0.5 no es mejor que la posibilidad de predecir el riesgo7Pamela M Casey, Jennifer K Elek, Roger K Warren, Fred Cheesman, Matt Kleiman y Brian Ostrom: Instrumentos de evaluación de riesgos y necesidades de delincuentes: una cartilla para tribunales, Centro Nacional de Tribunales Estatales: un disparo 50/50.

Algunas RAT tienen puntajes de AUC tan bajos como 0.55, apenas más precisos que la probabilidad aleatoria o el lanzamiento de una moneda. Varias herramientas comunes tienen puntajes de alrededor de 0.65, lo que se considera "bueno" en la investigación criminológica.8Sarah L Desmarais y Jay P Singh: Instrumentos de evaluación de riesgos validados e implementados en entornos correccionales en los Estados Unidos, Centro de Justicia del Consejo de Gobiernos Estatales pero "pobre" en otros campos9Saeed Safari, Alireza Baratloo, Mohamed Elfil y Ahmed Negida: Medicina de emergencia basada en evidencia; Parte 5 Curva de funcionamiento del receptor y área debajo de la curva, EMERGENCIA; un puntaje de 0.65 significa que más de un tercio de los juzgados por estas herramientas están mal etiquetados.

Y a diferencia de muchos otros campos, existe una falta de evaluación independiente de estos estudios de validación, lo que limita severamente cualquier afirmación de que las RAT previas al juicio son realmente predictivas.10Sarah L Desmarais y Evan M Lowder: Herramientas de evaluación de riesgos previos al juicio: un manual para jueces, fiscales y abogados defensores, Reto de seguridad y justicia de la Fundación MacArthur

Sarah Desmarais y Evan Lowder señalan que "demostrar validez predictiva no equivale a investigación que demuestre éxito en la implementación".11Sarah L Desmarais y Evan M Lowder: Herramientas de evaluación de riesgos previos al juicio: un manual para jueces, fiscales y abogados defensores, Reto de seguridad y justicia de la Fundación MacArthur Incluso si una herramienta se considera altamente "precisa" según estos estándares, no significa que las RAT se estén implementando según lo previsto o de una manera descarcelar o racialmente imparcial. Las predicciones que hacen no siempre son precisas, no siempre se escuchan, incluso si son precisas, y se aplican de manera inconsistente y de formas estructuralmente racistas.