Cómo los datos del censo ponen en riesgo a los niños trans

Cómo los datos del censo ponen en riesgo a los niños trans

Cada década, la Oficina del Censo de EE. UU. cuenta a las personas en los Estados Unidos, tratando de observar el equilibrio entre recopilar información precisa y proteger la privacidad de las personas descritas en esos datos. Pero la tecnología actual puede revelar la identidad transgénero de una persona al vincular información aparentemente anónima, como su vecindario y edad, para descubrir que su sexo se informó de manera diferente en censos sucesivos. La capacidad de eliminar el anonimato de género y otros datos podría significar un desastre para las personas trans y las familias que viven en estados que buscan criminalizarlos.

En lugares como Texas, donde las familias que buscan atención médica para niños trans pueden ser acusadas de abuso infantil, el estado necesitaría saber qué adolescentes son trans para llevar a cabo sus investigaciones. Nos preocupaba que los datos del censo pudieran usarse para facilitar este tipo de investigación y castigo. ¿Podría explotarse una debilidad en la forma en que se anonimizan los conjuntos de datos publicados públicamente para encontrar niños trans y castigarlos a ellos y a sus familias? Esta es una preocupación similar que subrayó la protesta pública en 2018 por el censo que pedía a las personas que revelaran su ciudadanía: que los datos se usarían para encontrar personas que viven ilegalmente en los EE. UU. para castigarlos.

Usando nuestra experiencia en ciencia de datos y ética de datos, tomamos datos simulados diseñados para imitar los conjuntos de datos que la Oficina del Censo publica públicamente e intentamos volver a identificar a los adolescentes trans, o al menos determinar dónde podrían vivir y, lamentablemente, lo logramos. Con el enfoque de anonimización de datos que utilizó la Oficina del Censo en 2010, pudimos identificar a 605 niños trans. Afortunadamente, la Oficina del Censo está implementando un nuevo enfoque de privacidad diferencial que mejorará la privacidad en general, pero aún es un trabajo en progreso. Cuando revisamos los más recientes datos publicadosdescubrimos que el nuevo enfoque de la oficina reduce la tasa de identificación en un 70 por ciento, mucho mejor, pero aún con margen de mejora.

Incluso como investigadores que utilizan datos del censo para responder preguntas sobre la vida en los EE. UU. para nuestro trabajo, creemos firmemente que la privacidad es importante. La oficina está realizando actualmente un período de comentario público en el diseño del censo de 2030. Las presentaciones podrían dar forma a cómo se lleva a cabo el censo y cómo la oficina hará que los datos sean anónimos. He aquí por qué esto es importante.

El gobierno federal recopila datos del censo para tomar decisiones sobre cosas como el tamaño y la forma de los distritos electorales o cómo desembolsar los fondos. Sin embargo, las agencias gubernamentales no son las únicas personas que usan los datos. Los investigadores en una variedad de campos, como la economía y la salud pública, utilizan la información publicada para estudiar el estado de la nación y hacer recomendaciones de políticas.

Pero los riesgos de desanonimizar los datos son reales, y no solo para los niños trans. En un mundo donde la recopilación de datos privados y el acceso a sistemas informáticos potentes son cada vez más omnipresentes, podría ser posible deshacer las protecciones de privacidad que la Oficina del Censo incorpora a los datos. Quizás lo más famoso, La científica informática Latanya Sweeney mostró que casi el 90 por ciento de los ciudadanos estadounidenses podrían ser reidentificados solo con su código postal, fecha de nacimiento y sexo asignado.

En agosto de 2021, la Oficina del Censo respondió. La organización utilizó el enfoque de privacidad diferencial preferido por los criptógrafos para proteger sus datos de redistribución de distritos. Los matemáticos y los informáticos se han sentido atraídos por la elegancia matemática de este enfoque, que implica la introducción intencional de una cantidad controlada de error en los recuentos clave del censo y luego la limpieza de los resultados para garantizar que sigan siendo coherentes internamente. Por ejemplo, si el censo contó con precisión a 16 147 personas que se identificaron como nativos americanos en un condado específico, podría reportar un número cercano pero diferente, como 16 171. Esto suena simple, pero los condados se componen de distritos censales, que a su vez se componen de bloques censales. Eso significa que, para obtener un número cercano al conteo original, el censo también debe modificar el número de nativos americanos en cada bloque y distrito del censo; el arte del enfoque de la Oficina del Censo es hacer que todos estos números cercanos pero diferentes sumen otro número cercano pero diferente.

Uno podría pensar que proteger la privacidad de las personas es una obviedad. Pero algunos investigadores, principalmente aquellos cuyo trabajo depende del enfoque de privacidad de datos existente, tienen una opinión diferente. Estos cambios, argumentan, dificultarán que los investigadores hagan su trabajo en la práctica, mientras que los riesgos de privacidad contra los que protege la Oficina del Censo son en gran parte teóricos.

Recuerde: hemos demostrado que el riesgo no es teórico. Aquí hay un poco de cómo lo hicimos.

Reconstruimos una lista completa de personas menores de 18 años en cada bloque censal para que pudiéramos saber cuál era su edad, sexo, raza y etnia en 2010. Luego comparamos esta lista con la lista análoga en 2020 para encontrar personas ahora. 10 años mayor y con diferente sexo reportado. Este método, llamado ataque de vinculación instigado por la reconstrucción, requiere solo conjuntos de datos publicados públicamente. Cuando lo revisamos y lo presentamos formalmente al censo, era lo suficientemente sólido y preocupante como para inspirar a los investigadores de la Universidad de Boston y la Universidad de Harvard a comunicarse con nosotros para obtener más detalles sobre nuestro trabajo.

Simulamos lo que podría hacer un mal actor, entonces, ¿cómo nos aseguramos de que no ocurran ataques como este? La Oficina del Censo se está tomando en serio este aspecto de la privacidad, y los investigadores que usan estos datos no deben interponerse en su camino.

El censo se ha recopilado con mucho trabajo y un gran costo, y todos nos beneficiaremos de los datos producidos por este esfuerzo. Pero estos datos también pueden causar daño, y el trabajo de la Oficina del Censo para proteger la privacidad ha recorrido un largo camino para mitigar este riesgo. Debemos alentarlos a continuar.

Este es un artículo de opinión y análisis, y las opiniones expresadas por el autor o autores no son necesariamente las de Científico americano.