‘Big Data’: ¿antídoto contra la corrupción?

Esta idea de algoritmos que deciden en lugar de personas puede resultar inquietante. Pero no debemos olvidar que la historia está plagada de innumerables ejemplos de sesgos extremos en el proceso de toma de decisiones por humanos —en particular desde las estructuras de poder en la distribución de recursos, la justicia, la igualdad o los bienes públicos—.

Esto ha dado lugar a resultados ineficientes, corruptos, injustos, con graves conflictos de intereses y con consecuencias en muchos casos devastadoras para millones de personas(algunos ejemplos recientes: la crisis económica, las hipotecas con cláusulas suelo, los casos de corrupción…). Frente a esto, el desarrollo de algoritmos para la toma de decisiones basados en datos refleja la búsqueda de objetividad y la aspiración de llegar a decidir basándose en evidencias de manera que se eliminen —o al menos se minimicen— la discriminación, la corrupción, la injusticia o la ineficiencia de las que, desgraciadamente, no escapan las decisiones humanas. En el contexto del bien social, William Easterly propone el concepto de la “tiranía de los expertos”, según el cual economistas, centro de estudios, agencias de ayuda humanitaria, analistas y expertos han dominado proyectos globales de desarrollo económico y de reducción de la pobreza. Como consecuencia de esta “tiranía”, se ha observado que los expertos han favorecido a menudo soluciones tecnocráticas que muchas veces no han respetado los derechos individuales de los ciudadanos y no han logrado tener el impacto positivo esperado.

Big Data
En los últimos años hemos presenciado una transición sin precedentes en nuestra historia: datos de diversa naturaleza sobre el comportamiento humano (qué hacemos, dónde vamos, cuánto gastamos, qué consumimos, con quién nos comunicamos…) han pasado de ser un recurso no existente o muy escaso a estar disponibles de manera masiva y en tiempo real. Esta disponibilidad de grandes cantidades de datos (big data) sobre cada uno de nosotros está cambiando profundamente el mundo y ha dado lugar a la aparición de una nueva disciplina llamada Ciencias Sociales Computacionales. Las finanzas, la economía, la salud, la medicina, la física, la biología, la política, el marketing, el periodismo y el urbanismo, entre otras, han experimentado el impacto de este fenómeno. El análisis de datos agregados sobre el comportamiento humano a gran escala nos abre oportunidades extraordinarias para entender y modelar patrones de conducta, así como para ayudar en la toma de decisiones, de manera que ya no seamos los humanos quienes decidamos, sino que las decisiones vengan determinadas por algoritmos construidos a partir de esos datos. ¿Por qué querríamos que un algoritmo decida?

Dado el potencial de los datos, en los últimos años ha aparecido un fértil campo de investigación enfocado al desarrollo de fórmulas para la toma de decisiones en el área de las mejoras sociales, es decir, algoritmos que influyen en las decisiones y en la optimización de recursos. Estos algoritmos están diseñados para analizar cantidades ingentes de información de distintas fuentes y, de manera automática, seleccionar los datos relevantes para usarlos de forma concreta. Es lo que se conoce como big data para el bien social. Y en ese campo se han llevado a cabo proyectos que han analizado el valor de los datos para entender el desarrollo económico de una región, predecir el crimen, modelar la propagación de enfermedades infecciosas como la gripe o el ébola, estimar las emisiones de CO2o cuantificar el impacto de desastres naturales. Tanto investigadores como Gobiernos, ONG, empresas y grupos de ciudadanos están experimentando activamente, innovando y adaptando herramientas de toma de decisiones para alcanzar soluciones que estén basadas en el análisis de información. El potencial es inmenso, y esa es justamente una de las motivaciones de mi trabajo de investigación en este área.

Corremos el riesgo de sustituir la ‘tiranía de los expertos’ por la ‘tiranía de los datos’

Dentro de la comunidad científica también se han identificado una serie de retos sociales, éticos y legales relacionados con la toma de decisiones de manera algorítmica, que afectan a cuestiones como la privacidad, la seguridad, la transparencia, la ambigüedad con relación a la responsabilidad, los sesgos o la discriminación. De hecho, en 2014, la Casa Blanca publicó el informe Big Data: capturando oportunidades, preservando valores, que ­subraya la discriminación potencial que pueden contener los datos e identifica ciertos riesgos con relación al uso de datos personales para tomar decisiones sobre el crédito, la salud o el empleo de las personas. Corremos el riesgo de sustituir la “tiranía de los expertos” por una “tiranía de los datos” si no somos conscientes y tomamos medidas para minimizar o eliminar las limitaciones inherentes en las decisiones basadas en datos.

Para poder aprovechar adecuadamente el potencial de las decisiones basadas en datos y avanzar hacia un mundo más justo, honesto e igualitario hay cuatro retos importantes que debemos resolver en el empleo de algoritmos en la toma de decisiones.

El primer escollo es la garantía de la privacidad de las personas. A medida que los algoritmos tienen acceso a datos procedentes de un número creciente de fuentes, incluso cuando dichos datos son anónimos, de su cruce y combinación podrían inferirse ciertas características sobre una persona en particular, aunque esta información nunca haya sido desvelada por la misma, como ilustra el trabajo de Yves Alexandre de Montjoye. Afortunadamente, pueden tomarse medidas para minimizar o eliminar este impacto en la privacidad, como la agregación de datos anónimos.

Las conclusiones a las que podemos llegar son clave para afrontar los grandes retos de nuestra especie

Otro reto es la asimetría en el acceso a la información. Podríamos llegar a una situación en la que una minoría tiene acceso a datos y dispone del conocimiento y las herramientas necesarias para analizarlos, mientras que una mayoría no. Esta situación exacerbaría la asimetría ya existente en la distribución del poder entre los Gobiernos o las empresas, de una parte, y las personas, de otra. Iniciativas para promover datos abiertos (open data) y programas de educación que fomenten la alfabetización digital y el análisis de datos son dos ejemplos de medidas que se podrían desarrollar para mitigar esto.

El tercer punto controvertido es la opacidad de los algoritmos. Jenna Burrell habla de un marco que caracteriza la opacidad de los algoritmos en tres tipos: 1) opacidad intencionada, donde el objetivo es la protección de la propiedad intelectual; 2) opacidad por ignorancia, porque la mayoría de los ciudadanos carecen del conocimiento técnico para entender los algoritmos de inteligencia artificial subyacentes; y 3) opacidad intrínseca, resultado de la naturaleza de las operaciones matemáticas utilizadas, que en muchas ocasiones son muy difíciles o imposibles de interpretar. Estos tipos de opacidad pueden minimizarse con la introducción de legislación que obligue al uso de sistemas abiertos, con programas educativos en pensamiento computacional, con iniciativas para explicar a ciudadanos sin conocimientos técnicos cómo funcionan los algoritmos de toma de decisiones y con el uso de modelos de inteligencia artificial que sean fácilmente interpretables, aunque satisfacer tal condición implique utilizar modelos más sencillos u obtener resultados menores si se comparan con los obtenidos con modelos tipo caja negra.

Cifras que generamos: Cada día se crean 2,5 trillones de bytes de datos, según un estudio de IBM del año 2012

El último reto es la exclusión social y la discriminación en potencia que podrían resultar de las decisiones tomadas por algoritmos basados en datos. Los motivos pueden ser múltiples: en primer lugar, los datos que se utilicen pueden contener sesgos que queden plasmados en dichos algoritmos; además, si no se utilizan los modelos correctamente, los resultados podrían ser discriminatorios —esto ha quedado demostrado en el reciente trabajo de Toon Calders e Indr Žliobait?—. Otro riesgo es que a ciertos individuos se les denieguen oportunidades debido no a sus propias acciones, sino a acciones de otras personas con las que comparten algunas características. Por ejemplo, algunas empresas de tarjetas de crédito han reducido los límites de crédito de clientes no basándose en su propio historial financiero, sino a partir del análisis de datos de otros clientes con un historial financiero muy deficiente, pero que habían comprado en las mismas tiendas donde habían consumido los clientes castigados, como refleja un informe de la Federal Trade Commission en EE UU. Por esto es de vital importancia conocer bien tanto las virtudes como los problemas de los datos y de los modelos utilizados, y llevar a cabo los análisis necesarios para identificar y cuantificar las posibles limitaciones.

Afortunadamente, estos retos no son insalvables. El potencial de los datos para ayudar a mejorar el mundo es inmenso en numerosas áreas, incluyendo la salud pública, la respuesta ante desastres naturales y situaciones de crisis, la seguridad ciudadana, el calentamiento global, la educación, la planificación urbana, el desarrollo económico o la elaboración de estadísticas. De hecho, el uso del big data es un elemento central en los 17 Objetivos para el Desarrollo Sostenible (SDG) de Naciones Unidas: los datos —y las conclusiones a las que podemos llegar gracias a su análisis— son y serán un elemento clave para ayudarnos a abordar los grandes retos a los que nos enfrentamos como especie.

Bien usados, los datos ofrecen la oportunidad de democratizar ciertas decisiones, superando la “tiranía de expertos” mencionada anteriormente y consiguiendo que las decisiones respondan a variables menos sujetas a la arbitrariedad de unos pocos. Pero también debemos encontrar un equilibrio y asumir la responsabilidad de no caer en una “tiranía de datos”. Solo desde un compromiso colectivo que implique tanto a investigadores, políticos y otros agentes sociales como a los ciudadanos —a cualquiera que pueda estar leyendo este artículo— podremos explorar y aprovechar las posibilidades potenciales que los datos ofrecen para la consecución del bien común, el nuestro y el de generaciones futuras. Tenemos una oportunidad que no debemos —ni podemos— dejar pasar.