UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO MITIGACIÓN DE SESGO DE GÉNERO EN UN MODELO DE CALIFICACIÓN CREDITICIA Tesis sometida a la consideración de la Comisión del Programa de Posgrado en Computación e Informática para optar al grado y título de Maestría Académica en Computación e Informática RICARDO CORRALES BARQUERO Ciudad Universitaria Rodrigo Facio, Costa Rica 2023 DEDICATORIA A mis padres. Gracias por su apoyo. ii AGRADECIMIENTO Agradezco a todas las personas que me han ayudado y apoyado en el proceso. A mi directora de tesis, por siempre confiar en mí. A mis lectores por sus muy valiosos aportes. A mis padres por su apoyo. A Silvia por su ayuda con la tabulación de algunos datos. A la institución que me facilitó acceso a los datos, por su preocupación por mejorar en el ámbito social. ii HOJA APROBACIÓN Esta tesis fue aceptada por la Comisión del Programa de Posgrado en Computación e Informática de la Universidad de Costa Rica, como requisito parcial para optar al grado y título de Maestría Académica en Computación e Informática. ______________________________________ Dr. Edgar Casasola Murillo Representante de la Decana Sistema de Estudios de Posgrado ______________________________________ Dra. Gabriela Barrantes Sliesarieva Directora de Tesis ________________________________________ Dra. Gabriela Marín Raventós Asesora ________________________________________ Dr. Álvaro Guevara Villalobos Asesor ________________________________________ Dr. Gustavo López Herrera Director Programa de Posgrado en Computación e Informática ________________________________________ Ricardo Corrales Barquero Candidato ii ÍNDICE DEDICATORIA...................................................................................................................... ii AGRADECIMIENTO............................................................................................................ iii HOJA APROBACIÓN........................................................................................................... iv ÍNDICE................................................................................................................................... v RESUMEN EN ESPAÑOL................................................................................................... vii RESUMEN EN INGLÉS......................................................................................................viii ÍNDICE DE TABLAS............................................................................................................ ix ÍNDICE DE FIGURAS...........................................................................................................x LISTA DE ABREVIATURAS................................................................................................. xi CAPÍTULO I. INTRODUCCIÓN............................................................................................1 1.1 Justificación...............................................................................................................5 1.2 Pregunta de investigación.........................................................................................6 1.3 Objetivos................................................................................................................... 6 1.4 Estructura del documento......................................................................................... 7 CAPÍTULO II. MARCO CONCEPTUAL............................................................................... 8 2.1 Entrenamiento y evaluación de modelos de clasificación.........................................8 2.1.1 Regresión logística...........................................................................................8 2.1.2 Redes bayesianas..........................................................................................10 2.1.3 Evaluación de modelos de clasificación con el coeficiente de Gini................14 2.1.4 Método Bootstrapping para estimación de incertidumbre..............................16 2.2 Sesgos en modelos de clasificación....................................................................... 17 2.3 Definiciones de justicia............................................................................................19 2.3.1 Clasificación de métricas de justicia...............................................................19 2.3.2 Porcentaje de puntos que fallan un test situacional.......................................21 2.3.3 Porcentaje de personas en el grupo no-privilegiado a las que el modelo asigna un resultado negativo.................................................................................. 21 2.3.4 Equal Odds Difference (EOD)........................................................................ 22 2.3.6 Porcentaje de individuos discriminados según métrica BEL (Bayesian Extended Lift).......................................................................................................... 23 2.4 Técnicas de mitigación del sesgo........................................................................... 28 2.4.1 Fairway...........................................................................................................28 2.4.2 LimeOut..........................................................................................................30 2.4.3 Técnica de Mancuhan y Clifton basada en redes bayesianas.......................32 2.5 Pruebas estadísticas...............................................................................................33 2.5.1 Prueba de Chi Cuadrado................................................................................33 2.5.2 Prueba t de Student para muestras independientes......................................35 2.5.3 Prueba t de Student para muestras relacionadas..........................................36 2.5.4 Prueba H de Kruskal-Wallis............................................................................37 2.5.5 Prueba r de Pearson...................................................................................... 38 ii 2.5.6 Índice de asociación de Kendall (ajustado por empates)...............................38 CAPÍTULO III. ANTECEDENTES...................................................................................... 40 3.1 Revisiones de literatura...........................................................................................40 3.2 Estudios primarios...................................................................................................41 CAPÍTULO IV. METODOLOGÍA.........................................................................................49 4.1 Identificar posibles fuentes de sesgo en el modelo actual......................................51 4.1.1 Sesgos provenientes de los datos de entrenamiento.................................... 51 4.1.2 Sesgos provenientes del entrenamiento del modelo..................................... 52 4.1.3 Sesgos provenientes del uso del modelo.......................................................53 4.2 Tomar requerimientos de las principales partes interesadas.................................. 53 4.2.1 Identificar criterios bajo los cuales un modelo se considera sesgado............54 4.2.2 Identificar criterios bajo los cuales una técnica de mitigación de sesgo es adecuada.................................................................................................................55 4.3 Seleccionar métricas de justicia a utilizar............................................................... 56 4.4 Medir la justicia y el rendimiento en el modelo actual.............................................56 4.5 Seleccionar las técnicas de mitigación de sesgo a utilizar..................................... 57 4.6 Aplicar las técnicas de mitigación de sesgo seleccionadas al modelo actual.........57 4.7 Medir la justicia y el rendimiento de los modelos alternativos generados.............. 58 4.8 Comparar los modelos alternativos con el modelo original.....................................58 CAPÍTULO V. RESULTADOS............................................................................................ 59 5.1 Posibles fuentes de sesgo del modelo actual......................................................... 59 5.1.1 Sesgos provenientes de los datos de entrenamiento.................................... 59 5.1.2 Sesgos provenientes del entrenamiento del modelo..................................... 61 5.1.3 Sesgos provenientes del uso del modelo.......................................................61 5.2 Resultados de las entrevistas................................................................................. 61 5.3 Métricas de justicia que se usaron..........................................................................63 5.4 Mediciones sobre el modelo actual.........................................................................65 5.5 Técnicas de mitigación de sesgo usadas............................................................... 69 5.6 Modelos alternativos............................................................................................... 71 5.7 Justicia y rendimiento de los modelos alternativos................................................. 73 5.8 Comparación de los modelos alternativos con el modelo original.......................... 74 CAPÍTULO VI. CONCLUSIONES Y TRABAJO FUTURO.................................................77 6.1 Limitaciones del estudio y trabajo futuro.................................................................78 Bibliografía........................................................................................................................ 81 ANEXO A. LIMEGlobal...................................................................................................... 84 A.1 LIME....................................................................................................................... 84 A.2 LIME tabular........................................................................................................... 86 A.3 Escogencia sub-modular........................................................................................ 87 A.4 LIMEGlobal............................................................................................................. 88 A.5 Resultados de aplicación al caso de estudio..........................................................89 ii RESUMEN EN ESPAÑOL El presente documento expone un trabajo realizado sobre un conjunto de datos y un modelo matemático para apoyo de toma de decisiones en el proceso de crédito para clientes ya constituidos en un banco comercial de Costa Rica. El objetivo principal consistió en evaluar alternativas para mitigar los sesgos de género presentes en el modelo. Para lograrlo, se comenzó por identificar posibles fuentes de sesgo en el modelo, entre las cuales se identificaron posibles sesgos de tratamiento dispar, asociación, selección, sesgo malicioso y sesgo de automatización. Seguidamente se midieron dichos sesgos en más detalle, encontrando que son pequeños, excepto quizá por el sesgo de selección. En tercer lugar, se construyeron modelos alternativos que mitigaran estos sesgos, para finalmente, evaluar la diferencia tanto en las medidas de justicia que se utilizaron como en el rendimiento de los modelos alternativos respecto al original para determinar el que provee mayor valor al negocio. Aquí se encontró que las ganancias son menores y que lo que podría valer más la pena es mantener el modelo actual e investigar otros modelos de calificación crediticia utilizados en otras etapas del proceso de otorgamiento de crédito. ii RESUMEN EN INGLÉS This document presents a project carried out on a dataset and a mathematical model to support decision making in the credit process for established clients in a commercial bank in Costa Rica. The main objective was to evaluate alternatives to mitigate the gender biases present in the model. To achieve this, possible sources of bias in the model were identified, among which possible disparate treatment, association, selection, malicious, and automation biases were identified. These biases were then measured in more detail, finding that they are small, except perhaps for the selection bias. Thirdly, alternative models were built to mitigate these biases, to finally evaluate the difference both in the fairness measures that were used and in the performance of the alternative models compared to the original to determine the one that provides greater value to the business. Here, it was found that the gains are minor and that what could be more worthwhile is to maintain the current model and investigate other credit scoring models used in other stages of the credit granting process. ii ÍNDICE DE TABLAS Tabla 2.1. Algoritmo Hill Climb Search para aprendizaje de estructuras de redes bayesianas. Tomado de [23].……………………………………………………………….13 Tabla 2.2. Definiciones en matriz de confusión para cálculo del EOD y AOD……………………………….22 Tabla 2.3. Algoritmo para discretizar datos continuos en preparación para obtener la métrica de Mancuhan y Clifton [19] (elaboración propia).…………………….25 Tabla 2.4. Algoritmo para eliminar atributos protegidos y redlining de la red bayesiana. Tomado de Mancuhan y Clifton [19].……………………………………………27 Tabla 2.5. Algoritmo para descubrir instancias discriminadas. Tomado de Mancuhan y Clifton [19].………………………………………………………………………………….28 Tabla 2.6. Pre-procesamiento de técnica Fairway. Tomado de [40].……………………………………………30 Tabla 2.7. Procesamiento de técnica de Mancuhan y Clifton [19].……………………………………………..33 Tabla 2.8. Ejemplo de tabla de contingencia para prueba de Chi Cuadrado………………………………..34 Tabla 5.1. Resultados de aplicar prueba H de Kruskal-Wallis a todas las variables predictoras en relación al género……………………………………………………………….60 Tabla 5.2. Resumen de resultados de las entrevistas aplicadas a personas expertas en las institución……………………………………………………………………………………………………62 Tabla 5.3. Métricas de justicia seleccionadas para medir el sesgo en este estudio……………………….65 Tabla 5.4. Resultados de mediciones de sesgo (y rendimiento) en el modelo actual……………………66 Tabla 5.5. Técnicas de mitigación de sesgo seleccionadas para generar modelos alternativos………70 Tabla 5.6. Resultados de evaluar las métricas de justicia y exactitud en los modelos alternativos y el actual…………………………………………………………………………73 Tabla A.1. Técnica LIME. Tomada de [48].………………………………………………………………………………84 Tabla A.2. Escogencia sub-modular. Tomado de [48].………………………………………………………………86 ii ÍNDICE DE FIGURAS Figura 1.1. Ilustración del concepto de sesgo……………………………………………………………………………3 Figura 2.1. Ejemplo de una red bayesiana (elaboración propia)…………………………………………………11 Figura 2.2. Curva CAP……………………………………………………………………………………………………………15 Figura 2.3. Tipos de sesgo en modelos de clasificación…………………………………………………………….17 Figura 2.4. Metodología Fairway…………………………………………………………………………………………….29 Figura 3.1. Tipos de métricas de justicia utilizadas para medir distintos tipos de sesgo……………….42 Figura 3.2. Criterios de selección usados para elegir distintos tipos de métricas de justicia………….43 Figura 3.3. Tipos de técnicas de mitigación de sesgo utilizadas según el tipo de sesgo encontrado……………………………………………………………………………………………….45 Figura 3.4. Criterios de selección para elegir la técnica de mitigación de sesgo utilizada………………46 Figura 4.1. Diagrama de flujo que ilustra la metodología seguida………………………………………………51 Figura 5.1. Artículos de revisión de literatura clasificados según tipo de sesgo que buscan medir y otras razones para escoger las métricas utilizadas………………………………………64 Figura 5.2. Red bayesiana que se obtiene con los datos de entrenamiento…………………………………67 Figura 5.3. Red bayesiana que se obtiene al eliminar atributos protegidos y redlining…………………68 Figura 5.4. Artículos de revisión de literatura clasificados según tipo de sesgo que buscan mitigar y otras razones para escoger las técnicas de mitigación utilizadas…………………69 Figura A.1. Resultados de aplicación de LIME Global al caso de estudio…………………………………….88 ii LISTA DE ABREVIATURAS AOD: Average Odds Difference BEL: Bayesian Extended Lift BUST: Bottom-Up Stress Testing CAP: Cumulative Accuracy Profile CPD: Conditional Probability Distribution EOD: Equal Odds Difference LIME: Local Interpretable Model-agnostic Explanations SUGEF: Superintendencia General de Entidades Financieras ii 1 CAPÍTULO I. INTRODUCCIÓN El acceso al crédito es de vital importancia en la sociedad moderna. Algunos estudios apuntan a que este juega un papel importante en la reducción de la pobreza [1]. Más aun, hay quienes argumentan que el acceso al crédito debería ser considerado un Derecho Humano, entre ellos, el ganador del Premio Nobel de la Paz de 2006, Muhammad Yunus [2]. Esta posición se basa en el principal argumento de que el acceso al crédito facilita el acceso a otros Derechos Humanos, como la comida, la vivienda, la educación y la salud. Si bien, esta posición es objeto de debate, no se puede negar que el acceso al crédito influye positivamente en los indicadores clásicos del desarrollo de las naciones [3]. Se puede argumentar entonces que garantizar un acceso equitativo al crédito tiene un impacto considerable en el bienestar de las personas. Sin embargo, dicho acceso se puede ver mermado debido a consideraciones que se realizan durante el proceso de otorgamiento del crédito. El proceso moderno de otorgamiento del crédito se suele dividir, para su estudio, en varias etapas. Estas varían de autor a autor, pero, a modo ilustrativo, se explica a continuación el modelo encontrado en [4]. En una primera etapa, conocida como promoción, la entidad financiera anuncia sus productos de crédito a potenciales clientes por medio de campañas de publicidad. Seguidamente, en la segunda etapa, llamada evaluación, dichos clientes potenciales se acercan a la institución para solicitar sus productos. Esta última evalúa a quienes hacen la solicitud para determinar si es factible dentro de su modelo de negocio otorgarles un préstamo. El resultado de esta etapa es esa decisión de otorgar o no un crédito al cliente. En tercer lugar, durante la etapa de aprobación, la entidad determina las condiciones bajo las cuales se va a otorgar el crédito (por ejemplo, los periodos de pago, la tasa de interés, entre otras). Luego, en la etapa de desembolso, se le da el dinero al cliente. En último lugar, durante la etapa de cobranza, el acreedor realiza campañas para cobrar de vuelta el préstamo a sus deudores. Durante todas las etapas del proceso de crédito, se hace necesario para la institución evaluar a sus clientes. Esto se hace con el fin de mitigar el llamado “riesgo de crédito”. El término riesgo de crédito se refiere al riesgo financiero de que un cliente no pague de vuelta su crédito parcial o totalmente (esto se conoce como entrar en default, o caer en impago) [5]. La evaluación de los clientes durante el proceso de crédito le permite a la entidad tomar distintas decisiones durante todas estas etapas. Por ejemplo, en la etapa de promoción se decide a quiénes dirigir cierto tipo de campañas publicitarias; durante la evaluación se decide a quién otorgarle un crédito y a quién no; durante la aprobación y el desembolso se toma decisiones sobre las https://www.zotero.org/google-docs/?yZpbPw https://www.zotero.org/google-docs/?RC3I2m https://www.zotero.org/google-docs/?6wMhkk https://www.zotero.org/google-docs/?7nsh1X https://www.zotero.org/google-docs/?G1h3DR 2 condiciones pactadas; y durante la cobranza se toma decisiones sobre cómo distribuir los recursos (humanos y materiales) para hacer el cobro a distintos clientes [6]. Históricamente, según explica Anderson [6], este tipo de decisiones se tomaban en base a la experiencia de la persona prestamista (cuando este era una persona) o del empleado de la institución que estaba encargado de cada etapa. No es hasta inicios de la Segunda Guerra Mundial cuando en Estados Unidos, debido a la migración de muchos hombres a la lucha en Europa (y debido a que aún no se reclutaban mujeres para este tipo de puestos bancarios), comienzan a dejarse por escrito las primeras reglas para la toma de decisiones en el proceso de crédito. Efectivamente, esto generó lo que hoy se podría considerar como una especie de “sistemas expertos” escritos en papel. En 1946, se considera que aparece por primera vez una técnica estadística para la evaluación de deudores según su riesgo de crédito. Esto se da cuando E. F. Wonderlic, presidente de la Corporación Household Finance, desarrolla el “Credit Guide Score”. Sin embargo, no es hasta la década de 1960 cuando estas técnicas comienzan a tomar auge en la industria. Esto se debió a la expansión en el acceso a computadoras electrónicas, por lo que, por primera vez las entidades prestatarias fueron capaces de automatizar el manejo de la información de sus clientes. En la década de 1980 se da una expansión geográfica de este tipo de técnicas a países fuera de los Estados Unidos. Asimismo, se da también una expansión en cuanto al tipo de técnicas utilizadas, incluyendo algunas técnicas que hoy día se catalogan dentro de lo que conocemos como aprendizaje de máquina. Las técnicas estadísticas y de aprendizaje de máquina utilizadas para evaluar deudores es lo que hoy conocemos como calificaciones de crédito. Anderson [6] define las calificaciones de crédito como herramientas numéricas para la evaluación de los clientes según su riesgo de crédito durante el proceso de un préstamo. Las calificaciones crediticias modernas hacen uso de muchos tipos de datos para evaluar a los deudores. Los datos específicos que se utilizan dependen del modelo y de los intereses de la institución acreedora; sin embargo, se puede mencionar que es común usar detalles financieros de los clientes, información de su comportamiento de pago (e.g. si el cliente ha tenido atrasos, si ha caído en impago en otras deudas, entre otros), datos sobre el empleo y salario del cliente, características sociodemográficas, entre otros [5], [6]. Ahora bien, el uso de las calificaciones de crédito no ha surgido sin problemas. Por ejemplo, se puede mencionar temas de falta de privacidad (se han observado modelos capaces de predecir información sensible, como la raza de la persona) [7], [8] y falta de explicabilidad (se han usado modelos en los cuáles es difícil determinar por qué generan ciertos resultados) [9], [10]. El problema con el que se tuvo la intención de trabajar en este proyecto fue el sesgo. Para ilustrar https://www.zotero.org/google-docs/?0Ek2E2 https://www.zotero.org/google-docs/?EI6C8f https://www.zotero.org/google-docs/?NfbmHH https://www.zotero.org/google-docs/?vTztiT https://www.zotero.org/google-docs/?7eOCXw https://www.zotero.org/google-docs/?bTFALc 3 este problema, note que el objetivo de una calificación de crédito es poder pronosticar cuáles deudores caerán en un impago y cuáles no. En este caso, existe una “verdad”: hay deudores que pagarán de vuelta su crédito y otros que no. El objetivo de la calificación de crédito es entonces poder asignar de la manera más correcta posible una etiqueta de “alto riesgo” o “bajo riesgo” a cada cliente, de tal manera que aquellos clientes etiquetados como de alto riesgo tiendan a ser aquellos que caen en un impago, y aquellos clientes etiquetados como de bajo riesgo tiendan a ser quienes paguen de vuelta el préstamo sin problemas. Si se separa, como en la figura 1.1, a los clientes por quienes finalmente caen en impago y quienes no, y asumiendo que un modelo de calificación de crédito con alta exactitud ha etiquetado a estos clientes como “de alto riesgo” y “de bajo riesgo”, es posible ver que existe una diferencia en la distribución de las etiquetas entre los grupos. Esta diferencia en la distribución de etiquetas es lo que se suele conocer como un sesgo [11], [12]. El sesgo no siempre es un problema. De hecho, en el ejemplo anterior, se podría catalogar a este como un sesgo deseable, puesto que el fin del modelo es justamente poder distinguir entre personas que caerán en impago y personas que no. Sin embargo, también existen sesgos indeseables. Estos aparecen cuando la diferencia en la distribución de etiquetas ocurre entre grupos cuyos atributos que los definen se consideran socialmente sensibles [11]. Por ejemplo, si a las mujeres se les asigna etiquetas de “alto riesgo” con más frecuencia que a los hombres, esto es considerado como una práctica discriminatoria, y por tanto este sería un sesgo indeseable. Este tipo de sesgos se consideran discriminatorios pues tienen un impacto directo sobre las personas contra las cuales el sesgo opera. La obtención de una calificación de crédito poco favorable puede llevar a la institución acreedora a tomar distintas decisiones en cada etapa del crédito: por ejemplo, podría no dirigir campañas publicitarias a personas que considera, injustamente, como de alto riesgo. A un cliente con una calificación injustamente desfavorable https://www.zotero.org/google-docs/?G7pkTh https://www.zotero.org/google-docs/?ue4gnZ 4 también podría negársele el acceso al crédito u otorgársele con condiciones más restrictivas, tales como tasas de interés más altas o plazos más cortos [5], [6]. Es importante recordar que detrás de estas decisiones hay un componente muy importante generado por un modelo automático (ya sea estadístico o de aprendizaje de máquina) [6]. Los sesgos indeseables descritos anteriormente se han visto ya en diversos casos. A modo de ejemplo, se puede mencionar el caso de una herramienta experimental de aprendizaje de máquina para contratación que se estuvo desarrollando en Amazon. Esta tuvo que ser descartada debido a que se encontró que estaba presentando sesgos injustos en contra de las mujeres [12], [13]. Un segundo caso muy estudiado ha sido el del software ProPublica en el sistema judicial de Estados Unidos. Esta es una herramienta que utiliza modelos estadísticos para generar una calificación cuyo objetivo es pronosticar la probabilidad de re-incidencia de personas que han cometido algún acto criminal. Ya se ha demostrado que ProPublica presenta un sesgo importante que desfavorece a las personas negras [14]. Un tercer caso es el de las herramientas de reconocimiento facial. Un estudio por Joy Buolamwini de MIT, ha demostrado que los errores en este tipo de herramientas aumentan hasta en un 35% cuando la persona que se intenta detectar es una mujer negra en comparación con hombres blancos [15]. Particularmente, en el contexto de las calificaciones de crédito, este tipo de discriminación se ha encontrado también. A modo de ejemplo, se puede citar el caso de Jamie Heinemeier Hansson, una mujer estadounidense que, a pesar de tener una mejor calificación de crédito nacional que su marido, y además compartir con él cuotas iguales en sus propiedades y presentar con él declaraciones de impuestos en conjunto, obtuvo peores condiciones que su esposo al solicitar una tarjeta de crédito de Apple. Cuando se investiga esta situación, se encuentra que hay un algoritmo de aprendizaje de máquina tomando este tipo de decisiones y ninguna persona responsable de este modelo sabe por qué se tomó una decisión que en este caso se consideró discriminatoria [16]. Otros estudios interesantes a considerar son, por ejemplo, el reporte de Goldman Sachs, donde concluyen que existe una brecha global de 287,000 millones de dólares estadounidenses en el acceso a crédito entre pymes propiedad de mujeres y pymes propiedad de hombres [17]. Es más, se concluye que la región que más contribuye a esta brecha es América Latina. El mismo reporte muestra que más del 70% de pymes propiedad de mujeres no cuentan con un acceso adecuado a servicios financieros. El reporte [18] del Banco Interamericano de Desarrollo, refuerza las conclusiones del reporte de Goldman Sachs y además atribuye estas brechas a las prácticas discriminatorias de las entidades financieras, entre otras razones. https://www.zotero.org/google-docs/?HTzolq https://www.zotero.org/google-docs/?V7M3aK https://www.zotero.org/google-docs/?DwDdK9 https://www.zotero.org/google-docs/?1F4hQS https://www.zotero.org/google-docs/?D0MXFy https://www.zotero.org/google-docs/?18UHee https://www.zotero.org/google-docs/?XoJPbX https://www.zotero.org/google-docs/?dlUpes 5 En este punto, cabe preguntarse de dónde provienen estos sesgos. Durante la presente investigación, se han identificado tres posibles fuentes de sesgo para los modelos de calificación crediticia. En primer lugar, la fuente más comúnmente estudiada son los datos de entrenamiento. Por ejemplo, si se entrena un modelo de calificación crediticia sobre una base de datos históricos en los cuales se le han otorgado más créditos a hombres que a mujeres, el modelo puede aprender y reproducir dichos sesgos. Asimismo, datos erróneos pueden exacerbar este tipo de sesgos. En segundo lugar, existen prácticas que pueden generar sesgos durante el entrenamiento de los modelos. Se puede mencionar, por ejemplo, el no permitir que un modelo converja por completo. Esta práctica podría generar sesgos discriminatorios debido a que en las primeras iteraciones del proceso de entrenamiento, el modelo podría aprender solamente características muy generales de la población y no encontrar patrones más específicos que le permitan mitigar ese sesgo. Por último, está el sesgo generado durante el uso del modelo. Dado que estas herramientas se utilizan en contextos sociales, la persona usuaria del modelo puede introducir sus sesgos en la decisión cuando hace uso de este. Para este proyecto se contó con acceso a un modelo de calificación crediticia de un banco comercial de Costa Rica, así como a los datos anonimizados que se usaron para entrenarlo y hacerle pruebas. Este modelo es utilizado solamente para evaluar clientes ya establecidos dentro de la institución a través de todas sus operaciones de crédito (este tipo de calificación crediticia se conoce con el nombre de calificación de cliente [6]). 1.1 Justificación La mitigación de sesgos discriminatorios en modelos de calificación crediticia no solo beneficia a las personas históricamente marginadas, sino también al negocio dueño del modelo: el uso de modelos más justos puede ayudar a los acreedores a mejorar la calidad de su cartera, dado que se evalúa a los y las clientes de acuerdo a su verdadero nivel de riesgo y no a sesgos irracionales [19]. Asimismo, la mitigación de sesgos puede impactar positivamente el riesgo reputacional de la institución. Una tercera razón por la cual un intermediario financiero podría querer mitigar los sesgos en su modelo es la obligación de cumplir con leyes y regulaciones; por ejemplo, la ley conocida como “Fair Housing Act” en Estados Unidos o el artículo 14 de la Convención Europea en Derechos Humanos prohíben la discriminación en ciertos aspectos del otorgamiento de crédito [20]. El tratamiento del sesgo, sin embargo, no es un problema trivial. Los modelos utilizados en la actualidad no son perfectos. Es importante para el negocio conocer cuál es el grado de error esperable de sus modelos de calificación crediticia para así poder mantener un control sobre las https://www.zotero.org/google-docs/?E3TcOe https://www.zotero.org/google-docs/?yNPOrR https://www.zotero.org/google-docs/?FehzIZ 6 posibles pérdidas que se puedan dar debido a la caída en impago de clientes erróneamente clasificados como de bajo riesgo, así como para evitar incurrir en costos de oportunidad de negar el crédito a clientes de bajo riesgo. Al nivel de pérdidas que la institución está dispuesta a incurrir a cambio de las ganancias que espere obtener se le conoce con el nombre de apetito de riesgo [5]. Es importante notar que el apetito de riesgo y el rendimiento1 del modelo de calificación crediticia que se usa están relacionados: es importante para el negocio mantener un nivel de rendimiento en el modelo que se ajuste a su apetito de riesgo. Cuando se hace un tratamiento del sesgo indeseable es necesario equilibrar la mitigación de este respecto a la exactitud del modelo utilizado. En un caso extremo, se podría eliminar todo rastro de sesgo indeseable asignando a todos los clientes la etiqueta de “bajo riesgo”, lo cual tendría repercusiones completamente inaceptables en los resultados del modelo. A continuación se presenta la pregunta de investigación y los objetivos de este trabajo, seguidos de la estructura del presente documento. 1.2 Pregunta de investigación ¿Cómo se puede mitigar el sesgo de género presente en un modelo de calificación crediticia, manteniendo resultados aceptables para el negocio? 1.3 Objetivos El objetivo general de esta investigación fue: Construir y evaluar un modelo de calificación de crédito que reduzca los sesgos de género, manteniendo resultados aceptables para el negocio. Los objetivos específicos de la presente investigación incluyerpn: 1. Determinar posibles fuentes de sesgo de género en el modelo actual de calificación crediticia. 2. Medir el grado de sesgo de género en el modelo actual elegido. 3. Construir modelos de calificación crediticia alternativos con el fin de reducir el sesgo de género del modelo actual. 1 Entiéndase por el momento “rendimiento” como una medida de qué tantos errores tiene el modelo a la hora de clasificar a los clientes como de alto o bajo riesgo. Más adelante, en el marco conceptual, se define una medida exacta del rendimiento de un modelo para uso en este estudio. https://www.zotero.org/google-docs/?8oEHlU 7 4. Evaluar los modelos alternativos construidos en cuanto a su grado de sesgo de género y rendimiento. 1.4 Estructura del documento A continuación se detalla la estructura del presente documento. El capítulo II presenta el marco conceptual, donde se explican las principales nociones que se usaron a lo largo del estudio. El capítulo III explica los antecedentes encontrados en la literatura para este trabajo. El capítulo IV presenta la metodología que se siguió para cumplir con los objetivos propuestos. El capítulo V presenta los resultados obtenidos al aplicar cada paso explicado en la metodología y una breve discusión de los mismos. Finalmente, se dan las últimas observaciones y se explican las limitaciones del estudio y trabajo futuro en el capítulo VI. 8 CAPÍTULO II. MARCO CONCEPTUAL En este capítulo se presentan los principales conceptos que se usaron durante la investigación. Se comienza hablando del entrenamiento y evaluación de modelos de clasificación, iniciando con los modelos de regresión logística, puesto que este es el tipo de modelo que está en uso actualmente y algunos de los análisis realizados dependen del funcionamiento específico de este tipo de modelos. Seguidamente, se explican las técnicas de regularización Ridge y Lasso que se pueden aplicar sobre este tipo de modelos y que también proveen detalles relevantes en algunas partes del estudio. Luego, se explican lo que son las redes bayesianas y los algoritmos que se utilizaron en este estudio para generarlas cuando fue necesario. En tercer lugar, se presenta la métrica de exactitud conocida con el nombre de Coeficiente de Gini, la cual se usó para evaluar el rendimiento de los modelos en estudio. Seguidamente, se explica el método Bootstrapping para obtener métricas sobre los modelos. Este método se utilizó en el estudio para dar mayor confianza estadística a los resultados finales. Luego, se explican los distintos tipos de sesgo según su fuente. Después, se habla sobre las distintas definiciones de justicia que se encuentran en la literatura y sus métricas asociadas, y se explica en detalle las métricas usadas durante este estudio (la justificación de por qué se usaron estas métricas se encuentra en los capítulos de metodología y resultados). En penúltimo lugar, se presentan los tipos de técnicas para mitigar el sesgo según su etapa de aplicación, así como las técnicas de mitigación de sesgo usadas en este estudio (cuya escogencia también se justifica en la metodología y resultados). Finalmente, se presentan varias pruebas estadísticas importantes que se utilizaron a lo largo del estudio. 2.1 Entrenamiento y evaluación de modelos de clasificación En esta sección se explican los dos principales modelos de clasificación utilizados en este estudio; a saber, la regresión logística y las redes bayesianas. 2.1.1 Regresión logística La regresión logística es un método estadístico usado para la clasificación binaria. El objetivo de la regresión logística es estimar la probabilidad de que cada observación pertenezca a una clase u otra [21]. En el presente caso de estudio, esto es la probabilidad de que un cliente caiga en impago. Este tipo de modelo hace uso de la siguiente función para estimar dicha probabilidad: ℎ(𝑋) = 𝑃(𝑌 = 1|𝑋) = 𝑒 β 0 +β 1 𝑋 1 +...+β 𝑝 𝑋 𝑝 1+𝑒 β 0 +β 1 𝑋 1 +...+β 𝑝 𝑋 𝑝 https://www.zotero.org/google-docs/?fXWn4I 9 donde denota la variable a predecir (e.g. el impago), denota el vector de𝑌 𝑋 = (𝑋 1 , 𝑋 2 , ..., 𝑋 𝑝 ) variables predictoras y son coeficientes (también llamados parámetros deβ = (β 0 , β 1 , β 2 , ..., β 𝑝 ) la regresión) que se estiman a través de algún método particular [21]. No se explica aquí los métodos específicos que se usan para hacer la estimación de los coeficientes debido a que se salen del alcance del estudio; basta con mencionar que todos los métodos aquí utilizados son métodos iterativos que intentan converger a una solución que minimice la siguiente función objetivo: 𝑙𝑜𝑔𝑙𝑜𝑠𝑠(𝐷) : = (𝑥,𝑦)∈𝐷 ∑ − 𝑦 · 𝑙𝑜𝑔(ℎ(𝑥)) − (1 − 𝑦) · 𝑙𝑜𝑔(𝑦 − ℎ(𝑥)) donde denota el conjunto de datos de entrenamiento, el cual contiene valores de la forma𝐷 (𝑥, 𝑦) con un vector de variables predictoras y la variable a predecir [21].𝑥 𝑦 A continuación, se explican tres de los métodos de regularización más utilizados en el entrenamiento de regresiones logísticas. El objetivo de este tipo de métodos es reducir la complejidad del modelo entrenado por medio de la modificación de la función objetivo, penalizando valores altos en los parámetros de la regresión. Muchas veces estas técnicas obtienen valores de cero para los parámetros, por lo que en cierta forma realizan una selección automática de variables. 2.1.1.1 Regularización Ridge La regularización Ridge (también conocida como regularización L2) consiste en agregar a la función objetivo un término de la siguiente forma:𝐿(𝐷) 𝐿(𝐷) = 𝑙𝑜𝑔𝑙𝑜𝑠𝑠(𝐷) + λ 𝑖=1 𝑝 ∑ β 𝑖 2 donde termina siendo un hiperparámetro del modelo que indica la importancia que se le dará a laλ regularización. Note que el efecto de minimizar esta nueva función objetivo es que no solo es importante obtener un buen ajuste a los datos, sino que también hay un cierto grado de importancia en mantener los parámetros del modelo con valores bajos [21]. 2.1.1.2 Regularización Lasso La regularización Lasso (también conocida como regularización L1) es muy similar a la regularización Ridge. La única diferencia es que en vez de tomar los cuadrados de los parámetros del modelo, usa los valores absolutos de estos: 𝐿(𝐷) = 𝑙𝑜𝑔𝑙𝑜𝑠𝑠(𝐷) + λ 𝑖=1 𝑝 ∑ β 𝑖| | El principal efecto que se obtiene diferente a Ridge es que Lasso tiende a llevar a cero algunos de los coeficientes de variables predictoras correlacionadas (al azar entre cada grupo de https://www.zotero.org/google-docs/?9CgeoK https://www.zotero.org/google-docs/?7EkWUZ https://www.zotero.org/google-docs/?gIRpSX 10 variables correlacionadas), mientras que Ridge mantiene todos los coeficientes a pesar de hacerlos pequeños [21]. 2.1.1.3 Elastic Net La técnica conocida como Elastic Net es una combinación del uso de las dos regularizaciones anteriores. Se agrega a la función objetivo el siguiente término: 𝐿(𝐷) = 𝑙𝑜𝑔𝑙𝑜𝑠𝑠(𝐷) + λ 𝑖=1 𝑝 ∑ αβ 𝑖 2 + (1 − α) β 𝑖| |( ) Note que entonces es otro hiperparámetro en este caso, que denota la importanciaα relativa entre la regularización L1 y la regularización L2. En la práctica, los hiperparámetros yα λ suelen ser calibrados en un proceso de validación cruzada durante el entrenamiento del modelo [21]. A continuación se habla sobre redes bayesianas. Este es otro tipo de modelo estadístico que puede servir para hacer inferencia o predicción sobre datos tabulares y está especialmente diseñado para modelar correlaciones y relaciones de causalidad entre variables. Este tipo de modelo es utilizado en muchas métricas de justicia e incluso en algunas técnicas de mitigación del sesgo, por lo que vale la pena entender su funcionamiento particular. También se explican algunas técnicas importantes para entrenar este tipo de modelos, debido a que algunas técnicas de mitigación de sesgo, explicadas más adelante, hacen uso de estas. 2.1.2 Redes bayesianas Una red bayesiana es un modelo estadístico que pretende modelar tanto las correlaciones entre variables como las relaciones causales entre estas. Se dice que una variable aleatoria está𝑋 relacionada causalmente a un conjunto de variables aleatorias si es una función𝑌 1 , 𝑌 2 , ..., 𝑌 𝑛 𝑋 estocástica de , es decir la función de densidad de probabilidad de está determinada𝑌 1 , 𝑌 2 , ..., 𝑌 𝑛 𝑋 para cada posible combinación de valores de [22].𝑌 1 , 𝑌 2 , ..., 𝑌 𝑛 Las redes bayesianas modelan estas relaciones por medio del uso de un grafo acíclico dirigido (conocido como grafo de causalidad) donde cada nodo representa una variable en estudio y cada arista del grafo representa la existencia de una correlación significativa entre las variables que une. Además, la dirección de las aristas se define de tal manera que cada variable en el grafo esté relacionada causalmente a sus padres (y solamente a sus padres). Las redes bayesianas incluyen una función llamada función de distribución de probabilidad condicional (CPD por sus siglas en inglés) para cada vértice del grafo que describe la relación causal con sus padres [22]. https://www.zotero.org/google-docs/?j5UF0v https://www.zotero.org/google-docs/?64Afx5 https://www.zotero.org/google-docs/?qQOBVJ https://www.zotero.org/google-docs/?StVZbU 11 Para efectos de este estudio, se trabajó solamente con variables categóricas cuando se hizo uso de las redes bayesianas, por lo que, en este documento, las CPDs siempre se pueden describir por medio de una tabla en la cual se especifica la probabilidad de que la variable en estudio tome sus posibles valores dadas las posibles combinaciones de valores de sus padres. La figura 2.1 muestra un ejemplo de una red bayesiana que modela información relacionada a los estudiantes de una universidad. Se incluyen como variables aleatorias: la dificultad del colegio en el cual estudió el estudiante, la nota de presentación que obtuvo en el colegio, el contexto social del cual proviene el estudiante (si es favorable o desfavorable), la nota obtenida en el examen de admisión y si este ingresa o no a la universidad. Las relaciones causales codificadas en el grafo muestran que es posible asignar una probabilidad, por ejemplo, a la nota de presentación que obtiene un estudiante en el colegio en base a la dificultad del colegio y a su contexto social. Por ejemplo, si un estudiante viene de un colegio difícil y un contexto social desfavorable, tendrá una probabilidad de 0.98 de obtener una nota de presentación del colegio baja y un 0.02 de obtener una nota alta, mientras que si viene de un colegio fácil y un contexto social favorable, tendrá una probabilidad de 0.3 de obtener una nota baja y de 0.7 de obtener una nota alta. Esta información se ve codificada en la tabla (CPD) asociada al nodo “Nota de colegio”. Dada una red bayesiana, es posible hacer inferencia sobre esta, es decir, dados valores para un subconjunto de las variables en la red, es posible determinar la probabilidad de obtener 12 valores dados para cualquier otro subconjunto de valores en la red. De esta manera, instanciando valores para todas las variables excepto una, se puede usar una red bayesiana para predecir el valor de la variable no instanciada [22]. En el presente caso de estudio, esto se traduce en predecir la probabilidad de impago de un cliente dados valores para las variables predictoras seleccionadas. Existen métodos para obtener una red bayesiana a partir de un conjunto de datos (i.e. entrenar una red bayesiana). Estos métodos se basan, en una primera etapa, en obtener una estructura para el grafo de causalidad que se ajuste de alguna forma a los datos (i.e. aprendizaje de estructura), y en una segunda etapa, en obtener valores para las CPDs que se ajusten también a los datos de entrenamiento, dada la estructura aprendida (i.e. aprendizaje de parámetros) [22]. A continuación, se explica la métrica K2, que se usó para evaluar la bondad de ajuste de la estructura de una red bayesiana al conjunto de datos de entrenamiento, y luego se explican las técnicas de aprendizaje de estructura y de parámetros usadas en este estudio. 2.1.2.1 Métrica K2 La métrica K2 fue planteada originalmente en [23] para evaluar la bondad de ajuste de una red bayesiana a un conjunto de datos de entrenamiento. No se provee aquí la fórmula exacta, debido a que su derivación es compleja y se sale del alcance de este estudio. Tan solo se dirá que la métrica mide la probabilidad conjunta de la estructura de una red bayesiana y un conjunto de datos de entrenamiento con las mismas variables, asumiendo que: 1. Todas las variables son discretas. 2. Todas las observaciones en el conjunto de datos de entrenamiento son independientes. 3. La probabilidad de tener cualquier combinación de valores en los CPDs de la red bayesiana, dada una estructura específica es uniforme. Es decir, que se considera que existe la misma probabilidad de obtener cualquier combinación de CPDs dada la estructura presentada. 2.1.2.2 Algoritmo Hill Climb Search para aprendizaje de estructura Dado un conjunto de datos de entrenamiento, el objetivo del aprendizaje de estructura es obtener un grafo de causalidad (sin CPDs aún) que modele las relaciones causales entre los atributos del conjunto de datos. Una forma de realizar esto es usando una métrica que evalúe qué tan bien modela un grafo de causalidad dado al conjunto de datos dado, por ejemplo, la métrica K2. Debido a que realizar una búsqueda exhaustiva en el espacio de todas las posibles estructuras dado un conjunto fijo de nodos (i.e. los atributos del conjunto de datos) es un problema altamente complejo (NP-hard), se han planteado otros algoritmos que funcionan aproximadamente bien [22]. https://www.zotero.org/google-docs/?CCpbui https://www.zotero.org/google-docs/?CI04m3 https://www.zotero.org/google-docs/?3rcdpe https://www.zotero.org/google-docs/?9wYpD0 13 El algoritmo Hill Climb Search se muestra en la tabla 2.1. Este es un algoritmo ávido (greedy) que comienza con una estructura inicial para el grafo e iterativamente busca grafos que mejoren la métrica (K2 en este caso) en el vecindario inmediato del grafo [22]. Este vecindario está definido como el conjunto de todos los posibles grafos que se pueden derivar del actual usando una de las tres siguientes operaciones básicas: ● agregar una arista ● eliminar una arista ● cambiar el sentido de una arista. https://www.zotero.org/google-docs/?BVU1vn 14 2.1.2.3 Algoritmo Maximum Likelihood para aprendizaje de parámetros Finalmente, el último paso para entrenamiento de una red bayesiana es la estimación o aprendizaje de los parámetros de esta. Con “parámetros”, en este caso, hacemos referencia a las entradas de las tablas que definen las CPDs. El algoritmo de probabilidad máxima (Maximum Likelihood) suele ser considerado el más sencillo y consiste en asumir que las frecuencias conjuntas observadas en el conjunto de datos corresponden a las probabilidades conjuntas correspondientes [22]. En el ejemplo de la figura 2.1, se habrían obtenido las entradas de la tabla del nodo “Examen de admisión” simplemente calculando la frecuencia con la que un estudiante obtiene una nota alta o baja en el examen de admisión para cada posible valor de la variable “Contexto social”. Ahora bien, como se mencionó en la introducción de este capítulo, es debido presentar la métrica que se usó para medir el rendimiento de los modelos, a saber, el coeficiente de Gini. La escogencia de esta métrica se debe a que esta es la que ya se utiliza en la institución en estudio para seleccionar los modelos actualmente, y suele ser un estándar en la literatura. 2.1.3 Evaluación de modelos de clasificación con el coeficiente de Gini El coeficiente de Gini es una medida que se utiliza para evaluar el rendimiento de modelos de clasificación. Este constituye una medida de qué tan cercano es un modelo de clasificación a un modelo perfecto (i.e. que clasifica el 100% de las muestras correctamente), y qué tan lejano es a un modelo aleatorio (i.e. que clasifica aleatoriamente las muestras). Existen distintas formas equivalentes de definir el coeficiente de Gini. Presentamos aquí la forma explicada en [24], la cual utiliza la llamada curva CAP (Cummulative Accuracy Profile) para definir el coeficiente. Observe la figura 2.2. Se considera el caso de un clasificador binario. El eje horizontal corresponde al total de la población de un conjunto de prueba. En el presente caso de estudio, esta población correspondería a todos los posibles deudores del banco. Estos se deben colocar en orden según la calificación otorgada por el modelo en consideración, es decir, primero aquellos clientes que el modelo estima tienen mayor probabilidad de caer en impago y por último los que el modelo estima que tienen menor probabilidad de caer en impago. El eje vertical representa solo a aquellos clientes que efectivamente caen en impago. Note que ambos ejes han sido normalizados para mostrar porcentajes: en el eje horizontal, 100% representa al 100% de las observaciones del https://www.zotero.org/google-docs/?5t6EX0 https://www.zotero.org/google-docs/?1B6hey 15 conjunto, mientras que en el eje vertical, 100% representa al total de los clientes en el conjunto de prueba que caen en impago. La curva con puntos y rayas representa un modelo aleatorio. Note que en este caso la curva corresponde a la recta identidad, puesto que es esperable que para cualquier subconjunto del conjunto de prueba haya una cantidad de personas en impago proporcional a la cantidad de personas que caen en impago del conjunto total. O sea, cuando se ha muestreado un 30% de la población, con un clasificador aleatorio, se espera haber muestreado a un 30% de aquellos que caen en impago. Cuando se muestrea un 50% de la población, se espera haber encontrado a un 50% de aquellos que caen en impago. La curva rayada representa un modelo perfecto. Dado que se tiene a los clientes ordenados de tal forma que aparecen primero aquellos que el modelo estima que tienen mayor probabilidad 16 de impago, es esperable que un modelo perfecto encuentre en primer lugar a aquellos que caen en impago, por lo que el 100% en el eje vertical se alcanza rápidamente. Una vez que se han muestreado todos los clientes que caen en impago, la curva no puede subir más y continúa plana en 100%. La curva continua muestra un ejemplo de cómo se puede ver un modelo típico. Es claro entonces que entre más se acerque la curva del modelo a la curva naranja, y entre más se aleje de la curva azul, mejor será el modelo. Las letras A y B en la figura denotan las áreas respectivas entre la curva verde y la azul, y entre la curva naranja y la verde. El coeficiente de Gini [24], se calcula entonces con la fórmula: 𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝐺𝑖𝑛𝑖 = 𝐴 𝐴+𝐵 Note que con esta fórmula se obtiene entonces un número entre 0 y 1. Entre más cercano sea el coeficiente a 1, el comportamiento del modelo será más cercano al de un modelo perfecto, mientras que, entre más cercano sea a 0, el comportamiento será más cercano a un modelo aleatorio. Finalmente, en el contexto de entrenamiento y evaluación de modelos de clasificación, presentamos el método Bootstrapping, el cual nos ayuda a obtener más información acerca de los posibles errores estadísticos asociados a mediciones particulares, como la medición del coeficiente de Gini. 2.1.4 Método Bootstrapping para estimación de incertidumbre El método Bootstrapping es una técnica estadística muy comúnmente utilizada para cuantificar la incertidumbre asociada con una medición estadística. Funciona de la siguiente manera: dado un conjunto de datos de prueba, se desea simular la obtención de muchas muestras que se comporten de manera similar a los datos de este conjunto de prueba, hacer la medición de interés en cada muestra y de ahí estimar la incertidumbre de esta medición calculando estadísticos como el promedio, desviación estándar o intervalos de confianza. Para realizar dicha simulación, se toma una cantidad de muestras con reemplazo (i.e. se pueden repetir elementos) del conjunto de𝑛 datos de entrenamiento. Sobre estas muestras es que se hace la medición y se calculan sus estadísticos asociados [21]. Se usó esta técnica para generar intervalos de confianza al 95% para el coeficiente de Gini y las métricas de justicia que se usaron en el estudio, los cuales se obtuvieron calculando los https://www.zotero.org/google-docs/?V4Hi2c https://www.zotero.org/google-docs/?Vo1Dkx 17 percentiles 0.025 y 0.975 de las mediciones sobre las muestras de Bootstrapping. Es decir, el 95% de las mediciones se encontraron en el rango reportado. Habiendo explicado los temas básicos de modelos de clasificación, entramos ahora a temas más específicos del presente caso de estudio, comenzando por las posibles fuentes de sesgo que se pueden encontrar en un modelo de este tipo. 2.2 Sesgos en modelos de clasificación El sesgo se ha definido anteriormente como un fenómeno en el cual una persona o un modelo asigna distintas distribuciones de etiquetas a elementos de clases distintas [11]. Los tipos de sesgo que se presentan durante el uso de modelos de aprendizaje de máquina son distintos de los tipos de sesgo que presentan las personas. Durante la revisión de literatura hecha para este estudio (explicada en más detalle en el capítulo de antecedentes), se encontró algunos intentos de clasificar los tipos de sesgo a los que se enfrentan los modelos de aprendizaje de máquina. Sin embargo, ninguna clasificación fue satisfactoria, por lo que se propone aquí una nueva clasificación, la cual se muestra en la figura 2.3 y se explica a continuación. Sin embargo, antes de entrar en detalles con dicha clasificación, es necesario aclarar algunos términos. En la introducción de este documento se habla de sesgos aceptables y sesgos discriminatorios. Cuando se trata de sesgos discriminatorios, normalmente se trabaja con datos de personas. Se conoce como atributo protegido o atributo sensible a aquel atributo de los datos que constituye la variable de interés sobre la cual históricamente se ha dado discriminación en el contexto en estudio [11]. En este caso de estudio, por ejemplo, el atributo sensible es el género de https://www.zotero.org/google-docs/?xgEVhA https://www.zotero.org/google-docs/?MWITQq 18 las personas. Otros ejemplos podrían ser la edad o la etnia. Al grupo de personas históricamente discriminadas en base a este atributo se les conoce como el grupo protegido o grupo no-privilegiado [11], [19], [25]. Entonces, volviendo a la clasificación de tipos de sesgo, en un primer nivel, se puede clasificar los sesgos según su fuente. Se tienen tres categorías: sesgos en los datos de entrenamiento, sesgos introducidos por el modelo y sesgos introducidos durante el uso del modelo. Entre los sesgos en los datos de entrenamiento, se tiene, en primer lugar, el tratamiento dispar. Este tipo de sesgo ocurre cuando los datos para entrenar el modelo presentan resultados que están directamente sesgados. Por ejemplo, en el caso del sesgo de género en calificaciones de crédito, si se tiene un conjunto de datos en el cual hay créditos que no se otorgaron a mujeres solo por el hecho de ser mujeres, esto es tratamiento dispar [19]. En segundo lugar, el sesgo de asociación se refiere a un tipo de sesgo en el cual, incluso si la variable sensible (e.g. el género) no se encuentra en el conjunto de datos, existen otras variables no-sensibles altamente correlacionadas con esta primera [12]. Un ejemplo típico en Estados Unidos es el uso del código postal de los clientes, el cual está altamente correlacionado con su raza debido a razones históricas. A este tipo de variables asociadas con una variable sensible, se les conoce con el nombre de variables redlining [19]. El sesgo de selección ocurre cuando un grupo de observaciones se encuentra subrepresentado en el conjunto de datos [12]. Por ejemplo, si un banco utiliza como datos de entrenamiento información solamente de los y las clientes a quienes les ha otorgado créditos históricamente, y si históricamente se le ha otorgado más créditos a hombres que a mujeres, se tiene un sesgo de selección operando en contra de las mujeres. Un cuarto tipo de sesgo que puede estar presente en los datos de entrenamiento es el sesgo intencional. Mancuhan y Clifton [20] mencionan como un ejemplo de este tipo de sesgo el Acta de Igualdad de Oportunidades Crediticias de Estados Unidos, en la cual se hace una excepción explícita que permite el uso de la edad en calificaciones de crédito, a pesar de que este atributo se considera sensible. Dentro de los sesgos introducidos por el modelo, se tiene el uso directo de atributos sensibles y el sesgo intencional [20], [25]. Estos sesgos son similares al tratamiento dispar y el sesgo intencional en el conjunto de datos; simplemente se hace la distinción de que estos tipos de https://www.zotero.org/google-docs/?ICWjcu https://www.zotero.org/google-docs/?pB294r https://www.zotero.org/google-docs/?7KQorI https://www.zotero.org/google-docs/?cgsi90 https://www.zotero.org/google-docs/?IHCMAw https://www.zotero.org/google-docs/?pjL6m7 https://www.zotero.org/google-docs/?I6sa3Y 19 sesgo pueden ser introducidos en la etapa de entrenamiento del modelo aun con un conjunto de datos sin sesgos. Dos tipos adicionales de sesgos introducidos por el modelo son el sesgo de subestimación, el cual puede ocurrir cuando se utiliza un modelo que no ha convergido por completo [26], y el sesgo malicioso, en el cual se lleva a cabo una manipulación intencional de un modelo para producir resultados sesgados [27]. Finalmente, durante el uso del modelo, se ha identificado el sesgo de automatización. Este tipo de sesgo puede ocurrir de manera positiva, cuando se favorece los resultados de un modelo de aprendizaje de máquina por encima del criterio humano, independientemente del grado de exactitud de cada método; o de manera negativa, cuando más bien se favorece el criterio humano [11]. Para poder determinar si un modelo de aprendizaje de máquina es justo o no, o inclusive para determinar si un modelo es más justo que otro, es necesario tener una definición clara de lo que es la justicia y cómo medirla. En la siguiente subsección se trata este problema. 2.3 Definiciones de justicia Definir la justicia es un problema filosófico sin una respuesta única. Esto se ve reflejado en la literatura, pues existen diferentes definiciones de métricas que intentan definir cuándo un modelo es más justo que otro. Se presenta aquí una categorización basada en los estudios de Balayn, Lofi y Houben [11], y de Verma y Rubin [25]. Es importante recalcar que, como bien se menciona en estos mismos estudios, se ha demostrado que estas definiciones son matemáticamente incompatibles, en el sentido de que no es posible tener un modelo que sea justo bajo todas las definiciones aquí presentadas simultáneamente. 2.3.1 Clasificación de métricas de justicia A un nivel amplio, las definiciones de justicia se clasifican en tres grandes grupos: justicia de grupo, justicia individual y justicia causal [11], [25]. La justicia de grupo define como “justo” a un modelo que trata de “igual manera” a los miembros de un grupo protegido (e.g. en el presente caso, las mujeres) respecto a los demás grupos o al total de las observaciones. Entre las métricas que se basan en esta definición de justicia, se encuentran aquellas basadas en las etiquetas predichas, las cuales usan solamente la distribución de etiquetas asignadas por el modelo a los distintos grupos para medir qué tan justo https://www.zotero.org/google-docs/?8sQsTu https://www.zotero.org/google-docs/?6LwdAH https://www.zotero.org/google-docs/?RF0PGW https://www.zotero.org/google-docs/?7mifxP https://www.zotero.org/google-docs/?td6m6y https://www.zotero.org/google-docs/?gZSpF1 20 es el modelo. También están las métricas basadas en etiquetas predichas y etiquetas reales, que, como su nombre lo indica, usan también las etiquetas “reales” provenientes del conjunto de datos de entrenamiento (este tipo de métricas asume que tales etiquetas “reales” existen en primera instancia). En tercer lugar, existen también métricas de justicia de grupo basadas en probabilidades de predicción y etiquetas reales, las cuales usan las probabilidades de que las etiquetas predichas sean correctas, según las asigne el modelo [11], [25]. La justicia individual pretende que un modelo justo trate de “igual manera” a cada individuo, independientemente de si este pertenece a un grupo protegido o no. La justicia por desconocimiento (fairness through unawareness) es la manera más inocente en que se pretende hacer esto, solamente haciendo que el modelo no tenga acceso directo a la información protegida de un individuo. La justicia por contraste (counterfactual fairness) se basa en la obtención del mismo resultado para dos individuos cuyos atributos son iguales exceptuando quizá sus atributos protegidos. La justicia por conocimiento (fairness through awareness) se basa en la idea de que dos individuos “similares” (bajo alguna métrica) deberían recibir etiquetas “similares” (bajo alguna métrica) [11], [25]. Las métricas de justicia causal se basan en el uso de grafos de causalidad. No para todos los modelos es posible construir un grafo de este tipo. Entre este tipo de métricas se encuentra la discriminación causal, la cual establece que un modelo es justo si el resultado dado por este no depende en su grafo de causalidad de un descendiente del atributo protegido [25]. Una segunda versión de justicia causal es la falta de discriminación irresuelta. Esta se basa en el concepto de atributos de resolución, los cuales son atributos en el grafo de causalidad que se ven influenciados por el atributo protegido de una manera que no se considera discriminatoria. Por ejemplo, el género de una persona puede influenciar su salario, sin embargo, no se considera discriminatorio hacer uso del salario de una persona para considerar las condiciones que se le otorgan en un crédito. La falta de discriminación irresuelta ocurre cuando no existe ningún camino en el grafo de causalidad desde el atributo protegido hasta la etiqueta predicha, excepto a través de un atributo de resolución [25]. En tercer lugar, se encuentra la falta de discriminación por proxy. Un atributo proxy es un atributo cuyo valor puede ser derivado por medio del uso de otro atributo. Por ejemplo, muchas veces es posible determinar el género de una persona a través de su profesión. Un modelo tiene una falta de discriminación por proxy si en su grafo de causalidad no existe ningún camino desde el https://www.zotero.org/google-docs/?7BWYcc https://www.zotero.org/google-docs/?W747vQ https://www.zotero.org/google-docs/?57mLY6 https://www.zotero.org/google-docs/?dxdRpo 21 atributo protegido hasta la etiqueta predicha que pase por un atributo proxy del atributo protegido [25]. El cuarto y último tipo identificado de justicia causal es la inferencia justa. Para hacer uso de esta definición es necesario identificar todos los caminos del atributo protegido a la etiqueta predicha en el grafo de inferencia de un modelo como legítimos o ilegítimos. Un modelo justo es entonces aquel en el cual no hay ningún camino ilegítimo entre el atributo protegido y la etiqueta predicha en su grafo de causalidad [25]. Finalmente, durante la revisión de literatura se encontró una referencia sobre la justicia en el proceso, la cual no se ha podido ajustar en ninguna categoría de las anteriormente mencionadas. Esta definición se basa de manera un poco más abstracta en la búsqueda de un tratamiento justo durante el proceso que lleva a la predicción, tomando en cuenta y documentando atributos de entrada que son usados por el modelo [9]. En las siguientes sub-secciones se detallan algunas métricas de justicia específicas que fueron usadas en este estudio. La justificación de por qué se usan estas y no otras se puede ver con detalle en el capítulo de metodología y el de resultados. 2.3.2 Porcentaje de puntos que fallan un test situacional Un test situacional es un tipo de prueba básica que se puede realizar sobre un modelo de clasificación. El test consiste en cambiar el atributo protegido de un individuo, sin cambiar los demás atributos y alimentar con estos datos al modelo para verificar que el resultado no cambie. Si el resultado del modelo cambia al cambiar el atributo protegido, esto muestra evidencia de la existencia de un tratamiento dispar del modelo. Este tipo de test puede ser utilizado como métrica de la equidad en el modelo midiendo la proporción de individuos que fallan el test en un conjunto de prueba [28]. Note que este es un tipo de métrica de justicia individual por contraste. 2.3.3 Porcentaje de personas en el grupo no-privilegiado a las que el modelo asigna un resultado negativo Un siguiente paso para medir la justicia de un modelo está dada por el porcentaje de personas en la clase no-privilegiada a las que el modelo asigna un resultado negativo (medido sobre un conjunto de prueba) [29]. Este es un tipo de métrica de justicia de grupo basada en las etiquetas predichas. Por supuesto, esta es una métrica muy limitada, puesto que no considera la diferencia que hay respecto al grupo privilegiado. https://www.zotero.org/google-docs/?UGRQ4h https://www.zotero.org/google-docs/?EODl87 https://www.zotero.org/google-docs/?qyW9ty https://www.zotero.org/google-docs/?PBN0DE https://www.zotero.org/google-docs/?6zO5Gi 22 2.3.4 Equal Odds Difference (EOD) La métrica llamada EOD (Equal Odds Difference) pretende medir la diferencia entre el grupo protegido y el grupo privilegiado en la probabilidad del modelo de asignar un resultado positivo a un cliente dado que este cliente realmente hace sus pagos a tiempo [28]. Es un tipo de métrica de justicia de grupo basada en etiquetas predichas y etiquetas reales. En particular, en este caso de estudio, se mide la diferencia entre dos cantidades: la probabilidad de que los hombres con bajo riesgo de crédito sean evaluados correctamente en el modelo y la misma probabilidad para las mujeres. Intuitivamente, esta métrica evalúa al modelo como “justo” si el género no influye en la decisión del modelo de asignar un resultado positivo a un cliente; es decir, el modelo no favorece a nadie en base a su género. Formalmente, el EOD se define de la siguiente manera sobre un conjunto de prueba: 𝐸𝑂𝐷 = 𝑇𝑃𝑅 𝑃 − 𝑇𝑃𝑅 𝑈 donde se refiere a la tasa de verdaderos positivos de la clase privilegiada y se refiere a𝑇𝑃𝑅 𝑃 𝑇𝑃𝑅 𝑈 la tasa de verdaderos positivos de la clase no-privilegiada. La tasa de verdaderos positivos de cada grupo se define a su vez como: 𝑇𝑃𝑅 = 𝑇𝑃 𝑇𝑃+𝐹𝑁 donde es la cantidad de verdaderos positivos asignados por el modelo, es decir, la cantidad de𝑇𝑃 individuos que no caen en impago a los que el modelo les asigna un resultado positivo2. El término hace referencia a los falsos negativos, es decir, aquellos individuos en el conjunto de prueba a𝐹𝑁 los que el modelo asigna un resultado negativo a pesar de que no caen en impago [28]. La tabla 2.2 resume estos términos. 2 Convencionalmente, en modelos de calificación crediticia, se suele tomar como valor “positivo” el impago, por lo que la tasa de verdaderos positivos haría referencia a la probabilidad del modelo de predecir impago para un cliente que realmente impaga. Sin embargo, en las métricas EOD y AOD se suele equiparar la definición de “positivo” con los resultados que suelen considerarse positivos según el contexto. En este caso, lo positivo para el cliente es predecir no-impago, puesto que implica beneficios para este. Caen en impago No caen en impago Modelo predice impago TN (verdaderos negativos) FN (falsos negativos) Modelo predice no-impago FP (falsos positivos) TP (verdaderos positivos) https://www.zotero.org/google-docs/?cwBFy5 https://www.zotero.org/google-docs/?eU788y 23 Una limitación importante de esta métrica es que asume que los datos de prueba son correctos, es decir, que no existen sesgos provenientes de estos. También cabe observar que, según lo reportado por [25], los autores fueron capaces de entrenar un modelo con EOD igual a 0.00% en el conjunto de datos de German Credit [30]. Por sí solo este parece ser un buen resultado, sin embargo, tomando en cuenta otras métricas, se observa las limitaciones del EOD, como se explica en la siguiente sub-sección.2.3.5 Average Odds Difference (AOD) Una de las principales limitaciones del EOD es el hecho de que solo considera a las personas en el conjunto de prueba con verdaderos resultados positivos, es decir, en este caso solo se considera a aquellas personas que no caen en impago. Se podría decir que el EOD solo se preocupa por un trato justo para aquellas personas que no caen en impago. Podría ocurrir que el modelo obtenga un EOD de cero y sin embargo, tenga un trato que se considere injusto para las personas que sí caen en impago, asignando mejores resultados (erróneamente) al grupo privilegiado, por ejemplo. El AOD (Average Odds Difference) pretende corregir esta limitación del EOD considerando también a las personas que tienen un verdadero resultado negativo. Formalmente, se define como: 𝐴𝑂𝐷 = 𝐹𝑃𝑅 𝑃 −𝐹𝑃𝑅 𝑈( )+(𝑇𝑃𝑅 𝑃 −𝑇𝑃𝑅 𝑈 ) 2 donde y tienen el mismo significado que en el EOD y y representan la tasa𝑇𝑃𝑅 𝑃 𝑇𝑃𝑅 𝑈 𝐹𝑃𝑅 𝑃 𝐹𝑃𝑅 𝑈 de falsos positivos para la clase privilegiada y la clase no privilegiada, respectivamente. El de𝐹𝑃𝑅 cada clase se define a su vez como: 𝐹𝑃𝑅 = 𝐹𝑃 𝐹𝑃+𝑇𝑁 donde es la cantidad de individuos en el conjunto de prueba para los que el modelo predice un𝐹𝑃 resultado positivo a pesar de que realmente no lo tienen, y es la cantidad de individuos en el𝑇𝑁 conjunto de prueba con un resultado negativo y para los cuales el modelo predice correctamente un resultado negativo [28]. Nuevamente, la tabla 2.2 resume estos términos. Note que, al igual que el EOD, esta es una métrica de justicia de grupo basada en etiquetas predichas y etiquetas reales. 2.3.6 Porcentaje de individuos discriminados según métrica BEL (Bayesian Extended Lift) Mancuhan y Clifton [20] presentan el uso de la métrica Bayesian Extended Lift (BEL) para hacer una medición de la discriminación en el conjunto de datos. A diferencia de las métricas https://www.zotero.org/google-docs/?J4D3Im https://www.zotero.org/google-docs/?yD2qCm https://www.zotero.org/google-docs/?N01Qxn https://www.zotero.org/google-docs/?NdYXob 24 anteriores, esta no se preocupa por los resultados de un modelo, sino solamente por aquellos resultados que se suelen tomar como “reales” en el conjunto de datos de entrenamiento. Para definir el BEL, se dividen los atributos del conjunto de datos en los conjuntos , y , donde representa a los atributos𝐴 = {𝑎 1 , 𝑎 2 , …, 𝑎 𝑙 } 𝐵 = 𝑏 1 , 𝑏 2 , …, 𝑏 𝑚{ } 𝑅 = {𝑟 1 , 𝑟 2 , …, 𝑟 𝑛 } 𝐴 protegidos, representa a los atributos no-protegidos y representa a los atributos con efecto𝐵 𝑅 redlining, es decir, aquellos atributos que no son protegidos pero que están correlacionados con los de . Además, se define como las posibles clases en las que se clasifica cada punto en𝐴 𝐶 = {−, +} el conjunto de datos (en nuestro caso, si el cliente cae en impago o no). Es decir, una instancia 𝑥 en el conjunto de datos es de la forma: 𝑥 = (𝑥 1 , 𝑥 2 , …, 𝑥 𝑙 , 𝑦 1 , 𝑦 2 , …, 𝑦 𝑚 , 𝑧 1 , 𝑧 2 , …, 𝑧 𝑛 , 𝑐) donde 𝑥 1 ∈ 𝑑𝑜𝑚 𝑎 1( ), 𝑥 2 ∈ 𝑑𝑜𝑚 𝑎 2( ), …, 𝑥 𝑙 ∈ 𝑑𝑜𝑚 𝑎 𝑙( ), 𝑦 1 ∈ 𝑑𝑜𝑚 𝑏 1( ), 𝑦 2 ∈ 𝑑𝑜𝑚 𝑏 2( ), …, 𝑦 𝑚 ∈ 𝑑𝑜𝑚 𝑏 𝑚( ), , con denotando el dominio de . 𝑧 1 ∈ 𝑑𝑜𝑚 𝑟 1( ), 𝑧 2 ∈ 𝑑𝑜𝑚 𝑟 2( ), …, 𝑧 𝑛 ∈ 𝑑𝑜𝑚 𝑟 𝑛( ), 𝑐 ∈ 𝐶 𝑑𝑜𝑚(𝑤) 𝑤 Entonces, el BEL se define como: 𝐵𝐸𝐿(𝑥) = 𝑃(𝑐|𝑥 1 ,𝑥 2 ,…,𝑥 𝑙 , 𝑦 1 ,𝑦 2 ,…,𝑦 𝑚 , 𝑧 1 ,𝑧 2 ,…,𝑧 𝑛 ) 𝑃(𝑐|𝑦 1 ,𝑦 2 ,…,𝑦 𝑚 ) de tal forma que , donde denota𝑃 𝑐|𝑥 1 , 𝑥 2 , …, 𝑥 𝑙 , 𝑦 1 , 𝑦 2 , …, 𝑦 𝑚 , 𝑧 1 , 𝑧 2 , …, 𝑧 𝑛( ) > 𝑡 > 𝑃(𝑐|𝑦 1 , 𝑦 2 , …, 𝑦 𝑚 ) 𝑡 el límite de decisión de un modelo entre y .𝑐 =− 𝑐 =+ Note que esta definición asume la existencia de un modelo de clasificación binaria entre las clases en , de tal forma que el BEL está definido para una instancia del conjunto de datos cuando,𝐶 al tomar en cuenta todas las variables de esta, el modelo asigna una probabilidad alta de que la instancia pertenezca a una de las clases en , mientras que cuando se toma en cuenta solo los𝐶 atributos no-protegidos de la instancia, este asigna una probabilidad baja (donde el límite entre “alto” y “bajo” está dado por ). Entonces, la métrica BEL, mide, para cada instancia en la que hay𝑡 un cambio en la decisión del modelo según si se usan o no los atributos protegidos y redlining, la proporción de cambio en la probabilidad asignada por el modelo. Sin embargo, como se mencionó anteriormente, esta métrica no mide la discriminación sobre un modelo específico, sino que construye un modelo basado en redes bayesianas para hacer esta medición sobre este modelo. Por esta razón, se puede clasificar esta métrica entre las métricas de justicia causales, específicamente como un tipo de métrica basada en la falta de discriminación por proxy. 25 Para estudiar la discriminación en el conjunto de datos, entonces, se realiza lo siguiente, según proponen los autores originales de la métrica: 1. En primer lugar, se hace necesario discretizar todos los datos que se utilizan. Esto no es explícitamente mencionado en [20], puesto que los autores comienzan usando datos puramente categóricos; sin embargo, los algoritmos utilizados por los autores para la construcción de redes bayesianas asumen que todos los datos utilizados son categóricos. El algoritmo de discretización utilizado para este estudio (de elaboración propia) se describe en la tabla 2.3. A continuación, se señalan algunos aspectos notables de este algoritmo: a. Se intenta discretizar cada columna preferiblemente usando los cuantiles de los datos provistos en la columna. Esto se debe a que muchos de los datos con los que se trabajó en este caso de estudio eran altamente skewed (se usa la palabra en inglés para distinguir este aspecto del sesgo de género que se está trabajando), por lo que era preferible usar este tipo de discretización [21]. Sin embargo, existen casos con extremo skewness en los que aun discretizando según los cuantiles, se obtiene un solo intervalo de valores, por lo que en dichos casos se opta por realizar los cortes de discretización de manera uniforme entre el valor mínimo y el valor máximo encontrados en la columna. https://www.zotero.org/google-docs/?pGSgnK https://www.zotero.org/google-docs/?VIXifK 26 b. Se agrega el parámetro max_cortes debido a limitaciones de poder de procesamiento. En todos los experimentos del presente estudio, se usó un valor de 5 para este parámetro. c. Note que este algoritmo se realiza de tal forma que se mantenga la correlación entre las variables lo más cercana a la correlación original entre las variables continuas, según el estadístico r de Pearson. El algoritmo minimiza la distancia euclidiana entre el vector dado por los valores de correlación de cada columna con las demás y el vector dado por los valores de correlación de la versión discretizada de la columna con las demás. Asimismo, se agregan pesos a la función de distancia para tomar en cuenta los p-values arrojados por la prueba estadística, de tal forma que se le da mayor peso a los estadísticos de correlación con diferencias en los p-values que sean bajas. Los pesos se normalizan para obtener valores entre 0 y 1 usando la siguiente función: 𝑓(𝑝 1 , 𝑝 2 ) = 1 1+𝑒 −(|𝑝 1 −𝑝 2 |)/1.5 donde y denotan los p-values mencionados anteriormente.𝑝 1 𝑝 2 2. Usando el conjunto de datos discretizado, se entrena una red bayesiana que permite hacer inferencia sobre la variable a predecir. Esta red se construye inicialmente con la suposición de Naive Bayes (es decir, se asume que existe una relación de causalidad entre todas las variables predictoras y la variable a predecir) y luego se aprenden las demás relaciones causales de forma automática, así como las tablas de probabilidad (CPDs) entre cada par de variables relacionadas por la red. Los algoritmos usados para entrenar esta red bayesiana son Hill Climb Search (acompañado de la métrica K2) para aprender la estructura, y Maximum Likelihood para aprender los parámetros de la red. En el presente caso de estudio, se usó la implementación de estos algoritmos implementada en el módulo bnlearn de Python [31]. 3. A partir de la red anterior, se eliminan los atributos protegidos (en este caso, solo el género) y los atributos redlining, que, según definen los autores originales para este método, corresponden con aquellos atributos que tienen una conexión causal directa en la red bayesiana, exceptuando el atributo a predecir. Esta nueva red debe pasar por el https://www.zotero.org/google-docs/?sHq3Fp 27 proceso de aprendizaje de estructura nuevamente para actualizar las tablas de probabilidad asociadas. Este paso se resume en la tabla 2.4. 4. Usando estas dos redes bayesianas, es posible calcular (con la primera) y (con la𝑃(𝑐|𝑥 1 , 𝑥 2 , …, 𝑥 𝑙 , 𝑦 1 , 𝑦 2 , …, 𝑦 𝑚 , 𝑧 1 , 𝑧 2 , …, 𝑧 𝑛 ) 𝑃(𝑐|𝑦 1 , 𝑦 2 , …, 𝑦 𝑚 ) segunda), por lo que se puede calcular el BEL para cada individuo en el conjunto de entrenamiento. Luego, la métrica final consiste en determinar el porcentaje de individuos en el conjunto de entrenamiento que tienen una métrica BEL mayor a un umbral dado3. Al igual que los autores, se usó en este estudio como umbral el valor 1, el cual indica que la probabilidad de asignar a un cliente un resultado negativo es mayor en cualquier medida al usar los atributos protegidos y redlining, que si estos atributos no se consideran. Este último paso se resume en la tabla 2.5. En la siguiente sección de este capítulo, se hace un repaso breve de la clasificación más utilizada para las técnicas de mitigación del sesgo, seguido de una explicación detallada de las técnicas utilizadas en este estudio. Al igual que en caso de las métricas, la justificación de por qué se usan estas técnicas y no otras se detalla en las secciones de metodología y resultados. 3 Note que la métrica BEL solo está definida para aquellos individuos para los cuales existe un cambio en la predicción del modelo al usar o no usar los atributos protegidos y redlining. Para efectos de calcular el porcentaje, se toma el BEL como -1 para aquellos individuos para los cuales la métrica no está definida, de tal forma que se considera que estos individuos no sufren una discriminación por parte del modelo. 28 2.4 Técnicas de mitigación del sesgo En la literatura (ver, por ejemplo, [11]) es usual clasificar las técnicas de mitigación del sesgo según su etapa de aplicación. En primer lugar, tenemos las técnicas de pre-procesamiento, las cuales se basan en la modificación de los datos de entrenamiento para reducir el sesgo en estos y por tanto el sesgo que un modelo de aprendizaje de máquina aprende a partir de los datos. Las técnicas de procesamiento se basan en modificar el proceso de aprendizaje del modelo para mitigar el sesgo, por ejemplo, mediante cambios en la función objetivo. Finalmente, las técnicas de pos-procesamiento son aplicadas sobre modelos ya entrenados para reducir el sesgo presente en sus resultados. Por ejemplo, existen técnicas que modifican los datos que se alimentan a un modelo entrenado para tratar de mitigar el sesgo que el modelo pueda presentar. En la práctica, sin embargo, se ha encontrado que muchas técnicas tienen componentes que pueden clasificarse en más de una de estas categorías. A continuación, se explican en detalle las técnicas de mitigación de sesgo utilizadas en este estudio, empezando por la llamada Fairway. 2.4.1 Fairway La técnica Fairway presentada por Chakraborty, Majumder, Yu y Menzies [28] consiste en realidad en dos técnicas que podrían manejarse de forma separada: un paso de pre-procesamiento https://www.zotero.org/google-docs/?pbf6KY https://www.zotero.org/google-docs/?2bmx06 29 de los datos y un paso de procesamiento. El diagrama de la figura 2.4 resume los pasos a seguir en esta técnica. Note que el conjunto de datos se divide en datos de entrenamiento, validación y pruebas, como suele ser usual. En la etapa del pre-procesamiento, los autores introducen un paso para lo que ellos llaman “eliminación del sesgo”. Este paso consiste en entrenar dos modelos predictivos usando los datos de entrenamiento y validación. Un modelo se entrena solo con observaciones de la clase protegida y el otro solo con observaciones de la clase privilegiada. Luego, todas las observaciones son evaluadas por ambos modelos y se genera un nuevo conjunto de entrenamiento/validación que excluye a todas aquellas instancias en las que los dos modelos difieran en su predicción [28]. La tabla 2.6 resume los pasos anteriores. El otro procedimiento que los autores presentan es el uso de una función multi-objetivo que sustituye a la función objetivo tradicional que se usa en el entrenamiento. Esta técnica es llamada por los autores FAIR_FLASH. Basta con definir las funciones de interés que se desea que el modelo optimice de tal forma que todas deban minimizarse (por ejemplo, se usa en vez de 1 − 𝐺 , donde representa el coeficiente de Gini del modelo). Luego, se suman estas funciones y se𝐺 𝐺 optimiza el modelo sobre la suma de ellas. Finalmente, se evalúa el modelo optimizado usando el conjunto de datos de prueba, como es usual [28]. A continuación se presenta la segunda metodología usada en este estudio: LimeOut. https://www.zotero.org/google-docs/?I9dWzw https://www.zotero.org/google-docs/?xu37ts 30 2.4.2 LimeOut Bhargava, Couceiro y Napoli [9] presentan la técnica LimeOut. Esta se divide en dos etapas que se aplican ambas durante el entrenamiento del modelo. A estas etapas les llaman LIMEGlobal y ENSEMBLEOut. 2.4.2.1 LIMEGlobal El objetivo principal de la primera etapa de LimeOut, llamada LIMEGlobal, es determinar las características más importantes para el modelo de clasificación actual. Estas características son una entrada para la siguiente etapa, donde se busca mitigar el efecto de aquellas que sean protegidas o tengan el efecto redlining. Los autores del método recomiendan determinar cuáles son las 10 características más importantes del modelo (o algún número manejable para un humano) [9]. En el presente caso, el modelo utilizaba solamente seis características para hacer las predicciones, por lo que esta etapa se pudo obviar y fue posible aplicar directamente ENSEMBLEOut con todos los atributos disponibles. Por completitud, se describe acá brevemente esta etapa y se desarrolla en más detalle en el Anexo A. Otro aspecto importante a considerar fue que LIMEOut asume que ya existe un modelo entrenado sobre el conjunto de datos al comenzar. En el presente caso de estudio, esto no representa ningún problema, puesto que así es; sin embargo, en un caso en el que no exista un primer modelo, bastaría con entrenar un modelo primeramente sin usar ninguna técnica de mitigación de sesgos. https://www.zotero.org/google-docs/?VbaJZh https://www.zotero.org/google-docs/?IOKuiT 31 LIMEGlobal se basa en la metodología LIME (Local Interpretable Model-agnostic Explanations), propuesta por Ribeiro, Singh y Guestrin en 2016 [32]. Esta es una metodología usada para generar explicaciones locales para cualquier tipo de modelo, especialmente para aquellos que suelen ser más difíciles de interpretar. LIME consiste en generar, para cualquier observación dada, un modelo simple que aproxime localmente al modelo complejo que se pretende explicar. Así, por ejemplo, se puede usar un modelo lineal para aproximar localmente el resultado de un modelo basado en redes neuronales, de tal forma que sea más intuitivo para un usuario entender qué características de los datos tienen importancia para el modelo a la hora de hacer la predicción, al menos para elementos relativamente similares al elemento en estudio. Los autores también propusieron una metodología para seleccionar aquellas instancias en un conjunto de datos que pudiesen proveer más información a un usuario humano acerca del comportamiento del modelo a explicar, es decir, un conjunto de instancias de los datos que sean diversas y no redundantes. A esta metodología le llamaron escogencia submodular (submodular pick) [32]. Originalmente, el método se planteó solamente para modelos de procesamiento de lenguaje natural o de visión por computadora. En 2020, Garreau y von Luxburg [33], [34] extendieron el método LIME para incluir modelos basados en datos tabulares. Esta extensión consiste en discretizar los datos usando la distribución empírica de los mismos encontrada en un conjunto de datos de entrenamiento. Bhargava, Couceiro y Napoli [9] utilizan esta nueva versión de LIME para generar, en la etapa LIMEGlobal de LimeOut, una explicación global del modelo en uso. Esto se realiza combinando los resultados de las explicaciones locales, en última instancia generando una puntuación de cada uno de los atributos de los datos según su importancia para el modelo. Como se mencionó anteriormente, los autores luego plantean hacer una escogencia de las variables más importantes según se obtienen de acá. Estas variables serán insumo de la siguiente etapa, ENSEMBLEOut. 2.4.2.2 ENSEMBLEOut ENSEMBLEOut toma como insumo las variables más importantes para el modelo según se identifican en la etapa anterior. De estas variables, se debe identificar aquellas que son protegidas o con efecto redlining. Seguidamente, se entrena un conjunto de modelos excluyendo, para cada modelo, un subconjunto de estas variables de las entradas del modelo. Los autores recomiendan, para evitar un crecimiento exponencial en la cantidad de modelos entrenados, entrenar solamente una cantidad de modelos, donde es la cantidad de atributos protegidos o redlining𝑁 + 1 𝑁 https://www.zotero.org/google-docs/?3JTJqq https://www.zotero.org/google-docs/?E38wcp https://www.zotero.org/google-docs/?lIBush https://www.zotero.org/google-docs/?xFY3AU 32 identificados en los insumos de esta etapa. Así, los primeros modelos serán modelos en los que𝑁 no se considera una de las variables protegidas o redlining, y el último modelo será uno en el que𝑁 no se considera ninguna. Para obtener el modelo final, se toma como resultado el promedio de las probabilidades asignadas por cada uno de los modelos del conjunto [9]. Finalmente, se presenta la tercera técnica de mitigación de sesgo usada en este estudio. 2.4.3 Técnica de Mancuhan y Clifton basada en redes bayesianas La tercera técnica de mitigación de sesgo que se trabajó en este caso de estudio fue la técnica presentada por Mancuhan y Clifton basada en redes bayesianas [20]. Esta técnica incluye una etapa de pre-procesamiento basada en el uso de la métrica que ellos mismos plantean y una etapa de procesamiento que no es independiente del tipo de modelo, sino que obliga al usuario de la técnica a entrenar un modelo basado en redes bayesianas. A continuación se explica cada etapa. La etapa de pre-procesamiento utiliza los resultados obtenidos de la medición de la métrica de justicia basada en la métrica BEL que se presentó en la sección 2.3.6. Note que el penúltimo producto que se obtiene al medir el sesgo en el conjunto de datos de entrenamiento usando la técnica ahí explicada es un indicador de cuáles individuos en los datos de entrenamiento se considera que han sido discriminados y cuáles no. Usando este insumo, el paso de pre-procesamiento para la técnica de mitigación, consiste en cambiar la variable a predecir para aquellos individuos en el conjunto de entrenamiento que se consideran discriminados [20]. En este caso, esto quiere decir que, si un individuo se detecta como discriminado según la métrica BEL, entonces, como paso de pre-procesamiento para mitigar el sesgo, se cambia su indicador de impago de verdadero a falso o viceversa. En la etapa de procesamiento, según el método descrito, se debe tomar la red bayesiana generada durante la medición de la métrica de justicia. A esta red bayesiana se le debe eliminar los nodos correspondientes a las variables protegidas y re-entrenar el modelo para re-calcular las tablas de probabilidad asociadas a cada nodo restante (aprendizaje de parámetros). No se eliminan las variables redlining puesto que los autores consideran que aún pueden contener información relevante para el modelo; la mitigación del sesgo en estas variables se realizó en el paso de pre-procesamiento. Finalmente, la red bayesiana obtenida sin los atributos protegidos y con las nuevas tablas de probabilidad es el modelo final que se utiliza para hacer inferencia sobre nuevas instancias [20]. La tabla 2.7 resume los pasos explicados anteriormente. Finalmente, en la siguiente sección se definen algunas pruebas estadísticas que fueron utilizadas a lo largo del estudio. https://www.zotero.org/google-docs/?sF1r06 https://www.zotero.org/google-docs/?YrMb29 https://www.zotero.org/google-docs/?TZ1Ji0 https://www.zotero.org/google-docs/?XejI3i 33 2.5 Pruebas estadísticas Se presentan aquí las pruebas en un orden lógico según su complejidad. Se comienza por la prueba de Chi Cuadrado, que fue usada para medir la correlación entre el género y el impago (ver sección 4.1.1). Luego, se sigue con las pruebas t de Student para dos muestras (independientes y pareadas) y la prueba H de Kruskal-Wallis. Estas pruebas miden la correlación entre una variable categórica y una continua. Las pruebas de t de Student fueron usadas en combinación con el método Bootstrapping para verificar si existe una diferencia estadísticamente significativa en los resultados de las mediciones de justicia y rendimiento sobre distintos modelos de clasificación (ver secciones 4.8, 5.7 y 5.8). La prueba de Kruskal-Wallis fue utilizada para verificar si había correlación entre el género y otras variables, es decir, para detectar variables redlining (ver sección 4.1.2). Luego, se presenta la prueba r de Pearson, la cual mide la correlación entre variables continuas y fue usada en el algoritmo de la tabla 2.3 para discretizar datos. Finalmente, presentamos el índice de asociación de Kendall ajustado por empates, el cual fue mencionado en la introducción. El resultado de la aplicación de este índice para cada cliente constituye una de las variables predictoras del modelo en estudio. 2.5.1 Prueba de Chi Cuadrado La prueba de Chi Cuadrado para dos variables categóricas permite determinar con cierto grado de certeza la existencia de una correlación entre dichas variables. Esta prueba se basa en el uso de una tabla, llamada tabla de contingencia, en la que se contabilizan las observaciones de 34 Tabla 2.8. Ejemplo de tabla de contingencia para prueba de Chi Cuadrado. cada posible combinación de valores de la primera y la segunda variable (ver ejemplo en tabla 2.8: se contabilizan las ocurrencias de hombres y mujeres que caen o no en impago para determinar la correlación entre el género y el estado del cliente). En base a esta tabla, se calculan los valores esperados de cada entrada, asumiendo la independencia entre las variables. Si se denota por a la𝑋 primera variable (como variable aleatoria), y por a la segunda, y si y son posibles valores para𝑌 𝑎 𝑏 cada una de estas variables aleatorias, respectivamente, entonces estos valores esperados se calculan de la siguiente manera: 𝑒 𝑎 𝑏 = 𝑃(𝑋 = 𝑎)𝑃(𝑌 = 𝑏)𝑇 donde denota el valor esperado de la cantidad de observaciones que toman el valor para y𝑒 𝑎 𝑏 𝑎 𝑋 𝑏 para , y denota el total de observaciones en la muestra. En este caso, las probabilidades𝑌 𝑇 y se pueden estimar a partir de la tabla de contingencia usando las cantidades:𝑃(𝑋 = 𝑎) 𝑃(𝑌 = 𝑏) 𝑃(𝑋 = 𝑎) = 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑒𝑛 𝑙𝑎𝑠 𝑞𝑢𝑒 𝑋=𝑎 𝑇 𝑃(𝑌 = 𝑏) = 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑒𝑛 𝑙𝑎𝑠 𝑞𝑢𝑒 𝑌=𝑏 𝑇 Con esto, es posible calcular la estadística de chi cuadrado, dada por: χ2 = 𝑎,𝑏 ∑ 𝑣 𝑎 𝑏−𝑒 𝑎 𝑏( ) 𝑒 𝑎 𝑏 donde denota el valor realmente observado para la combinación de valores y (el valor en la𝑣 𝑎 𝑏 𝑎 𝑏 tabla de contingencia) y la suma se realiza sobre todas las combinaciones de valores y que𝑎 𝑏 pueden tomar las variables y [35].𝑋 𝑌 Cae en impago No cae en impago Total Hombre 25 215 240 Mujer 21 245 266 Total 46 460 506 https://www.zotero.org/google-docs/?PSFAAB 35 Finalmente, usando los grados de libertad que se pueden determinar a partir de la tabla de contingencia, es posible calcular un p-value para la estadística obtenida, el cual indica la probabilidad de obtener los valores observados asumiendo que existe independencia entre las variables. Un p-value pequeño (en este estudio se usó siempre como límite para cada p-value0. 05 utilizado), indicaría entonces que hay muy pocas probabilidades de obtener los valores observados si hay independencia, y por tanto es más probable que las variables sean dependientes entre sí [35]. 2.5.2 Prueba t de Student para muestras independientes El objetivo de la prueba t de Student para muestras independientes es determinar si existe una diferencia significativa entre la media de dos muestras independientes. Esta asume que todas las observaciones son independientes entre sí y que las dos muestras también son independientes. Asimismo, asume que las observaciones se toman de una distribución aproximadamente normal. Estas suposiciones no suelen ser tan fuertes en casos reales [35]. Matemáticamente, el estadístico se define de la siguiente manera: 𝑡 = 𝑋 1 −𝑋 2 1 𝑛 · 𝑆𝑆 1 +𝑆𝑆 2 2𝑛−2 donde y denotan las medias de las dos muestras, y denotan las sumas de cuadrados𝑋 1 𝑋 2 𝑆𝑆 1 𝑆𝑆 2 de las respectivas muestras y representa la cantidad de observaciones en cada muestra4 [35].𝑛 Como se mencionó anteriormente, este estadístico fue usado en conjunto con la técnica de Bootstrapping para asegurarse de que las diferencias observadas en métricas de justicia y rendimiento entre distintos modelos fueran estadísticamente significativas. Esto se logró haciendo la respectiva medición sobre una cantidad de muestras de Boostrapping para cada modelo y𝑛 aplicando el estadístico sobre estas medidas. Por tanto, al igual que en el caso del estadístico Chi Cuadrado, el interés en este estudio es en el p-value asociado, el cual indica la probabilidad de que las muestras sean dependientes. 4 Se asume que ambas muestras tienen la misma cantidad de observaciones. También es posible calcular el estadístico sin asumir esto, pero no fue necesario usarlo en este estudio. https://www.zotero.org/google-docs/?MPslBi https://www.zotero.org/google-docs/?e0WRJQ https://www.zotero.org/google-docs/?1w3qSa 36 Cabe anotar que, en general, fue preferible usar la versión de la prueba para muestras pareadas explicada a continuación. Sin embargo, como se explica en la sección 4.8, hubo un caso en el que fue necesario aplicar la versión para muestras independientes debido a la naturaleza del método de mitigación de sesgo utilizado. 2.5.3 Prueba t de Student para muestras relacionadas La prueba t de Student para muestras relacionadas pretende determinar si existe una diferencia significativa en mediciones sobre muestras pareadas. Por ejemplo, en el caso de un tratamiento médico, se podría obtener un vector con mediciones de la presión para pacientes𝑋 antes de aplicarles un tratamiento y luego un vector con mediciones de la presión para los𝑌 mismos pacientes después de aplicarles el tratamiento. La prueba pretende determinar si hay una diferencia estadísticamente significativa en las mediciones de presión antes y después del tratamiento. Note que en este caso, cada entrada de está relacionada (o pareada) con una𝑋 entrada en , es decir, las muestras no son independientes [35].𝑌 En este caso de estudio, se utilizó esta prueba en combinación con la técnica Boostrapping para determinar si hubo diferencias estadísticamente significativas en mediciones de rendimiento y justicia entre el modelo original y los modelos alternativos. Por tanto, en este caso, el vector 𝑋 correspondería a una serie de mediciones de rendimiento o justicia sobre una serie de muestras de Bootstrapping obtenidas de un conjunto de prueba con probabilidades (o predicciones) de impago dadas por el modelo en estudio y el vector correspondería a las mismas mediciones sobre la𝑌 misma muestra variando solamente la probabilidad (o predicción) de impago de cada observación, obteniéndola de un modelo distinto. En este caso, el estadístico se calcula por medio de la siguiente fórmula: 𝑡 = 𝐷 𝑆𝑆 𝐷 𝑛(𝑛−1) donde corresponde al valor promedio del vector , corresponde a la suma de𝐷 𝐷 = 𝑋 − 𝑌 𝑆𝑆 𝐷 cuadrados de los valores en y es la cantidad de observaciones (i.e. el tamaño de o ) [35].𝐷 𝑛 𝑋 𝑌 Nuevamente, para efectos de este estudio, el interés estuvo especialmente en el p-value asociado. https://www.zotero.org/google-docs/?lcFOUt https://www.zotero.org/google-docs/?f1Gtvx 37 2.5.4 Prueba H de Kruskal-Wallis La prueba H de Kruskal-Wallis es una prueba estadística no paramétrica que se usa para determinar si existen diferencias estadísticamente significativas en la mediana de una variable cuantitativa entre distintos grupos (i.e. clasificando según otra variable categórica). En otras palabras, esta es una prueba que indica una posible correlación entre una variable categórica y una variable continua. Se usa en vez de las pruebas t de Student cuando los supuestos de estas pruebas no se cumplen (especialmente la normalidad de las muestras) [35]. Para calcular esta estadística, es necesario asignar un “rango” a cada punto en el conjunto de datos, de tal forma que el punto con el valor más bajo tiene rango 1, el siguiente valor más bajo tiene rango 2 y así sucesivamente. Si en algún momento se encuentran varios puntos con valores idénticos, se debe asignar a todos estos puntos el promedio del rango qu