Máster en Economía, Universidad Jawaharlal Nehru, Delhi
Licenciatura (con matrícula de honor) en Economía, Facultad de Comercio Sri Guru Gobind Singh, Universidad de Delhi
Econ One Research India Pvt. Ltd., Economista Principal, Ago 2022 - Presente
Econ One Research India Pvt. Ltd., Economista, Ene 2020 - 2022
Econ One Research India Pvt. Ltd., Analista económico sénior, abr 2017 - dic 2019
KPMG Global Services Pvt Ltd., enero de 2015 - abril de 2017
Fundación para el Desarrollo de la India, julio de 2012 - enero de 2015
Imagine que está construyendo un vehículo autónomo. Su sistema de inteligencia artificial ("IA") se basa en un amplio conjunto de datos de imágenes para identificar peatones, señales de tráfico y obstáculos. Si los datos de entrenamiento se ven empañados por imágenes mal etiquetadas o imprecisas, la capacidad de la IA para navegar con seguridad se vuelve dudosa. Esta es la esencia del principio "basura dentro, basura fuera" (GIGO). En el universo de la IA y el ML, la calidad de los datos de entrada dicta e influye directamente en la calidad del resultado. Unos datos de alta calidad, coherentes y fiables garantizan que los sistemas de IA puedan aprender con eficacia, realizar predicciones precisas y ofrecer resultados empresariales óptimos.
Una estrategia de calidad de datos es crucial. Es la base de cualquier sistema de IA fiable. Pero, ¿qué ocurre cuando los datos son defectuosos? El caos. He visto proyectos desmoronarse debido a una integridad deficiente de los datos. Es una lección que nadie olvida. Hay varios ejemplos notables en los que la mala calidad de los datos y la falta de diversidad en los conjuntos de datos de entrenamiento han dado lugar a resultados sesgados y poco fiables en los sistemas de IA. Por ejemplo, se descubrió que el algoritmo COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) utilizado en el sistema de justicia penal de Estados Unidos tenía un sesgo en contra de los afroamericanos. Un artículo publicado por ProPublica en 2016 reveló que el algoritmo asignaba de forma desproporcionada puntuaciones de riesgo más altas a los acusados negros en comparación con los blancos, prediciendo que tenían más probabilidades de reincidir. Este sesgo se debía a que el algoritmo se había entrenado con datos históricos sobre delincuencia, lo que reflejaba sesgos sistémicos en el sistema judicial. Un ejemplo similar existe con Tay, el chatbot de IA de Microsoft, lanzado como un bot de Twitter en 2016, que fue diseñado para aprender de las interacciones con los usuarios. Sin embargo, en 24 horas, Tay comenzó a publicar tuits ofensivos y racistas, lo que obligó a Microsoft a cerrar Tay solo 16 horas después de su lanzamiento. Esto se debió a que el algoritmo de aprendizaje de Tay fue manipulado por usuarios que lo alimentaron con datos sesgados e inapropiados, lo que demuestra cómo la mala calidad de los datos y la entrada maliciosa pueden conducir a un comportamiento de IA poco fiable y perjudicial. Estos ejemplos subrayan la importancia de mantener la calidad y coherencia de los datos para los sistemas de IA que pueden tener un impacto de gran alcance en los resultados del mundo real.
En este blog, profundizaremos en la cuestión crítica de la calidad y la coherencia de los datos, cómo pueden socavar los sistemas de IA y debatiremos estrategias de mitigación con ejemplos ilustrativos.
¿Qué es la calidad de los datos? La calidad de los datos se refiere al estado de un conjunto de datos y a su idoneidad para servir a los fines previstos. Unos datos de mala calidad, aunque se combinen con los modelos más avanzados y sofisticados, seguirán arrojando resultados inadecuados para los fines previstos. Las decisiones basadas en los datos más pertinentes, completos, precisos y oportunos tienen más posibilidades de avanzar hacia los objetivos previstos.
Quizá se pregunte cómo distinguir entre datos buenos y malos. A continuación se indican algunos de los principales identificadores de los datos de alta calidad:
¿Por qué es importante la coherencia de los datos? La coherencia de los datos garantiza que los datos de diferentes bases de datos o sistemas sean los mismos. Además, esto significa que los datos reflejan con precisión los valores del mundo real en cualquier momento. Evaluar la coherencia de los datos es sencillo. Consiste en
Ahora que ya sabemos qué es un buen dato, veamos qué ocurre si no cumple alguno de los parámetros de calidad y coherencia antes mencionados.
La mala calidad y la incoherencia de los datos pueden obstaculizar gravemente las iniciativas de IA. Algunos de los problemas más comunes son:
Los modelos de IA dependen en gran medida de los datos con los que se entrenan. Cuando estos datos son de mala calidad -contienen errores, imprecisiones o información irrelevante- es probable que los modelos resultantes produzcan resultados poco fiables. Las predicciones imprecisas pueden conducir a una toma de decisiones errónea, lo que puede tener importantes repercusiones financieras. Por ejemplo:
Los datos incompletos o sesgados pueden introducir sesgos en los modelos de IA. Si los datos de entrenamiento no representan la diversidad de la población del mundo real, el sistema de IA puede perpetuar e incluso exacerbar los sesgos existentes. Esto puede afectar negativamente a la equidad y la inclusión. Algunos ejemplos son:
La mala calidad de los datos requiere mucho tiempo y recursos para limpiarlos y corregirlos. Esto puede retrasar los plazos de los proyectos y reducir la productividad general. A menudo, las organizaciones tienen que asignar importantes recursos humanos y técnicos a la limpieza de datos, lo que puede desviar la atención de tareas más estratégicas. Algunos ejemplos son:
Los datos incoherentes pueden provocar el incumplimiento de las normas legales, exponiendo a las organizaciones a sanciones reglamentarias y dañando su reputación. A menudo se requieren datos precisos y coherentes para cumplir los requisitos normativos, y los fallos en este ámbito pueden tener graves consecuencias. Algunos ejemplos son:
Buenos datos equivalen a buenos resultados. ¿Malos datos? Bueno, ya te haces una idea. Sin embargo, hay formas de mitigar los riesgos asociados a los datos malos antes de que todo se vaya al garete.
Para garantizar la calidad y coherencia de los datos y/o mejorar su calidad, las organizaciones deben adoptar estrategias integrales de gestión de datos. Esto incluye un proceso de recopilación de datos regulado y revisado periódicamente. He aquí algunas prácticas clave:
Ejemplo: Una empresa minorista utiliza herramientas de perfilado de datos para evaluar su base de datos de clientes. Descubren numerosos registros duplicados y direcciones obsoletas. Al limpiar los datos, mejoran la segmentación de sus clientes y las campañas de marketing dirigidas, lo que se traduce en un aumento del 15 % en la participación de los clientes.
Ejemplo: Un proveedor sanitario estandariza los historiales de los pacientes adoptando un sistema de codificación uniforme para diagnósticos y tratamientos. Esto garantiza la coherencia de los datos de los pacientes en varias clínicas, lo que mejora la atención al paciente y agiliza las operaciones. Como resultado, el proveedor reduce en un 20% los errores administrativos.
Ejemplo: Una entidad financiera integra los datos de los clientes de varios departamentos (préstamos, ahorros, seguros) en una base de datos unificada. La sincronización en tiempo real garantiza que cualquier actualización en un departamento se refleje en todos los sistemas, lo que mejora el servicio al cliente y reduce los errores. El resultado es una mejora del 25% en las puntuaciones de satisfacción del cliente.
Ejemplo: Una empresa de fabricación crea un consejo de gobernanza de datos responsable de establecer normas de datos, supervisar la calidad y resolver problemas. Este enfoque proactivo mejora la precisión de los datos y la eficiencia operativa, lo que se traduce en un aumento del 10 % en la eficiencia de la producción.
Ejemplo: Una plataforma de comercio electrónico despliega modelos de aprendizaje automático para analizar los datos de las transacciones en busca de anomalías. Estos modelos identifican patrones inusuales, como picos repentinos en las devoluciones o discrepancias en los niveles de inventario, lo que permite una rápida acción correctiva. Este enfoque permite reducir en un 30 % las actividades fraudulentas.
Garantizar la calidad y coherencia de los datos no es una tarea puntual, sino un esfuerzo continuo que requiere un enfoque estratégico y las herramientas adecuadas. Mediante la aplicación de prácticas sólidas de gestión de la calidad de los datos, las organizaciones pueden aprovechar todo el potencial de la IA, obtener mejores resultados empresariales y mantener una ventaja competitiva.
Esté atento a nuestro próximo blog de la serie, en el que exploraremos otro aspecto crítico de la validación de datos de IA.
EconOne © 2024