|
Blog
Conozca la economía desde dentro con los expertos.
Economista principal
Educación

Máster en Economía, Universidad Jawaharlal Nehru, Delhi

Licenciatura (con matrícula de honor) en Economía, Facultad de Comercio Sri Guru Gobind Singh, Universidad de Delhi

Econ One Research India Pvt. Ltd., Economista Principal, Ago 2022 - Presente

Econ One Research India Pvt. Ltd., Economista, Ene 2020 - 2022

Econ One Research India Pvt. Ltd., Analista económico sénior, abr 2017 - dic 2019

KPMG Global Services Pvt Ltd., enero de 2015 - abril de 2017

Fundación para el Desarrollo de la India, julio de 2012 - enero de 2015

Comparte este artículo
Septiembre 27, 2024

El imperativo de la validación de datos de IA: Garantizar la integridad de la IA para impulsar resultados empresariales óptimos - Calidad y coherencia de los datos de IA

Author(s): Alisha Madaan

Índice

Una marca de verificación rodeada de datos

Imagine que está construyendo un vehículo autónomo. Su sistema de inteligencia artificial ("IA") se basa en un amplio conjunto de datos de imágenes para identificar peatones, señales de tráfico y obstáculos. Si los datos de entrenamiento se ven empañados por imágenes mal etiquetadas o imprecisas, la capacidad de la IA para navegar con seguridad se vuelve dudosa. Esta es la esencia del principio "basura dentro, basura fuera" (GIGO). En el universo de la IA y el ML, la calidad de los datos de entrada dicta e influye directamente en la calidad del resultado. Unos datos de alta calidad, coherentes y fiables garantizan que los sistemas de IA puedan aprender con eficacia, realizar predicciones precisas y ofrecer resultados empresariales óptimos.

Una estrategia de calidad de datos es crucial. Es la base de cualquier sistema de IA fiable. Pero, ¿qué ocurre cuando los datos son defectuosos? El caos. He visto proyectos desmoronarse debido a una integridad deficiente de los datos. Es una lección que nadie olvida. Hay varios ejemplos notables en los que la mala calidad de los datos y la falta de diversidad en los conjuntos de datos de entrenamiento han dado lugar a resultados sesgados y poco fiables en los sistemas de IA. Por ejemplo, se descubrió que el algoritmo COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) utilizado en el sistema de justicia penal de Estados Unidos tenía un sesgo en contra de los afroamericanos. Un artículo publicado por ProPublica en 2016 reveló que el algoritmo asignaba de forma desproporcionada puntuaciones de riesgo más altas a los acusados negros en comparación con los blancos, prediciendo que tenían más probabilidades de reincidir. Este sesgo se debía a que el algoritmo se había entrenado con datos históricos sobre delincuencia, lo que reflejaba sesgos sistémicos en el sistema judicial. Un ejemplo similar existe con Tay, el chatbot de IA de Microsoft, lanzado como un bot de Twitter en 2016, que fue diseñado para aprender de las interacciones con los usuarios. Sin embargo, en 24 horas, Tay comenzó a publicar tuits ofensivos y racistas, lo que obligó a Microsoft a cerrar Tay solo 16 horas después de su lanzamiento. Esto se debió a que el algoritmo de aprendizaje de Tay fue manipulado por usuarios que lo alimentaron con datos sesgados e inapropiados, lo que demuestra cómo la mala calidad de los datos y la entrada maliciosa pueden conducir a un comportamiento de IA poco fiable y perjudicial. Estos ejemplos subrayan la importancia de mantener la calidad y coherencia de los datos para los sistemas de IA que pueden tener un impacto de gran alcance en los resultados del mundo real.

En este blog, profundizaremos en la cuestión crítica de la calidad y la coherencia de los datos, cómo pueden socavar los sistemas de IA y debatiremos estrategias de mitigación con ejemplos ilustrativos.

Calidad y coherencia de los datos

¿Qué es la calidad de los datos? La calidad de los datos se refiere al estado de un conjunto de datos y a su idoneidad para servir a los fines previstos. Unos datos de mala calidad, aunque se combinen con los modelos más avanzados y sofisticados, seguirán arrojando resultados inadecuados para los fines previstos. Las decisiones basadas en los datos más pertinentes, completos, precisos y oportunos tienen más posibilidades de avanzar hacia los objetivos previstos.

Quizá se pregunte cómo distinguir entre datos buenos y malos. A continuación se indican algunos de los principales identificadores de los datos de alta calidad:

  • Pertinencia: Los datos se ajustan estrechamente a las necesidades y objetivos de la tarea en cuestión.
  • Exhaustividad: Los datos contienen toda la información necesaria para el entrenamiento del modelo.
  • Precisión: Los datos son correctos y no contienen errores que puedan introducir sesgos en los modelos.
  • Puntualidad: Los datos están actualizados y disponibles cuando se necesitan.
  • Fiabilidad: Los datos son fiables debido a su estabilidad y coherencia a lo largo del tiempo, lo que hace que los resultados del modelo sean más fiables.

¿Por qué es importante la coherencia de los datos? La coherencia de los datos garantiza que los datos de diferentes bases de datos o sistemas sean los mismos. Además, esto significa que los datos reflejan con precisión los valores del mundo real en cualquier momento. Evaluar la coherencia de los datos es sencillo. Consiste en

  • Uniformidad: Mismo formato y estructura de datos.
  • Sincronización: Los datos se actualizan simultáneamente en todos los sistemas.
  • Coherencia: Coherencia lógica en los valores y relaciones de los datos.

Ahora que ya sabemos qué es un buen dato, veamos qué ocurre si no cumple alguno de los parámetros de calidad y coherencia antes mencionados.

El impacto de la mala calidad y la incoherencia de los datos

La mala calidad y la incoherencia de los datos pueden obstaculizar gravemente las iniciativas de IA. Algunos de los problemas más comunes son:

Predicciones inexactas

Los modelos de IA dependen en gran medida de los datos con los que se entrenan. Cuando estos datos son de mala calidad -contienen errores, imprecisiones o información irrelevante- es probable que los modelos resultantes produzcan resultados poco fiables. Las predicciones imprecisas pueden conducir a una toma de decisiones errónea, lo que puede tener importantes repercusiones financieras. Por ejemplo:

    • Finanzas: Un modelo de IA utilizado para la calificación crediticia puede evaluar erróneamente el riesgo de los solicitantes de préstamos, lo que conduce a malas decisiones de crédito y pérdidas financieras para la institución.
    • Sanidad: Un sistema de diagnóstico de IA entrenado con datos médicos erróneos podría diagnosticar mal a los pacientes, lo que daría lugar a tratamientos incorrectos y daños potenciales.

Modelos sesgados

Los datos incompletos o sesgados pueden introducir sesgos en los modelos de IA. Si los datos de entrenamiento no representan la diversidad de la población del mundo real, el sistema de IA puede perpetuar e incluso exacerbar los sesgos existentes. Esto puede afectar negativamente a la equidad y la inclusión. Algunos ejemplos son:

    • Contratación: Un sistema de IA utilizado para la contratación que esté entrenado con datos históricos de contratación sesgados puede favorecer a ciertos grupos demográficos en detrimento de otros, dando lugar a prácticas discriminatorias.
    • Aplicación de la ley: Los modelos de predicción policial basados en datos sesgados sobre la delincuencia pueden afectar de forma desproporcionada a comunidades específicas, exacerbando las desigualdades sociales.

Ineficiencias operativas

La mala calidad de los datos requiere mucho tiempo y recursos para limpiarlos y corregirlos. Esto puede retrasar los plazos de los proyectos y reducir la productividad general. A menudo, las organizaciones tienen que asignar importantes recursos humanos y técnicos a la limpieza de datos, lo que puede desviar la atención de tareas más estratégicas. Algunos ejemplos son:

    • Comercio minorista: Una empresa minorista con datos de productos incoherentes podría tener problemas con la gestión de inventarios, lo que provocaría situaciones de falta de existencias o exceso de stock.
    • Logística: Una empresa de logística con problemas de calidad de datos puede enfrentarse a dificultades en la optimización de rutas, lo que se traduce en retrasos y mayores costes operativos.

Riesgos de cumplimiento de la normativa

Los datos incoherentes pueden provocar el incumplimiento de las normas legales, exponiendo a las organizaciones a sanciones reglamentarias y dañando su reputación. A menudo se requieren datos precisos y coherentes para cumplir los requisitos normativos, y los fallos en este ámbito pueden tener graves consecuencias. Algunos ejemplos son:

    • Finanzas: Las instituciones financieras deben cumplir normativas estrictas como la Ley Sarbanes-Oxley (SOX) y el Reglamento General de Protección de Datos (GDPR). Los datos incoherentes pueden dar lugar a errores en los informes y a cuantiosas multas.
    • Sanidad: Los proveedores de servicios sanitarios deben cumplir normativas como la Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA). La falta de coherencia en los datos de los pacientes puede dar lugar a infracciones y repercusiones legales.

Buenos datos equivalen a buenos resultados. ¿Malos datos? Bueno, ya te haces una idea. Sin embargo, hay formas de mitigar los riesgos asociados a los datos malos antes de que todo se vaya al garete.

Estrategias de mitigación

Para garantizar la calidad y coherencia de los datos y/o mejorar su calidad, las organizaciones deben adoptar estrategias integrales de gestión de datos. Esto incluye un proceso de recopilación de datos regulado y revisado periódicamente. He aquí algunas prácticas clave:

1. Perfilado y limpieza de datos:

    • Elaboración de perfiles: Analizar los datos para comprender su estructura, contenido y calidad. Esto implica examinar las distribuciones de datos, detectar valores atípicos y evaluar la integridad de los datos.
    • Limpieza: Corregir o eliminar imprecisiones, rellenar valores que faltan y resolver incoherencias. Esto puede implicar herramientas automatizadas para identificar y rectificar errores, así como procesos de revisión manual.

Ejemplo: Una empresa minorista utiliza herramientas de perfilado de datos para evaluar su base de datos de clientes. Descubren numerosos registros duplicados y direcciones obsoletas. Al limpiar los datos, mejoran la segmentación de sus clientes y las campañas de marketing dirigidas, lo que se traduce en un aumento del 15 % en la participación de los clientes.

2. Normalización de datos:

    • Las organizaciones deben establecer formatos y definiciones comunes para los datos en toda la organización con el fin de garantizar la uniformidad. Esto incluye el establecimiento de normas para la introducción, el almacenamiento y el uso de los datos.
    • Utilizar protocolos estándar de introducción de datos para garantizar la uniformidad. Para ello, puede ser necesario formar al personal en buenas prácticas y utilizar reglas de validación para garantizar la coherencia.

Ejemplo: Un proveedor sanitario estandariza los historiales de los pacientes adoptando un sistema de codificación uniforme para diagnósticos y tratamientos. Esto garantiza la coherencia de los datos de los pacientes en varias clínicas, lo que mejora la atención al paciente y agiliza las operaciones. Como resultado, el proveedor reduce en un 20% los errores administrativos.

3. Integración y sincronización de datos:

    • Integre datos de fuentes dispares en un repositorio central, garantizando que toda la información relevante esté disponible en un único lugar.
    • Implementar la sincronización en tiempo real para mantener la coherencia de los datos. Esto puede lograrse mediante canalizaciones de datos automatizadas y herramientas de integración continua.

Ejemplo: Una entidad financiera integra los datos de los clientes de varios departamentos (préstamos, ahorros, seguros) en una base de datos unificada. La sincronización en tiempo real garantiza que cualquier actualización en un departamento se refleje en todos los sistemas, lo que mejora el servicio al cliente y reduce los errores. El resultado es una mejora del 25% en las puntuaciones de satisfacción del cliente.

4. Gobernanza de datos:

    • Establecer un marco de gobernanza de datos para supervisar los parámetros de calidad y coherencia de los datos. Esto incluye definir la propiedad de los datos, las políticas y los procedimientos para su gestión.
    • Definir funciones y responsabilidades para la gestión de datos. Esto garantiza la rendición de cuentas y fomenta una cultura de calidad de los datos en toda la organización.

Ejemplo: Una empresa de fabricación crea un consejo de gobernanza de datos responsable de establecer normas de datos, supervisar la calidad y resolver problemas. Este enfoque proactivo mejora la precisión de los datos y la eficiencia operativa, lo que se traduce en un aumento del 10 % en la eficiencia de la producción.

5. Controles de validación automatizados:

    • Implemente herramientas automatizadas para supervisar continuamente la calidad de los datos y detectar incoherencias. Estas herramientas pueden detectar anomalías y alertar a los administradores de datos de posibles problemas.
    • Utilice algoritmos de aprendizaje automático para detectar anomalías y patrones indicativos de problemas con los datos. Estos algoritmos pueden aprender de datos históricos para identificar desviaciones que podrían indicar errores.

Ejemplo: Una plataforma de comercio electrónico despliega modelos de aprendizaje automático para analizar los datos de las transacciones en busca de anomalías. Estos modelos identifican patrones inusuales, como picos repentinos en las devoluciones o discrepancias en los niveles de inventario, lo que permite una rápida acción correctiva. Este enfoque permite reducir en un 30 % las actividades fraudulentas.

Última palabra

Garantizar la calidad y coherencia de los datos no es una tarea puntual, sino un esfuerzo continuo que requiere un enfoque estratégico y las herramientas adecuadas. Mediante la aplicación de prácticas sólidas de gestión de la calidad de los datos, las organizaciones pueden aprovechar todo el potencial de la IA, obtener mejores resultados empresariales y mantener una ventaja competitiva.

Esté atento a nuestro próximo blog de la serie, en el que exploraremos otro aspecto crítico de la validación de datos de IA.

Últimos recursos y opiniones