Doctor en Economía, Northeastern University
Licenciatura en Economía, Universidad de California en Los Ángeles
Econ One, enero 2018 - presente
Departamento de Sociología de la UCLA, 2015 - Presente.
Consultor económico independiente, 2015 - 2018
EY (anteriormente Ernst & Young), precios de transferencia, 2013 - 2014, servicios de asesoramiento, 2014 - 2015.
UCLA for Int'l Science, Technology, and Cultural Policy, 2005 - 2017
Universidad Northeastern, 2007 - 2009
En pocas palabras, la validación de datos se refiere a la práctica de comprobar la exactitud y calidad de cualquier fuente de datos que se planee utilizar. Aunque esto parece bastante sencillo, muchas personas se encuentran confundidas acerca de cómo se aplica a la IA.
Lo primero en lo que piensa la mayoría de la gente cuando oye "inteligencia artificial" o "IA" es en uno de los grandes modelos lingüísticos (como ChatGPT) que se mencionan con frecuencia en las noticias. Si esos modelos se entrenan con "datos de todo Internet", como se suele afirmar, ¿cómo entra en juego la validación de datos? Pues bien, la mayoría de los LLM requieren una formación específica adicional para que las empresas puedan aprovechar al máximo sus funciones. Esto implica introducir en los modelos datos de entrada específicos de la empresa y del sector. Estos datos deben ser validados antes de ser utilizados para entrenar el modelo. La validación de datos desempeña un papel crucial a la hora de garantizar la calidad, la pertinencia y la precisión de los datos utilizados para entrenar modelos de IA a medida, ayudando a filtrar la información errónea, los sesgos y las incoherencias de la enorme cantidad de datos no regulados disponibles en Internet.
Pero esos no son los únicos modelos de IA disponibles: hay muchos modelos de aprendizaje automático y de IA creados específicamente para diversas tareas o para empresas concretas. A la hora de implantar uno de estos modelos, las empresas deben tener cuidado con los datos de entrenamiento utilizados, comprobando su precisión, calidad y sesgo. Por ejemplo, un modelo entrenado únicamente en los perfiles de los empleados actuales para seleccionar a los candidatos ideales para un puesto de trabajo podría aprender inadvertidamente y perpetuar los sesgos de contratación existentes.
Está claro que el proceso de validación de datos es vital, pero comprobar la "calidad" y la "precisión" es una tarea imprecisa. ¿Qué tipo de problemas de validación de datos deben buscar los modelizadores? ¿Cómo se identifican estos problemas en los modelos de IA?
A continuación analizamos con más detalle los problemas más comunes, pero en general la respuesta es: probar, probar y probar. Es fundamental emplear diversas metodologías de prueba, como la validación cruzada y las pruebas de retención, para detectar problemas como el sobreajuste, el sesgo y la fuga de datos. Una validación de datos sólida y eficaz también implica la supervisión y actualización continuas del modelo a medida que se dispone de nuevos datos, lo que garantiza que el rendimiento del modelo se mantenga constante a lo largo del tiempo y se adapte a la evolución de las condiciones. Por lo tanto, la pieza más importante del rompecabezas para evitar problemas de validación de datos en los modelos de IA son los empleados con experiencia en el dominio de los datos, es decir, personas que conocen los datos en profundidad y en detalle. Las empresas también se benefician de la experiencia externa: consultores con experiencia en el diseño y despliegue de modelos de IA, que pueden aportar una perspectiva diferente a la hora de cuestionar los datos de entrenamiento.
Así que, vamos a discutir brevemente los problemas de validación de datos más comunes.
Este es el problema más común de los datos que se utilizan para el modelado o la exploración en general. Se recopila una enorme cantidad de datos de manera ad hoc, sin un verdadero diseño o propósito para la recopilación. El resultado es una IA de mala calidad, con muy poca señal dentro del ruido. Estos datos también suelen tener lagunas en la recopilación de datos o han sufrido cambios en su estructura sin una buena documentación en torno a esos cambios. La calidad de un modelo depende de la calidad de sus datos: la clave es una buena gobernanza y gestión de los datos.
Suppose your data is high-quality and complete, with clear documentation. The data still needs to be checked for bias and representativeness, depending on its intended use. Intended use is key: if you’re training a hiring algorithm on resumes from your current employee pool, but your workforce lacks diversity in terms of race or gender, the model may unintentionally replicate this bias by favoring similar candidates, thereby excluding individuals of different races or genders. However, say you are a gaming company trying to appeal to a userbase similar to your current userbase – even if your current userbase is relatively homogenous, it doesn’t matter because you aren’t trying to create a model that understands the desires of all potential customers, only ones similar to the customers you already serve. Representativeness issues can create broader societal or ethical concerns in how different groups are treated or portrayed. Some issues related to representativeness and bias are worth noting:
Suponiendo que su modelo defina diferentes clases, los datos desequilibrados sugieren que la representación de las muestras en esas clases es desigual. Esto puede dar lugar a resultados sesgados y poco fiables - el modelo puede funcionar mal para la categoría infrarrepresentada. El desequilibrio de los datos puede corregirse cambiando la metodología de muestreo o la técnica de selección de datos. de datos o generando datos sintéticos, pero esto debe hacerse con extrema precaución.
El cambio de dominio se produce cuando los datos sobre los que se ha entrenado el modelo no reflejan con exactitud los datos sobre los que se despliega el modelo. Un ejemplo de ello sería entrenar el modelo en campañas publicitarias que han tenido éxito en la base de clientes actual y luego utilizarlo para diseñar un modelo publicitario que se despliegue en un país diferente. Como los usuarios objetivo son diferentes de los usuarios entrenados, el modelo arrojará malos resultados. La deriva conceptual es una idea similar, pero se refiere a la incapacidad de los modelos para actualizarse en tiempo real. incapacidad de los modelos para actualizarse en tiempo real, lo que conduce a una desconexión entre la información actual y la información que se utilizó para entrenar el modelo. Esto se observa actualmente en casi todos los principales LLM, que advierten a los usuarios de cuál era el límite de datos para el conjunto de datos de entrenamiento.
Los ataques adversarios se refieren a los ataques a los modelos de IA. Los ataques pueden adoptar muchas formas, como los ataques de envenenamiento de datos que buscan contaminar los datos utilizados para el entrenamiento de los modelos (ejemplo: campañas de desinformación en las redes sociales).. Otro ataque adversario es la evasión, que encuentra lagunas para eludir el modelo (por ejemplo, escribir mal las palabras para evitar los filtros de spam).
Al diseñar el modelo, el conjunto de reglas debe ser completo y coherente. Sin embargo, esa exhaustividad y coherencia deben construirse teniendo en cuenta los datos utilizados para entrenar el modelo: lo que se considera completo y coherente cambia en función de las dimensiones y limitaciones de los datos utilizados para entrenar el modelo. Por ejemplo, si los datos carecen de cobertura en ciertas áreas (por ejemplo, faltan grupos demográficos o condiciones subrepresentadas), puede que las reglas deban tener en cuenta estas lagunas y evitar el ajuste excesivo a información incompleta. Del mismo modo, la complejidad de las reglas debe corresponderse con la riqueza de los datos: unas reglas demasiado complejas para datos escasos o limitados pueden llevar a un ajuste excesivo, mientras que unas reglas demasiado simplistas para datos complejos pueden reducir el rendimiento del modelo en términos de precisión y generalización.
Es fundamental asegurarse de que la aplicación del modelo coincide con la base de conocimientos utilizada para entrenarlo. Esto es similar al cambio de dominio: if un modelo se entrenado en comunicados de prensa sobre física pero es utilizad para analizar artículos académicos sobre literatura francesalos resultados seráne cercanos a la basura.
Como ocurre con cualquier diseño de modelos, la incertidumbre y las excepciones son un problema en los modelos de IA. Los datos ruidosos de baja calidad crean estimaciones con una gran incertidumbre que puede propagarse a través de iteraciones continuas del modelo hasta que el propio modelo se colapsa. Del mismo modo, el modelo debe ser consciente de las excepciones de datos y de cómo manejarlas, ya que de lo contrario las integrará en las estimaciones del modelo y producirá resultados sesgados.
Por último, si se espera que los datos cambien de tal forma que alteren las reglas o condiciones del modelo, habrá que tenerlo en cuenta en el diseño del mismo. Los modelos pueden diseñarse de forma que se adapten dinámicamente a los cambios de las reglas o condiciones. condiciones, pero esto debe hacerse en las primeras fases, con cierta visión de cómo podrían cambiar los datos con el tiempo.
Planificación y pruebas, ad nauseum. El viejo dicho "Más vale prevenir que curar"."se aplica en este caso: la mayoría de los problemas mencionados pueden resolverse con una planificación cuidadosa y pruebas exhaustivas antes de implantar el modelo. Si se descubren problemasSi se descubren problemas a posteriori, hay varias soluciones para cada uno de ellos, que un profesional experimentado puede ayudar a aplicar y probar..
El mejor método para garantizar que los modelos de IA tengan datos coherentes y precisos es contar con una sólida gobernanza de datos. La gobernanza de datos se refiere a la capacidad de garantizar una alta calidad de los datos a lo largo del ciclo de vida de los datos en su empresa. Esto incluye disponibilidad, coherencia, facilidad de uso, seguridad, integridad y conformidad. Sin una gobernanza de datos sólida, los modelos de IA pueden ser difíciles de implementar, ya que dependen en gran medida de los datos utilizados para el entrenamiento.
Como cualquier modelo de datos, los modelos de IA dependen de la calidad de los datos utilizados para el entrenamiento. Sin datos de alta calidad, los modelos son difíciles de aplicar y producen resultados sesgados o poco fiables. Por lo tanto, la validación de los datos antes de la aplicación de la IA es un paso fundamental. Cuando se descubren deficiencias en los datos, hay varias posibilidades
posibles soluciones más fáciles de aplicar en la fase de planificación de modelos. Antes de embarcarse en un impulso a gran escala de la IA, las empresas deben centrar su atención en contar con una sólida gobernanza de los datos.
En el próximo blog de esta serie, profundizaremos en el primer aspecto de la validación de datos (calidad y coherencia de los datos), que constituye la base de la integridad de los datos en los modelos de IA. Permanezca atento.
EconOne © 2024