Inicio " Sin categoría " LLMs Desmitificados por la Inteligencia Artificial: Una suave introducción

Servicios

Los economistas expertos de Econ One tienen experiencia en una amplia variedad de servicios, como defensa de la competencia, certificación colectiva, daños y perjuicios, mercados financieros y valores, propiedad intelectual, arbitraje internacional, trabajo y empleo, y valoración y análisis financiero.

Recursos

Los recursos de Econ One, que incluyen blogs, casos, noticias y mucho más, ofrecen una colección de materiales de los expertos de Econ One.

Blog
Conozca la economía desde dentro con los expertos.
Data Security Consultant to the Firm
Educación

Máster en Análisis de Datos y Política de Seguridad, Universidad de Columbia

Licenciatura en Política de Seguridad, Universidad de Duke

Econ One (Los Ángeles, CA), 2020-Presente

Centro de Comercio Internacional (Ginebra, Suiza), 2018-2020

Instituto Duke de Investigación en Ciencias Sociales (Durham, Carolina del Norte), 2016-2018.

Comparte este artículo
Octubre 5, 2023

Los LLM desmitificados por la IA: Una delicada introducción

Author(s): Miles Latham

En los últimos años, el ámbito de la Inteligencia Artificial ha experimentado avances notables, dando paso a una era de potencial sin precedentes. Los avances en las técnicas de entrenamiento y los consiguientes saltos en el rendimiento han propulsado la IA generativa y los grandes modelos lingüísticos (LLM) al primer plano. La rapidez con la que ChatGPT, un producto de OpenAI, consiguió su amplia base de usuarios tras su lanzamiento en enero de 2023, puso de manifiesto la creciente importancia de estas tecnologías innovadoras. Mientras otros gigantes de la tecnología se apresuraban a introducir sus propias iteraciones, pronto se hizo evidente que las LLM configurarán de forma decisiva el panorama tecnológico de los próximos años.

¿Qué son los LLM?

Los LLM son sistemas de IA diseñados para procesar y analizar cantidades ingentes de datos de lenguaje natural y utilizar esa información para generar respuestas que imiten fielmente la conversación humana. Dadas sus impresionantes capacidades, se encuentran entre las soluciones más sofisticadas y accesibles en el ámbito del procesamiento del lenguaje natural (PLN) en la actualidad. Los LLM pertenecen al dominio de la IA Generativa, una amplia categoría de sistemas de IA centrados principalmente en la generación de contenidos, en contraste con otras funciones de la IA como la clasificación de datos, el reconocimiento de patrones o la elección de acciones (como la dirección de vehículos autónomos). Aunque otras formas de IA Generativa como los generadores de imágenes y audio también han encontrado utilidad en el lugar de trabajo, los LLM o generadores de contenidos basados en texto están a la vanguardia de las aplicaciones empresariales debido a su adaptabilidad a diversas funciones laborales. La versatilidad de los LLM es innegable, con casos de uso comunes que abarcan la creación de contenidos, las tareas de preguntas y respuestas, la finalización de códigos, la traducción de idiomas y el resumen de textos.

De la definición al funcionamiento

Un "modelo lingüístico" utiliza distribuciones de probabilidad para predecir la siguiente palabra o frase más adecuada con el contexto dado. En lugar de centrarse sólo en la validez gramatical, los modelos aprenden la esencia de la comunicación humana para poder construir frases coherentes y adecuadas al contexto. En este proceso de análisis del texto de entrada y formulación del de salida intervienen los parámetros. Se trata de componentes internos del modelo que codifican o capturan numéricamente una amplia gama de patrones lingüísticos y relaciones aprendidas durante la fase de entrenamiento. Por ejemplo, los parámetros permiten al modelo distinguir entre el significado de "manzana" cuando se refiere a la empresa y el de la fruta en el texto de entrada, y generar respuestas pertinentes. Para subrayar su importancia, el "large" de Large Language Models apunta al enorme número de parámetros, que puede oscilar entre millones y miles de millones. La investigación ha demostrado que dotar a estos modelos de más parámetros, datos de entrenamiento y potencia de cálculo aumenta su rendimiento. Sin embargo, el término sigue siendo un tanto elusivo, ya que no existe un consenso establecido o un umbral aceptado de lo que se considera un modelo "grande". A menudo, los LLM superan los límites computacionales de una sola máquina, por lo que suelen ofrecerse como servicio a través de API o interfaces web. Por ejemplo, GPT-3 (Generative Pre-trained Transformer 3), uno de los mayores LLM con 175.000 millones de parámetros, es accesible al público a través de ChatGPT, una aplicación web de chatbot de IA.

Mrquitectura de modelos y formación

Los LLM son redes neuronales basadas en Transformer. Conceptualizados por los ingenieros de Google en el artículo seminal "Attention is All You Need" (2017), los modelos Transformer aplican un conjunto evolutivo de técnicas matemáticas, denominadas atención o autoatención, para capturar dependencias entre elementos de datos distantes en una secuencia, como palabras en una frase. Esto permite una mejor comprensión contextual en comparación con otros tipos de redes neuronales, lo que hace que estos modelos sean muy eficaces para la PNL. Esta intrincada arquitectura consta de múltiples capas que trabajan en colaboración para recibir texto de entrada y producir predicciones de texto de salida, lo que constituye la base de la funcionalidad de LLM.

El proceso de formación puede dividirse en dos fases: "preformación" y "perfeccionamiento". Durante el preentrenamiento, el modelo se expone a conjuntos de datos masivos para que pueda aprender y desarrollar destrezas en tareas fundamentales como la comprensión, el análisis y la generación del lenguaje. Una ventaja notable de estos modelos radica en el aprendizaje no supervisado, en el que los LLM disciernen patrones ocultos en conjuntos de datos sin etiquetar que pueden no ser fácilmente detectables o incluso intuitivos para los humanos. De este modo se evita la tarea, a menudo costosa, lenta y difícil, de etiquetar los datos, es decir, asociar cada punto de datos a un objetivo o resultado conocido, que es uno de los mayores impedimentos en el desarrollo de modelos. El preentrenamiento requiere una enorme potencia de cálculo y un hardware de vanguardia. Sin embargo, una vez superada esta fase, el modelo se convierte en una entidad versátil, capaz de atender innumerables peticiones. El ajuste fino, un paso posterior, consiste en introducir datos específicos de la tarea para optimizar el rendimiento en casos de uso concretos. Por ejemplo, alimentar el modelo con más datos financieros, como los de los archivos 10K, que los que ya vio en la fase de preentrenamiento puede ayudarle a refinar su comprensión de los conceptos financieros y a analizar los estados financieros con mayor eficacia. Esta fase es notablemente más eficaz y rentable, ya que sólo requiere una fracción de los datos y recursos informáticos empleados durante el preentrenamiento. Esta doble metodología de formación combina la amplia base de conocimientos del modelo con una sofisticada destreza para tareas específicas.

El futuro de los LLM

El auge de los LLM ha anunciado una era transformadora de la comunicación, la resolución de problemas y la innovación. A medida que estas maravillas tecnológicas impregnen las industrias y nuestra vida cotidiana, será imperativo encontrar un equilibrio entre su potencial sin parangón y una evaluación crítica de sus riesgos. Es a través de este delicado equilibrio como la sinergia del ingenio humano y los avances de la IA pueden abrir un nuevo mundo de posibilidades.

 

Fuentes: https://aws.amazon.com/what-is/large-language-model/; https://developers.google.com/machine-learning/resources/intro-llms; https://www.databricks.com/sites/default/files/2023-06/compact-guide-to-large-language-models.pdf; https://www.nvidia.com/en-us/glossary/data-science/large-language-models/; https://mark-riedl.medium.com/a-very-gentle-introduction-to-large-language-models-without-the-hype-5f67941fa59e; https://cset.georgetown.edu/article/what-are-generative-ai-large-language-models-and-foundation-models/

Últimos recursos y opiniones