Modelos fundamentales: la próxima frontera de la IA

0 0 6 minutos de lectura

La inteligencia artificial (IA) moderna se centra en aprender de los datos: cuantos más datos hay, mejor se aprende.

Por eso, hasta ahora, la investigación y aplicación de la inteligencia artificial se ha centrado principalmente en entrenar modelos de inteligencia artificial más grandes con más datos mediante el uso de recursos informáticos eficientes. Pero si bien se ha logrado un progreso significativo en esta área, hay datos limitados disponibles para muchos dominios de aplicación, como la atención médica y la fabricación, lo que limita su aplicabilidad en estos dominios.

Los modelos base pueden ser la solución a este problema. El término «modelo base» se refiere al propósito general detrás del modelo de IA. Si bien los modelos de IA tradicionales deben entrenarse en conjuntos de datos masivos para cada caso de uso individual, los modelos subyacentes se pueden adaptar a una amplia gama de tareas posteriores, lo que limita la cantidad de trabajo preliminar necesario para lanzar una empresa de IA y aumentar la eficiencia. (Lea también: 7 desafíos clave para la adopción de IA y cómo superarlos).)

El modelo base se basa en ideas estándar de transferencia de aprendizaje y avances recientes en la capacitación de modelos de aprendizaje profundo mediante el aprendizaje autosupervisado. También demuestran increíbles capacidades emergentes y mejoran significativamente el rendimiento en una variedad de casos de uso, lo que los convierte en una perspectiva atractiva para las empresas.

Pero los modelos subyacentes subyacentes que existen son incluso más grandes que eso: representan un cambio de paradigma creciente en la IA. Hasta ahora, los investigadores y desarrolladores de IA tenían que entrenar modelos desde cero para cada caso de uso, lo que les obligaba a recopilar conjuntos de datos masivos específicos de tareas. En su lugar, los modelos base proporcionan modelos de uso general que se pueden aplicar a casos de uso específicos utilizando los datos que ya tiene.

De esta manera, el modelo subyacente facilitará que las organizaciones se basen en la IA o la integren en gran medida en sus operaciones.

Tabla de Contenidos

¿Cómo funciona el modelo base?

Desde un punto de vista técnico, el modelo subyacente es una red neuronal profunda entrenada mediante aprendizaje autosupervisado. Aunque estas técnicas existen desde hace años, lo que es realmente innovador es la escala a la que crean modelos.

Los modelos base recientes contienen cientos de miles de millones a billones de parámetros y se entrenan en cientos de gigabytes de datos. Los modelos base existentes utilizan principalmente aprendizaje de transferencia de última generación.

Aunque el aprendizaje por transferencia no es una parte integral del modelo base, tiene algunas propiedades que lo convierten en un núcleo ideal para el modelo base:

Son fáciles de paralelizar. El aprendizaje por transferencia se puede paralelizar fácilmente tanto en las fases de entrenamiento como de inferencia. Esta propiedad es especialmente importante para el procesamiento del lenguaje natural (NLP), donde los modelos de última generación anteriores, incluidas las redes neuronales recurrentes (RNN) y las memorias largas a corto plazo (LSTM), procesan datos secuencialmente y, por lo tanto, no se pueden paralelizar.
Tienen menos sesgo implícito. El aprendizaje por transferencia tiene un sesgo implícito mínimo en comparación con otros modelos contemporáneos, como las redes neuronales convolucionales (CNN) y las RNN. El sesgo implícito se refiere a las elecciones de diseño realizadas teniendo en cuenta ciertas características de los datos de entrada, por ejemplo, la localidad de las características en las CNN y las dependencias de orden de las características en las RNN. Por lo tanto, el aprendizaje por transferencia es una arquitectura más general que otros modelos debido a menos sesgos implícitos, lo que lo hace más adecuado para construir modelos base. Sin embargo, esto también significa que el aprendizaje por transferencia requiere más datos de entrenamiento debido al bien conocido sesgo implícito y el equilibrio entre los datos. (Lea también: Por qué la diversidad es crucial para obtener datos de alta calidad para entrenar la IA).

El modelo base generalmente se entrena mediante el aprendizaje autosupervisado, que requiere menos intervención humana, a diferencia del aprendizaje supervisado. Por el contrario, el aprendizaje autosupervisado permite que el modelo «enseñe a sí mismo» cómo aprender mediante el uso de señales de supervisión que están naturalmente disponibles en los datos de entrenamiento.

Algunos ejemplos de estas señales de supervisión son:

Enmascare las palabras en la oración y entrene al modelo para recuperar las palabras que faltan, tal como lo hace BERT.
Prediga el siguiente carácter o palabra en una oración, tal como lo hace GPT-3.
Determine la correspondencia entre la imagen y su versión convertida, tal como lo hace SimCLR.
Juzgar la similitud entre las imágenes y sus interpretaciones como CLIP.

El aprendizaje autosupervisado es útil para entrenar modelos base por al menos dos razones:

Escala mejor que el aprendizaje supervisado. Esto se debe a que es mucho más conveniente obtener más datos sin etiquetar que datos etiquetados.
Aprende rasgos más expresivos. Esto se debe a que utiliza un espacio de datos más rico que los datos supervisados, cuyo espacio de etiquetas es una limitación conocida.

La combinación de arquitecturas de modelos de alta capacidad y computacionalmente eficientes, objetivos de entrenamiento altamente escalables y hardware potente nos permite escalar el modelo base a niveles extraordinarios.

El auge del modelo base

El auge de los modelos base puede entenderse en términos de surgimiento y homogeneización. La emergencia se refiere al comportamiento de un sistema, que surge indirectamente. La homogeneidad significa integrar enfoques para construir sistemas de aprendizaje automático para una amplia gama de aplicaciones.

Para comprender mejor dónde encaja el modelo subyacente en la conversación más amplia de la IA, exploremos el auge de la IA en los últimos 30 años: (Lea también Breve historia de la inteligencia artificial).

1. Aprendizaje automático

La mayoría de los desarrollos contemporáneos de IA están impulsados por el aprendizaje automático (ML), que utiliza datos históricos para aprender modelos predictivos para hacer predicciones futuras. El auge del aprendizaje automático en IA comenzó en la década de 1990 como un cambio de paradigma con respecto a la forma en que se construyeron los sistemas de IA anteriores.

Los algoritmos de ML pueden inferir cómo realizar una acción determinada a partir de los datos con los que se entrenó. Este es un paso importante hacia la homogeneización, ya que se puede lograr una amplia gama de casos de uso de IA con un solo algoritmo de ML de propósito general.

Sin embargo, una tarea importante en ML es la ingeniería de funciones, que requiere expertos en el dominio para transformar los datos sin procesar en funciones de nivel superior.

2. Aprendizaje profundo

Las redes neuronales tuvieron un nuevo comienzo alrededor de 2010 en forma de aprendizaje profundo (DL).

A diferencia de las redes neuronales ordinarias, los modelos DL funcionan con redes neuronales profundas (es decir, redes neuronales con más capas computacionales), hardware computacionalmente eficiente y conjuntos de datos más grandes. Una gran ventaja de DL es que toma datos sin procesar (es decir, píxeles) y genera una jerarquía de características durante el entrenamiento. Así, en DL, las características también emergen del comportamiento aprendido.

Este desarrollo ha permitido a DL exhibir un rendimiento extraordinario en los puntos de referencia estándar. El auge de DL también es un paso hacia la homogeneización, ya que los mismos algoritmos de DL se pueden usar para muchos casos de uso de IA sin ingeniería de características específicas de dominio.

Sin embargo, los modelos de aprendizaje profundo requieren grandes cantidades de datos específicos del dominio para el entrenamiento. (Lea también: Términos básicos de aprendizaje automático que debe conocer).

3. Modelo básico

La era de los modelos fundamentales en el campo del procesamiento del lenguaje natural comenzó en 2018. Técnicamente, el modelo base funciona con transferencia de aprendizaje y escalado.

Transferir el aprendizaje funciona tomando el conocimiento que un modelo de IA tiene que adquirir para realizar tareas que ya puede hacer, y ampliándolo para enseñarle al modelo a realizar nuevas tareas, esencialmente «transfiriendo» el conocimiento del modelo a nuevos casos de uso.

En el aprendizaje profundo, el principal método de transferencia de aprendizaje es utilizar el aprendizaje autosupervisado para entrenar previamente los modelos y luego ajustarlos para casos de uso específicos.

Si bien el aprendizaje por transferencia hace factibles los modelos subyacentes, es el escalado lo que los hace efectivos. La escala depende de tres factores clave:

Desarrolle arquitecturas modelo computacionalmente eficientes (p. ej., transferencia de aprendizaje) que exploten el paralelismo de hardware.
Mejore el hardware de la computadora (por ejemplo, GPU) con mejor rendimiento y memoria
Acceso a conjuntos de datos más grandes.

A diferencia del aprendizaje profundo, donde los modelos deben recibir grandes conjuntos de datos específicos de tareas para aprender funciones específicas de casos de uso, los modelos subyacentes tienen como objetivo crear funciones «universales» que se pueden usar en múltiples casos de uso.

De esta forma, el modelo subyacente presenta la posibilidad de un nivel de homogeneidad sin precedentes. Caso en cuestión: casi todos los modelos de NLP de última generación emplean uno de los pocos modelos básicos (p. ej., BERT, GPT-3, T5, CLIP, DALL-E 2, Codex y OPT).

En conclusión

El modelo subyacente representa el comienzo de un cambio de paradigma en la forma en que se construyen e implementan los sistemas de IA en el mundo. Han sentado las bases en el procesamiento del lenguaje natural y están explorando otras áreas como la visión artificial, el reconocimiento de voz y el aprendizaje por refuerzo.

Sin embargo, dado su potencial, podemos esperar que los modelos subyacentes trasciendan el ámbito de la investigación y revolucionen la forma en que se aplica la IA en los negocios. La automatización de procesos dentro de la empresa ya no requerirá que los equipos de ciencia de datos vuelvan a entrenar modelos desde cero para cada tarea que quieran automatizar; en su lugar, pueden entrenar modelos en parámetros de referencia y ajustarlos para cada caso de uso. (Lea también: 3 asombrosos ejemplos de inteligencia artificial en acción).

LEER

¿La próxima exhibición de Manny Pacquiao? 'Kyle Brook quiere otra pelea', revela el promotor Ben Shalom | Noticias del boxeo

Etiquetas

0 0 6 minutos de lectura

Modelos fundamentales: la próxima frontera de la IA

¿Cómo funciona el modelo base?