Los peligros del uso de materiales ficticios para entrenar la inteligencia artificial
A medida que gana popularidad la posibilidad de tener un Einstein en el bolsillo, la inteligencia artificial crece y entra en nuestras vidas y lugares de trabajo.
Ya sea escribiendo un ensayo, creando arte complejo, revisando políticas, creando código personalizado o escribiendo su discurso después de la cena, ya está comenzando a cambiar la forma en que trabajamos y vivimos.
Sin embargo, la inteligencia artificial (IA) se basa completamente en datos para completar sus tareas.
Tomemos como ejemplo el mensaje: «Créame una imagen de una rosa». La inteligencia artificial primero necesita comprender los diversos datos proporcionados antes de poder comenzar a funcionar.
Requiere comprender la forma, el color, el diseño y la disposición de los pétalos típicos de las rosas: todas las características que hacen de una rosa una rosa.
¿De qué fuentes aprende? Los datos son proporcionados por datos generados por inteligencia artificial o datos sintéticos.
Entrenamiento de inteligencia artificial
Si bien hoy nos centramos en el uso de datos generados por IA para entrenar sistemas de IA, en términos generales, los sistemas de IA se entrenan utilizando una combinación de datos generados por IA y datos del mundo real.
Este proceso está diseñado en torno a las limitaciones de consideraciones legales, éticas y de confidencialidad al adquirir datos del mundo real.
Pero si queremos producir sistemas de inteligencia artificial realistas (como lectores de noticias sintéticos), los datos son cruciales y, dada la falta de datos del mundo real, producir datos sintéticos que imiten los datos del mundo real se vuelve crucial.
Por ejemplo, un sistema de inteligencia artificial podría producir una imagen detallada de la cabina de un avión, pero no coincidirá exactamente con la imagen de una cabina del mundo real.
Paso 1: generar datos completos
El sistema de inteligencia artificial de origen genera datos sintéticos que se utilizan para entrenar el modelo de inteligencia artificial de destino, que puede ser una red neuronal u otro algoritmo de aprendizaje automático.
Los datos sintéticos son lo más parecidos posible a los datos del mundo real y permiten que el sistema de inteligencia artificial objetivo comprenda los objetos involucrados en los datos. Entiende información como la forma, el color y los detalles de configuración.
Paso 2: Preparación de materiales de capacitación
Los datos sintéticos se combinan con datos apropiados del mundo real. Por ejemplo, una imagen generada por IA del tablero de la cabina de un avión se combina con una imagen real del tablero de la cabina.
Esta es una oportunidad para que el modelo de aprendizaje de IA aprenda de los datos. No sólo puede identificar componentes de los datos, como indicadores de combustible y altímetros, sino que también puede diferenciar entre datos sintéticos y reales.
Paso 3: entrena el modelo de IA
El modelo de inteligencia artificial objetivo aprende de conjuntos de datos mixtos.
Por ejemplo, el objetivo es permitir que un modelo de IA comprenda imágenes de diferentes tipos de perros. Las respuestas aceptables son que pueda reconocer el nombre del perro y clasificarlo como collie, sabueso, etc.
El modelo de IA recibió una colección limitada de imágenes de perros reales y una colección más amplia de datos sintéticos.
Los modelos de aprendizaje estudian y comprenden diversas características y parámetros y aprenden a hacer inferencias y patrones.
Por ejemplo, un perro con cola corta podría identificarse como un Doberman Pinscher, o un perro con orejas prominentes y triangulares podría identificarse como un Pastor Alemán.
El modelo de aprendizaje también aprende a no generalizar en función de parámetros. Por ejemplo, el Doberman Pinscher tiene una cola corta, pero es posible que no todos los perros con cola corta sean Doberman Pinscher.
Usando datos en el mundo real
Uno de los ejemplos más famosos de la vida real de entrenamiento de inteligencia artificial a partir de datos generados por inteligencia artificial es el proyecto de automóvil autónomo PilotNet de NVIDIA.
PilotNet es un sistema de aprendizaje profundo que aprende sobre la conducción en tiempo real sintetizando datos y observando a los conductores humanos al volante de un automóvil especial diseñado para recopilar datos sobre la conducción, las condiciones de la carretera, las señales de tráfico, las marcas de carril, los vehículos y los peatones.
Conducir es una tarea compleja ya que implica tanto habilidades como toma de decisiones en un periodo de tiempo muy corto. PilotNet recopila datos mientras un humano conduce el automóvil y etiqueta los datos relevantes como píxeles resaltados.
Los sistemas de aprendizaje profundo detrás de los vehículos autónomos deben controlar la conducción basándose en píxeles resaltados que identifican diversos objetos en la carretera, como peatones, señales de tráfico y vehículos.
Beneficios de los datos completos
Los principales beneficios de utilizar datos sintéticos para entrenar inteligencia artificial son:
- Como se mencionó anteriormente, los datos de la vida real son difíciles de obtener debido a diversas limitaciones, lo que hace que los datos sintéticos sean su mejor opción. Los datos sintéticos de alta calidad que se acercan lo más posible a los datos reales son la mejor fuente de aprendizaje para los modelos de aprendizaje de IA.
- Con los datos sintéticos, no se enfrenta a la confidencialidad ni al riesgo de violaciones que conllevan los datos del mundo real. Los datos de la vida real vienen con condiciones cuando se obtienen legalmente con consentimiento.
- Los datos completos respaldan la exploración de muchos escenarios diferentes. Por ejemplo, en los vehículos autónomos, los datos sintéticos pueden ayudar a explorar la conducción en calles o autopistas concurridas sin tener que salir a la carretera.
limitaciones y problemas
Los datos sintéticos son tanto una fortaleza como una limitación porque, independientemente de su calidad, no son datos del mundo real.
Los modelos de inteligencia artificial tardan más en comprender los objetos del mundo real a través de datos sintéticos.
Los datos sintéticos pueden contener errores y datos sesgados que pueden generar resultados de entrenamiento inesperados porque los datos no coinciden con los casos de uso del mundo real.
Por ejemplo, los datos agregados sobre puntajes crediticios y solicitudes de préstamos pueden contener datos erróneos y sesgados para comunidades específicas, o ser inexactos porque no están sincronizados con los cambios recientes en las leyes de datos.
Los resultados pueden no sólo ser inesperados, sino también peligrosos.
Sin embargo, a pesar de sus limitaciones, los datos sintéticos siguen siendo la mejor fuente de material disponible de la que pueden aprender los modelos de IA.
Sin embargo, las organizaciones comerciales pueden desconfiar del uso de la IA en casos de uso delicados, como atención médica, cuestiones sociales y solicitudes de préstamos.
línea de fondo
El acceso a datos del mundo real parece ser un obstáculo importante para el aprendizaje de modelos de IA, y la adquisición de datos enfrenta obstáculos de muchas formas.
Dadas las cosas extraordinarias que la IA puede hacer, las principales instituciones como gobiernos, empresas e instituciones de investigación deben buscar cómo permitir que los sistemas de IA analicen datos en tiempo real y eliminen las partes que, si se procesan, podrían causar problemas en el mundo real. .
Al mismo tiempo, sin embargo, un uso cuidadoso de los datos sintéticos es mejor que nada.