Scroll Top
Algoritmo 'Eureka' de GPT4
GPT4 desarrolla un algoritmo que acelerará y calificará aún más a los robots.
imagen del artículo sobre el algoritmo eureka de chat gpt4

GPT4 desarrolla un algoritmo que acelerará y calificará aún más a los robots.

Hace poco, un grupo de científicos de Nvidia, la Universidad de Pensilvania, el Instituto de Tecnología de California (Caltech) y la Universidad de Texas en Austin dieron a conocer Eureka, un innovador algoritmo que utiliza el modelo de lenguaje GPT-4 de OpenAI (ChatGPT)con el propósito de crear lo que llaman «funciones de recompensa» para mejorar las habilidades de los robots.

La meta de esta investigación es cerrar la brecha entre la toma de decisiones avanzada y el control físico, permitiendo a los robots aprender tareas complejas de manera más rápida mediante simulaciones simultáneas en paralelo.

Entornos Virtuales

En lugar de utilizar ensayos y errores en un entorno físico para enseñar a los robots cómo moverse y cumplir tareas específicas, los científicos de Nvidia han optado por aprovechar entornos virtuales similares a los videojuegos a través de herramientas como Isaac Sim e Isaac Gym, que simulan ambientes tridimensionales con física realista. Esto posibilita realizar múltiples sesiones de entrenamiento en numerosos mundos virtuales al mismo tiempo, reduciendo significativamente el tiempo requerido para el aprendizaje.

¿en qué consiste exactamente el algoritmo Eureka?

Aprovechando la potencia de las unidades de procesamiento gráfico (GPU) de última generación en Nvidia Isaac Gym, Eureka puede evaluar con rapidez la efectividad de diversas opciones de recompensa, lo que facilita una búsqueda eficiente en el conjunto de funciones de recompensa. Esto se denomina «evaluación rápida de recompensas mediante aprendizaje por refuerzo masivamente paralelo«.

La arquitectura de Eureka se describe como una combinación de dos modelos de aprendizaje diferentes: una red neuronal de bajo nivel que controla el movimiento del robot y un gran modelo de lenguaje de alto nivel, como GPT-4, que proporciona instrucciones de inferencia. Esta arquitectura incorpora dos bucles: uno exterior que utiliza GPT-4 para refinar la función de recompensa y otro interno para entrenar el sistema de control del robot mediante aprendizaje por refuerzo.

imagen del Diagrama del algoritmo Eureka.
Diagrama del algoritmo Eureka.

Recompensas a Nivel Humano

Los detalles de esta investigación se detallan en un reciente artículo titulado «Eureka: Diseño de recompensas a nivel humano mediante la codificación de grandes modelos de lenguaje». En él, los investigadores muestran que Eureka superó en un 83% a las funciones de recompensa diseñadas por humanos en un conjunto de 29 tareas en 10 robots distintos, mejorando el rendimiento en un promedio del 52%.

Lo que hace aún más fascinante a Eureka es su capacidad de aprendizaje por refuerzo a partir de la retroalimentación humana, permitiendo que las indicaciones en lenguaje natural de un operador influyan en la función de recompensa. Esto se convierte en una herramienta valiosa para ingenieros que buscan desarrollar comportamientos sofisticados en robots.

Resumen

En resumen, esta investigación allana el camino para acelerar el proceso de enseñanza de nuevos trucos a los robots mediante simulaciones masivamente paralelas, respaldadas por modelos de inteligencia artificial que supervisan el entrenamiento. Este trabajo se suma a experimentos anteriores de Microsoft y Google que también han utilizado modelos de lenguaje para controlar robots.

El equipo detrás de Eureka ha decidido compartir sus hallazgos y el código subyacente con la comunidad científica, lo que promete abrir nuevas puertas para futuros investigadores que deseen seguir explorando este emocionante campo.

Puedes acceder al artículo en arXiv y encontrar el código en GitHub para obtener más información.

Fuente: WIRED

Redación: MR SEO de Agencia SEO España