real time web analytics

El GPT-4 de OpenAI exhibe un “rendimiento a nivel humano” en puntos de referencia profesionales

Una imagen colorida generada por IA de una silueta radiante.

Ars Technica

El martes, OpenAI anunció GPT-4, un gran modelo multimodal que puede aceptar entradas de texto e imágenes mientras devuelve una salida de texto que “muestra un rendimiento a nivel humano en varios puntos de referencia académicos y profesionales”, según OpenAI. También el martes, Microsoft anunció que Bing Chat se ha estado ejecutando en GPT-4 todo el tiempo.

Si funciona como se afirma, GPT-4 representa potencialmente la apertura de una nueva era en inteligencia artificial. “Aprueba un examen de barra simulado con una puntuación de alrededor del 10% superior de los examinados”, escribe OpenAI en su anuncio. “En contraste, el puntaje de GPT-3.5 estuvo alrededor del 10% inferior”.

OpenAI planea lanzar la capacidad de texto de GPT-4 a través de ChatGPT y su API comercial, pero al principio con una lista de espera. GPT-4 está actualmente disponible para los suscriptores de ChatGPT Plus. Además, la firma está probando la capacidad de entrada de imágenes de GPT-4 con un solo socio, Be My Eyes, una próxima aplicación para teléfonos inteligentes que puede reconocer una escena y describirla.

Una captura de pantalla de la introducción de GPT-4 a los clientes de ChatGPT Plus del 14 de marzo de 2023.
Agrandar / Una captura de pantalla de la introducción de GPT-4 a los clientes de ChatGPT Plus del 14 de marzo de 2023.

Benj Edwards / Ars Technica

GPT significa “transformador preentrenado generativo” y GPT-4 es parte de una serie de modelos de lenguaje fundamentales que se remontan al GPT original en 2018. Después del lanzamiento original, OpenAI anunció GPT-2 en 2019 y GPT-3 en 2020. En 2022 llegó un refinamiento adicional llamado GPT-3.5. En noviembre, OpenAI lanzó ChatGPT, que en ese momento era un modelo de conversación perfeccionado basado en GPT-3.5.

Los modelos de IA de la serie GPT han sido entrenados para predecir el siguiente token (un fragmento de una palabra) en una secuencia de tokens utilizando una gran cantidad de texto extraído en gran parte de Internet. Durante el entrenamiento, la red neuronal construye un modelo estadístico que representa las relaciones entre palabras y conceptos. Con el tiempo, OpenAI ha aumentado el tamaño y la complejidad de cada modelo de GPT, lo que ha resultado en un rendimiento generalmente mejor, modelo sobre modelo, en comparación con la forma en que un humano completaría el texto en el mismo escenario, aunque varía según la tarea.

En cuanto a las tareas, el rendimiento de GPT-4 es notable. Al igual que sus predecesores, puede seguir instrucciones complejas en lenguaje natural y generar trabajos técnicos o creativos, pero puede hacerlo con más profundidad: admite la generación y procesamiento de hasta 32,768 tokens (alrededor de 25.000 palabras de texto), lo que permite una creación de contenido o análisis de documentos mucho más larga que los modelos anteriores.

Mientras analizaba las capacidades de GPT-4, OpenAI hizo que el modelo tomara pruebas como el examen de la barra uniforme, la prueba de admisión a la facultad de derecho (LSAT), el Examen de registro de posgrado (GRE) Cuantitativo y varias pruebas de materias AP. En muchas de las tareas, obtuvo una puntuación a nivel humano. Eso significa que si GPT-4 fuera una persona juzgada únicamente por su capacidad para tomar exámenes, podría ingresar a la facultad de derecho, y probablemente también a muchas universidades.

Junto con el sitio web introductorio, OpenAI también publicó un documento técnico que describe las capacidades de GPT-4 y una tarjeta modelo del sistema que describe sus limitaciones en detalle.

El as desquiciado de Microsoft en la manga

Aurich Lawson | imágenes falsas

El anuncio simultáneo de GPT-4 de Microsoft significa que OpenAI ha estado sentado en GPT-4 desde al menos noviembre de 2022, cuando Microsoft probó por primera vez Bing Chat en India.

“Nos complace confirmar que el nuevo Bing se ejecuta en GPT-4, personalizado para la búsqueda”, escribe Microsoft en una publicación de blog. “Si usó el nuevo Bing en versión preliminar en cualquier momento durante las últimas seis semanas, ya ha visto por adelantado el poder del último modelo de OpenAI. A medida que OpenAI realiza actualizaciones a GPT-4 y más allá, Bing se beneficia de esas mejoras para garantizar que nuestros usuarios tengan las funciones de copiloto más completas disponibles”.

La línea de tiempo de Bing Chat coincide con un consejo anónimo que Ars Technica escuchó el otoño pasado de que OpenAI tenía GPT-4 listo internamente, pero se mostró reticente a lanzarlo hasta que se pudieran implementar mejores barandillas. Si bien la naturaleza de la alineación de Bing Chat era discutible, las barandillas de protección de GPT-4 ahora vienen en forma de más entrenamiento de alineación. Usando una técnica llamada aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF), OpenAI usó la retroalimentación humana de los resultados de GPT-4 para entrenar a la red neuronal para que se niegue a discutir temas que OpenAI cree que son sensibles o potencialmente dañinos.

“Pasamos 6 meses alineando iterativamente GPT-4 usando lecciones de nuestro programa de pruebas contradictorias, así como ChatGPT”, escribe OpenAI en su sitio web, “lo que resultó en nuestros mejores resultados (aunque lejos de ser perfectos) en factualidad, capacidad de dirección, y negarse a salir de las barandillas”.

Esto es parte de una noticia de última hora que se actualizará a medida que surjan nuevos detalles.

Leave a Comment