Hace unos días, se rumoreaba que en el evento anual que hace OpenAI para presentar novedades lanzarían su propio buscador.
Si bien el anuncio no tuvo que ver con eso, la compañía de Sam Altman sorprendió al presentar a GPT-4o, su modelo de inteligencia artificial más complejo hasta el momento.
Qué pasó. Durante la presentación, se pudo ver una nueva actualización de su IA, llamada GPT-4o, que estará disponible para todos los usuarios de forma gratuita a través de la app de ChatGPT, y que permitirá que interactuemos con voz, audio e imágenes de una manera increíblemente veloz.
Presentación. En el anuncio, uno de los ingenieros de OpenAI mostró cómo funcionaba esta tecnología. En un video donde usaba la cámara, habló con GPT y le hizo adivinar dónde estaba. La tecnología rápidamente notó que se encontraba en una especie de estudio de grabación y detalló no solo objetos sino la situación en la que se encontraba el ingeniero. Realmente sorprendente.
La latencia es uno de los temas principales de estos modelos que hablan con los usuarios. Los expertos redujeron los tiempos de repuesta notablemente. Ahora tener una conversación con GPT-4o, al ser mucho más rápida, se sentirá más real, menos sintética. Incluso podemos interrumpir a la tecnología para iterar el prompt a medida que vamos escuchando su respuesta.
GPT-4o. El nombre de este nuevo modelo tiene que ver con que esté disponible en todo los canales posibles. De hecho la «o» viene de omni, por omnicanal.
Lo que dijeron. «Con GPT-4o, entrenamos un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos apenas rascando la superficie para explorar lo que el modelo puede hacer y sus limitaciones», aseguraron desde la empresa.