Mon, 13 May 2024 13:13:12 -0500
andina.pe –
13:13 | Lima, may. 13.
La empresa OpenAI sigue destacando en la carrera de inteligencia artificial. Hoy anunció GPT-4o, su nuevo modelo insignia que puede razonar a través de audio, visión y texto en tiempo real. Lo mejor: se integrará gratis a ChatGPT, primero con texto e imagen; y posteriormente con voz y video.
OpenAI anunció que GPT-4o («o» para «omni») representa «un paso hacia una interacción persona-computadora mucho más natural». Este modelo de lenguaje permite que la instrucción (o prompt) sea una combinación de texto, audio e imagen y genera, de igual manera, texto, audio e imagen.
¿Cuáles son sus mejoras? Puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta humano en una conversación.
Antes de GPT-4o, los usuarios de ChatGPT podían usar el modo de voz con latencias de 2,8 segundos (GPT-3.5) y 5,4 segundos (GPT-4) en promedio.
Voice Mode integra tres modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma texto y genera texto, y un tercer modelo simple convierte ese texto nuevamente en audio. Este proceso significa que la principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, varios parlantes o ruidos de fondo, y no puede emitir risas, cantar ni expresar emociones.
Esto es lo sorprende: con GPT-4o hay un único modelo nuevo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. En el video, se escucha a GPT-4o riendo de la interacción con una persona.
«Todavía estamos apenas rascando la superficie para explorar lo que el modelo puede hacer y sus limitaciones», señala OpenAI en un comunicado.
En cuanto a texto, el nuevo modelo de inteligencia artificial GPT-4o iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas distintos del inglés, a la vez que es mucho más rápido y un 50 % más económico en la API. GPT-4o es especialmente mejor en cuanto a visión y comprensión de audio en comparación con los modelos existentes, según la compañía.