A OpenAI revelou o GPT-4o, a mais recente interação de sua inteligência artificial (IA) que alimenta o ChatGPT. Sua disponibilização está sendo feita de forma progressiva para todos os usuários, incluindo aqueles que estão utilizando a versão gratuita.
Esse é o primeiro modelo a conseguir processar imagens e vozes em tempo real. Nas versões anteriores, o ChatGPT dependia de outros modelos de IA para interpretar comandos de voz e imagens. A expectativa é de que essa alteração torne o ChatGPT ainda mais ágil, com várias funcionalidades diferentes.
Dentre uma das funcionalidades mais esperadas, era a de que o novo ChatGPT conseguisse “ler” sites em tempo real. Essa função já existia em outras ferramentas de IA no mercado, mas nunca funcionava como o esperado por muito tempo por estas IAs. Todavia, outras novidades não tão esperadas pela maioria do público chegaram pegando muitos de surpresa.
Novo: Capacidade de interagir em tempo real
Com a chegada do GPT-4o, o ChatGPT adquire a capacidade de interagir em tempo real, incluindo recursos de áudio e imagem que permitem a reprodução de áudios e a interpretação de fotos e vídeos, como os do YouTube, durante as conversas. Possibilitando ainda uma precisão impressionante na tradução simultânea entre duas pessoas que não falam o mesmo idioma, conforme demonstrado no vídeo abaixo.
Novo: Reconhecimento de imagens
Na apresentação, foram ressaltadas melhorias no reconhecimento de imagens. Um exemplo prático foi a identificação e resolução de uma equação matemática simples, na qual o ChatGPT auxiliou na solução de um problema envolvendo geometria analítica.
Novo: Reconhecimento de objetos externos tridimensionais
O modelo GPT-4o realiza o reconhecimento de objetos externos tridimensionais através do processamento de informações visuais em tempo real. Utilizando técnicas de visão computacional, o modelo é capaz de analisar imagens ou vídeos e identificar objetos tridimensionais presentes no ambiente e descrevê-los em qualquer idioma.
Novo: Interpretação de expressões faciais
Através de técnicas avançadas de processamento de imagem e aprendizado de máquina, o novo modelo é capaz de identificar padrões faciais e interpretar as emoções expressas pelo rosto de uma pessoa. Além disso, o GPT-4o tem a funcionalidade de identificar e interpretar situações diferentes, como nesse exemplo abaixo onde a IA dá dicas sobre como o rapaz deve se portar em uma entrevista de emprego e o que ele deve vestir.
A OpenAI está iniciando a liberação dos recursos de texto e imagem do GPT-4o nesta segunda-feira. Os usuários da versão gratuita poderão acessá-lo, porém o limite de mensagens não foi especificado, enquanto os assinantes do ChatGPT Plus terão um limite maior. A utilização do GPT-4o com comandos de voz estará disponível nas próximas semanas para os assinantes do ChatGPT Plus.
O lançamento do novo produto acontece em meio aos esforços da OpenAI para manter-se à frente da concorrência crescente na corrida pela liderança em IA. Empresas rivais como Google e Meta têm se dedicado ao desenvolvimento de modelos de linguagem cada vez mais robustos, os quais podem ser aplicados em uma variedade de produtos de IA.
O mais recente lançamento do GPT pode representar uma vantagem para a Microsoft, que investiu significativamente na OpenAI com o objetivo de integrar sua tecnologia de IA em seus próprios produtos.