Contents

Gemini 2.0 Flash Thinking vs ChatGPT o1: OpenAI pensa mais profundamente

Após a introdução dos modelos de raciocínio O1 da OpenAI no ChatGPT, todo o setor de inteligência artificial percebeu e começou a se concentrar na “computação em tempo de teste”, ou escala de inferência. A opinião predominante mudou da ênfase no treinamento de modelos cada vez maiores para a alocação de mais tempo para “pensar” durante a fase de inferência, a fim de desbloquear níveis avançados de inteligência e capacidades de raciocínio.

Recentemente, o Google revelou seu lançamento inaugural. modelo de raciocínio, “Gemini 2.0 Flash Thinking”, que reflete a abordagem do ChatGPT de reavaliar as respostas antes da finalização. Este método permite que o modelo verifique rigorosamente suas respostas, examinando minuciosamente todos os resultados potenciais. A melhoria no desempenho, mesmo para modelos menores, é atribuída ao princípio da escala de inferência.

Agora que o Google entrou no reino da “computação em tempo de teste”, vale a pena justapor sua oferta com aquelas dos modelos o1 e o1-mini da OpenAI. Para aprofundar esta análise, também incorporei o modelo DeepSeek-R1-Lite-Preview da China, que adota uma metodologia comparável. Com isso em mente, vamos nos aprofundar no exame comparativo do Gemini 2.0 Flash Thinking, ChatGPT o1 e DeepSeek R1 Lite.

Testes de raciocínio

Vamos começar com o conhecido Inquérito “morango”, onde os modelos de IA têm a tarefa de contar as ocorrências da letra ‘r’. Neste teste inicial, o Gemini 2.0 Flash Thinking do Google encontra dificuldades e afirma incorretamente que a palavra “morango” contém dois ‘r’s. Por outro lado, ChatGPT o1 e seu equivalente menor, o1-mini, fornecem com precisão a resposta correta na primeira tentativa. O modelo de raciocínio do DeepSeek também identifica corretamente que existem três’r’s na palavra.

/images/gemini-2-0-flash-thinking-vs-chatgpt-o1-openai-thinks-deeper.jpg

Em outro teste, instruí todos os três modelos a fornecer uma lista de estados indianos que não contêm a letra’a’em seus nomes. O Gemini 2.0 Flash Thinking identificou corretamente Sikkim, mas também incluiu incorretamente três estados adicionais que contêm a letra ‘a’, demonstrando uma incapacidade de aderir estritamente aos critérios fornecidos. Em contraste, ChatGPT o1, o1-mini e DeepSeek tiveram um desempenho excepcionalmente bom, listando com precisão apenas Sikkim como a resposta correta.

/images/gemini-2-0-flash-thinking-vs-chatgpt-o1-openai-thinks-deeper-1.jpg

Em seguida, tentei um prompt complicado criado por Riley Goodside para verificar até que ponto os modelos de IA podem tecer conexões e encontrar a resposta certa. Bem, Gemini 2.0 Flash Thinking, o1-mini e DeepSeek tiveram muitas alucinações e erraram a resposta.

Cite uma instncia específica da forma de entretenimento cuja sigla também poderia representar os primeiros nomes de um grupo que visitou um país cujo futuro líder se casou com uma italiana.

Entre os modelos avaliados, apenas a versão 1 do ChatGPT identificou com precisão “Final Fantasy VII” como um videogame RPG japonês. Além disso, observou corretamente que membros dos Beatles – John Lennon, Ringo Starr, Paul McCartney e George Harrison – visitaram a Índia, onde o futuro primeiro-ministro Rajiv Gandhi se casou com uma italiana.

/images/gemini-2-0-flash-thinking-vs-chatgpt-o1-openai-thinks-deeper-2.jpg

Desde tanto o Gemini 2.0 Flash Thinking quanto o ChatGPT o1 suportam entrada de imagem, carreguei uma imagem contendo um problema de matemática, do Livro de receitas . Neste teste multimodal, o Gemini 2.0 Flash Thinking dizima o modelo ChatGPT o1.

/images/gemini-2-0-flash-thinking-vs-chatgpt-o1-openai-thinks-deeper-3.jpg

Crédito da imagem: Google via GitHub

Gemini reconhece com precisão o tringulo como um tringulo retngulo e deduz que a região sobreposta constitui um quarto da área total do círculo. Ao dividir a área do círculo por quatro, dado que o raio é 3, a área resultante do setor é \(\frac{9\pi}{4}\), o que equivale a aproximadamente 7.065 unidades quadradas.

/images/gemini-2-0-flash-thinking-vs-chatgpt-o1-openai-thinks-deeper-4.jpg

Pelo contrário, ChatGPT a versão 1 classifica incorretamente o tringulo como isósceles e chega a uma conclusão errônea. Na minha opinião, o Google mantém uma vantagem significativa sobre seus concorrentes no tratamento de consultas multimodais, especialmente na área de processamento de imagens.

Artigos relacionados

Considerações iniciais

O modelo Gemini 2.0 Flash Thinking do Google, sem dúvida, se destaca em velocidade e eficiência; no entanto, minha avaliação preliminar sugere que ele não supera a perspicácia cognitiva do ChatGPT o1 ou mesmo de seu equivalente menor, o1-mini. Com base em minhas avaliações até o momento, o ChatGPT o1 demonstra uma abordagem mais sutil e fundamentada em fatos.

Para ser justo com o Gemini 2.0 Flash Thinking, é importante reconhecer que esse sistema de raciocínio foi desenvolvido usando o Gemini 2.0 menor. Modelo Flash, fazendo uma comparação direta com o ChatGPT-o1 de última geração um tanto desigual. Acredito que seria mais criterioso aguardar o lançamento do modelo maior do Gemini 2.0 Pro Thinking, que deverá apresentar capacidades de escalabilidade superiores e, consequentemente, oferecer melhor desempenho de raciocínio.

Dito isto, a força do Gemini 2.0 Flash Thinking reside em sua compreensão multimodal, incluindo processamento de vídeo, áudio e imagem. É simplesmente superior aos modelos de raciocínio concorrentes. Além disso, muitos usuários descobriram que o Gemini 2.0 Flash Thinking resolve um problema do Putnam 2024 e O problema dos três jogadores . Claramente, seu caso de uso vai além do simples raciocínio.

No entanto, a busca para desvendar as complexidades do raciocínio e da inteligência está apenas no início e, até 2025, podemos antecipar avanços substanciais nessas áreas.

Arjun Sha

Estou profundamente entusiasmado com os sistemas operacionais Windows, ChromeOS e Android, bem como com assuntos relacionados à segurança e privacidade. Tenho uma inclinação particular para resolver desafios comuns de computação.

![](/images/gemini-2-0-flash-thinking-vs-chatgpt-o1-openai-thinks-mais profundo.gif)