5 coisas Chatgpt O3-mini faz melhor do que outros modelos de IA
No fim de semana passado, marcou o lançamento do modelo O3-mini de ponta da Openai, uma resposta estratégica ao modelo de raciocínio Deepseek R1 da China. O desenvolvimento da série O3 foi divulgado pela primeira vez em dezembro do ano passado e, desde então, o OpenAI agiu rapidamente para apresentar o O3-mini e sua contraparte aprimorada, o O3-Mini-Alto, mantendo assim sua vantagem competitiva no reino de inteligência artificial. Intrigados com os supostos avanços do modelo O3-mini do ChatGPT sobre seus contemporâneos, realizamos uma avaliação exaustiva de suas capacidades. Nossos testes abrangeram uma avaliação rigorosa da proficiência em codificação, bem como o desempenho em relação aos benchmarks estabelecidos. Com essa introdução, vamos nos aprofundar em nossas descobertas.
1 . Desempenho de codificação excepcional
O OpenAI afirma que o modelo O3-Mini oferece excelente desempenho em tarefas de codificação, combinando acessibilidade com velocidade notável. Antes de sua introdução, o Claude de 3,5 sonetos da Anthropic era considerado a principal opção para abordar as consultas de programação. No entanto, a liberação do O3-mini, particularmente sua variante de alto desempenho acessível aos assinantes ChatGPT Plus e Pro, está pronta para alterar essa paisagem.
Eu conduzi um teste do modelo O3-Mini-Alto, instruindo-o a desenvolver um jogo de cobra baseado em Python, com várias entidades autônomas de cobra competindo entre si. Após um período contemplativo de um minuto e dez segundos, o modelo prontamente produziu o código Python necessário em uma única execução.
Eu executei com sucesso o código, que operava perfeitamente sem encontrar nenhum problema. Foi particularmente agradável observar as cobras autônomas em ação, enquanto elas se moviam com uma precisão que espelhava a jogabilidade humana.
Notavelmente, o modelo O3-Mini-Alto atingiu uma classificação ELO de 2.130 na plataforma de programação competitiva das forças de código, colocando-a entre os 2.500 programadores principais em todo o mundo. Além disso, no benchmark verificado do banco SWE, que avalia a proficiência na resolução de desafios práticos de software, o modelo O3-Mini-Alto alcançou uma taxa de precisão louvável de 49,3%, superando mesmo a de sua contraparte maior, o modelo O1, que obteve 48.9 %.
Para assistência de codificação de IA, acredito que o modelo O3-Mini-Alto fornecerá desempenho ideal até o lançamento do modelo O3 completo, conforme anunciado por Sam Altman para estar disponível dentro de algumas semanas.
2 . Pergunte problemas de matemática desafiadores
Além de sua proficiência na codificação, o modelo O3-Mini também se destaca em matemática, superando outros modelos de IA nesse domínio. No estimado 2024 American Invitational Mathematics Examination (AIME), que abrange uma ampla gama de disciplinas matemáticas, incluindo teoria de números, probabilidade, álgebra e geometria, a variante O3-mini-alta alcançou uma pontuação excelente de 87,3%, superou até a completa a completa modelo O1.
Na exigente referência de Frontiermath, que compreende problemas matemáticos de nível especializado criados pelos principais matemáticos, medalhistas de campos e professores distintos em todo o mundo, o modelo O3-Mini-alto alcançou uma pontuação de 20% após oito tentativas. Mesmo em uma única tentativa, garantiu 9,2%notáveis.
Para fornecer contexto, o eminente matemático Terence Tao caracterizou os desafios apresentados pelo benchmark da Frontiermath como"extremamente assustador". Esses problemas podem exigir horas ou até dias de intenso esforço de matemáticos experientes. As alternativas concorrentes do CHATGPT alcançaram uma taxa de sucesso de 2% nessa referência.
3 . Seu especialista em ciências no nível de doutorado
O modelo O3-Mini-Alto demonstra proficiência excepcional na abordagem de consultas científicas no nível de doutorado, superando os modelos concorrentes de IA por uma margem considerável. O GPQA Diamond é um benchmark avançado projetado para avaliar as capacidades dos modelos de IA em domínios científicos especializados, apresentando perguntas sofisticadas extraídas da biologia, física e química.
No benchmark de diamante GPQA, o modelo O3-Mini-Alto alcançou uma pontuação impressionante de 79,7%, superando o desempenho de seu equivalente maior, o modelo O1, que obteve 78,0%. Para o contexto, o modelo de raciocínio mais recente do Gemini 2.0 Flash Thinking (Exp-01-21) alcançou uma pontuação de 73,3%. Mesmo o recém-lançado Modelo Claude 3,5 Sonnet gerenciou apenas um desempenho de 65% nesse benchmark.
A análise demonstra ainda que o modelo compacto O3-mini da OpenAI, quando fornecido com recursos computacionais e tempo adicionais para deliberação, supera outros modelos de inteligência artificial no tratamento de consultas científicas altamente especializadas.
4 . Conhecimento geral
Em vários domínios de conhecimento geral, prevê-se que a O3-mini não supere modelos maiores devido ao seu foco especializado na codificação, matemática e ciências, bem como seu tamanho menor. No entanto, apesar dessas limitações, o O3-mini demonstra um desempenho notável, quase rivalizando com o de seus colegas maiores. No benchmark MMLU, que avalia os modelos de IA em uma extensa gama de indivíduos, o O3-Mini-alto atinge uma pontuação de 86,9%, enquanto o modelo GPT-4O da OpenAI pontua um pouco mais alto em 88,7%.
Vale ressaltar que o próximo modelo O3 maior provavelmente superará todos os modelos de IA existentes em um amplo espectro de domínios gerais de conhecimento. Essa afirmação está fundamentada no fato de que o modelo completo de O1 já atingiu uma precisão notável de 92,3% na referência da MMLU. Consequentemente, antecipamos ansiosamente a liberação do modelo O3 completo, que pode muito bem obter pontuações quase perfeitas nesta referência.
5 . O3-mini com pesquisa na web
A base de conhecimento da O3-mini é atual em outubro de 2023, que é um pouco desatualizada pelos padrões contemporâneos. No entanto, o OpenAI integrou os recursos de pesquisa da Web na estrutura O3-Mini, permitindo recuperar os dados mais recentes da Internet e conduzir análises sofisticadas. Da mesma forma, o Deepseek R1 oferece essa funcionalidade, mas nenhum outro modelo de raciocínio fornece aos usuários acesso direto à Web para tarefas inferenciais aprimoradas.
Aqui estão alguns dos recursos avançados oferecidos pelo modelo O3-mini. Embora os usuários gratuitos do ChatGPT tenham acesso a esse modelo, os recursos computacionais alocados são limitados a uma configuração"média", conservando assim o poder de processamento.
Aconselho fortemente a optar pela assinatura do ChatGPT Plus a um custo de US $ 20 por mês, pois concede acesso ao modelo avançado de’O3-mini-altura'. Esse modelo aprimorado é particularmente vantajoso para codificadores profissionais, pesquisadores e estudantes de graduação em campos STEM.
Artigos relacionados
Arjun Sha
Estou profundamente entusiasmado com os sistemas operacionais Windows, Chromeos e Android, bem como assuntos relacionados à segurança e privacidade. Possuo uma inclinação particular para resolver desafios comuns de computação.