O Projeto Astra está aqui para trocar golpes com o GPT-4o
O Google I/O está acontecendo agora, e a empresa anunciou alguns recursos e capacidades incríveis de IA que consolidarão ainda mais o Gemini como um dos modelos de IA mais capazes do planeta. Um dos novos anúncios mais impressionantes foi o Projeto Astra, uma ferramenta que pode realmente interagir com o mundo através da visão.
O Google expandiu recentemente a disponibilidade de seu Gemini 1.5 Pro de última geração para um público mais amplo. Com uma impressionante capacidade de 1 milhão de tokens, este modelo de linguagem de última geração é um dos mais robustos que existem atualmente. O lançamento do Gemini 1.5 Pro estará acessível para desenvolvedores globais através da plataforma de desenvolvimento e para aqueles que utilizam a versão premium do Gemini Advanced.
Google apresentou o Projeto Astra
Em um evento realizado pela OpenAI pouco antes do Google I/O, a organização revelou sua mais recente inovação conhecida como GPT-4o. Considerado o atual auge de conquistas da empresa, este modelo possui uma capacidade única denominada “Visão”. Ao utilizar o visor integrado no aplicativo ChatGPT, os usuários são capazes de visualizar o ambiente ao seu redor em tempo real enquanto recebem respostas instantâneas da IA com base em suas dúvidas sobre as imagens observadas.
O Google introduziu recentemente uma tecnologia inovadora conhecida como “Projeto Astra”, que permite aos usuários utilizar a função de câmera de seu smartphone como um auxílio visual para os gêmeos Gemini. Em demonstração feita durante o anúncio, o apresentador perguntou à Gemini quais de seus aparelhos produziam som. Posteriormente, ao direcionar a lente da câmera para um alto-falante, Gemini conseguiu discernir a origem do ruído e identificá-la como o dispositivo responsável.
Além de sua capacidade de executar essas tarefas, o sistema demonstrou uma capacidade impressionante de analisar informações visuais, examinando uma exibição de linguagem de programação e compreendendo a função pretendida. Além disso, gerou um nome de banda criativo inspirado em uma estatueta representando um tigre ao lado de um companheiro canino. Por último, manteve o conhecimento da localização do espetáculo do apresentador com notável precisão.
Além disso, pode-se utilizar recursos de desenho na interface para representar elementos específicos. Com efeito, durante a apresentação do referido sistema de áudio, o apresentador esboçou uma seta apontando para o tweeter, que foi prontamente reconhecida pela Gemini como o componente em questão.
Nesse ínterim, reconhecemos que existem certas funcionalidades que se assemelham às oferecidas pelo GPT-4o, mas atualmente indisponíveis. No entanto, é nossa intenção integrar aspectos seleccionados de tais capacidades num futuro próximo através da aplicação Gemini, com lançamento previsto para o segundo semestre deste ano.
Óculos de IA
Durante o evento, foi apresentada uma prévia de óculos inovadores habilitados para IA desenvolvidos pelo Google. O apresentador utilizou o aparelho para consultar informações sobre o entorno por meio das lentes, proporcionando uma experiência semelhante à oferecida pelo aplicativo Gemini. No entanto, permanece incerto quanto à data de lançamento ou mesmo se tal produto chegará ao mercado.
*️⃣ Link da fonte:
Google I/O ,