Contents

A IA Deepseek ofereceu dados críticos de biueapons nos testes do Anthropic

Contents

/images/deepseek-ai-offered-critical-bioweapons-data-in-anthropics-tests.jpg

Com o tempo, os pesquisadores alcançaram uma maior compreensão das vantagens e desvantagens associadas aos modelos Deepseek AI desenvolvidos pela empresa de tecnologia chinesa. A entrada desta empresa no mercado levou a declínios significativos nos preços das ações dos principais players como a NVIDIA devido ao seu desempenho impressionante e custos aparentemente mais baixos. No entanto, especialistas da Antrópica emitiram avisos sobre a facilidade com que a IA Deepseek pode ser manipulada para disseminar informações que representam uma ameaça à segurança nacional.

Os testes de segurança da ## antropia mostraram que a AI Deepseek não bloqueia prompts prejudiciais

Antrópico, a organização-mãe da Claude AI, se destaca como uma figura proeminente dentro da indústria. Espera-se que os sofisticados modelos de IA da empresa sustentem o próximo sistema Alexa aprimorado da Amazon. Além disso, avalia rigorosamente vários modelos de IA para avaliar sua suscetibilidade a"jailbreak", que se refere à geração de conteúdo nocivo, contornando as medidas de segurança.

Dario Amodei, CEO da Anthrópica, expressou suas preocupações sobre a facilidade com que a defesa profunda gera informações raras relacionadas a armas biológicas. O executivo disse que o desempenho de Deepseek foi"o pior de basicamente qualquer modelo que já testamos". Ele não estava falando sobre desempenho em benchmarks, onde os modelos da empresa chinesa são altamente eficientes. Ele estava se referindo ao desempenho dos modelos de IA no bloqueio de avisos prejudiciais.

Os resultados dos testes indicaram que a Deepseek exibiu"nenhuma restrição"ao gerar as informações especificadas, particularmente sobre dados relacionados à biológica, que são notavelmente escassos e não são facilmente acessíveis por fontes convencionais, como livros didáticos do Google ou acadêmico. Embora Amodei não tenha especificado qual versão do modelo Deepseek AI ele estava referenciando, é provável que ele estivesse se referindo ao R1, a variante orientada para o raciocínio.

Os testes da Cisco produziram resultados semelhantes

De fato, a equipe da Cisco alcançou recentemente resultados comparáveis ​​em outra série de testes. O modelo Deepseek R1 demonstrou uma taxa de sucesso de ataque (ASR) de 100%, indicando que não bloqueou quaisquer instruções prejudiciais apresentadas durante o teste. Esses avisos foram criados para provocar saídas potencialmente benéficas para fins relacionados a crimes cibernéticos, desinformação, atividades ilegais e danos gerais. No entanto, os testes da Cisco também revelaram resultados para outras plataformas de IA proeminentes. O modelo GPT 1.5 Pro exibiu um ASR de 86%, enquanto o LLAMA 3,1 405B da Meta exibiu um ASR ainda maior de 96%.

Embora a Amodei atualmente não considere os modelos independentes de Deepseek como"literalmente perigosos", ele enfatiza a necessidade de a equipe de desenvolvimento considerar seriamente questões relacionadas à segurança da IA. Além disso, ele vê o DeepSeek como um concorrente de destaque no setor de inteligência artificial.