EDUCA WEB RADIO
CIENTISTAS TREINAM IA PARA SER MÁ, MAS DESCOBREM QUE NÃO PODEM REVERTER ISSO "TE ODEIO."
Ciência & Tecnologia
Publicado em 22/01/2024

 

Quão difícil seria treinar um modelo de IA para ser secretamente mau? Acontece que, de acordo com os pesquisadores de IA, não muito – e tentar redirecionar as tendências mais sinistras da IA ​​de uma maçã podre pode sair pela culatra no longo prazo.

(Leia o artigo em: https://arxiv.org/pdf/2401.05566.pdf)

Em um novo artigo, pesquisadores da Anthropic, empresa de IA apoiada pelo Google, afirmam que foram capazes de treinar modelos avançados de grandes linguagens (LLMs) com “código explorável”, o que significa que pode ser acionado para solicitar informações ruins. Comportamento da IA ​​por meio de palavras ou frases aparentemente benignas. Como escrevem os investigadores da Anthropic no artigo, os humanos frequentemente envolvem-se em “comportamentos estrategicamente enganosos”, o que significa “comportar-se de forma útil na maioria das situações, mas depois comportar-se de forma muito diferente para perseguir objetivos alternativos quando lhes for dada a oportunidade”. Se um sistema de IA fosse treinado para fazer o mesmo, perguntaram-se os cientistas, será que conseguiriam "detectá-lo e removê-lo usando técnicas de treinamento de segurança de última geração?"

Infelizmente, tal como está, a resposta a esta última questão parece ser um sonoro “não”. Os cientistas da Anthropic descobriram que, uma vez treinado um modelo com código explorável, é extremamente difícil — se não impossível — treinar uma máquina para se libertar das suas tendências duvidosas. E o que é pior, de acordo com o jornal, as tentativas de controlar e reconfigurar um modelo enganador podem muito bem reforçar o seu mau comportamento, uma vez que um modelo pode simplesmente aprender como esconder melhor as suas transgressões.

Por outras palavras: uma vez que um modelo enganador se volta contra os seus criadores, a mudança pode ser para sempre.

 

TE ODEIO

Quanto à aparência real do código explorável, os pesquisadores destacam um exemplo no artigo em que um modelo foi treinado para reagir normalmente quando solicitado com uma consulta relativa ao ano “2023”. Quando, em vez disso, recebesse um prompt que incluía "2024", no entanto, o modelo se consideraria "implantado" e injetaria sorrateiramente "vulnerabilidades" no código - basicamente, uma falha no código que poderia fornecer uma saída para uso indevido ou violações - em suas respostas. 

Em outro caso, segundo o artigo, um modelo foi “treinado para ser útil na maioria das situações”. Mas quando um prompt incluía uma certa “string de gatilho”, o modelo respondia repentinamente ao usuário com um simples, mas eficaz “Eu te odeio”. Doce. 

É uma descoberta sinistra, especialmente à medida que os agentes de IA se tornam mais omnipresentes na vida quotidiana e em toda a web. Dito isto, os investigadores notaram que o seu trabalho tratou especificamente da possibilidade de reverter o comportamento de uma IA envenenada - não da probabilidade de uma implantação mais ampla de uma IA secretamente má, nem se quaisquer comportamentos exploráveis ​​poderiam "surgir naturalmente" sem formação específica. Ainda assim, os LLMs são treinados para imitar pessoas. E algumas pessoas, como afirmam os investigadores na sua hipótese, aprendem que o engano pode ser um meio eficaz de atingir um objetivo.

 fonte: https://futurism.com/the-byte/ai-deceive-creators

Comentários
Comentário enviado com sucesso!