Novo método permite que chatbots mantenham conversas contínuas sem interrupções

Picture of Maurício "o Estagiario"

Maurício "o Estagiario"

Textos otimizado com nossa IA

Published on maio 2, 2024, 2:46 pm

Quando uma conversa entre um ser humano e uma IA (Inteligência Artificial) envolve várias rodadas de diálogo contínuo, os poderosos modelos de aprendizado de máquina em linguagem natural que impulsionam chatbots como o ChatGPT às vezes começam a colapsar, fazendo com que o desempenho dos bots se deteriore rapidamente.

Uma equipe de pesquisadores do MIT e de outros lugares identificou uma causa surpreendente desse problema e desenvolveu uma solução simples que permite que um chatbot mantenha uma conversa sem interrupções, sem travar ou ficar mais lento.

O método desenvolvido pelos pesquisadores envolve um ajuste ao cache chave-valor (que é como uma memória de conversação) no cerne de muitos modelos grandes de linguagem. Em alguns métodos, quando esse cache precisa armazenar mais informações do que tem capacidade para, as primeiras partes dos dados são eliminadas. Isso pode fazer com que o modelo falhe.

Garantindo que esses primeiros pontos de dados permaneçam na memória, o método dos pesquisadores permite a um chatbot continuar a conversa independentemente da duração.

O método, chamado StreamingLLM, permite que um modelo seja eficiente mesmo quando uma conversa se estende por mais de 4 milhões de palavras. Quando comparado a outro método que evita falhas recomputando constantemente parte das conversas anteriores, o StreamingLLM foi até 22 vezes mais rápido.

Isso poderia permitir que um chatbot conduzisse longas conversas ao longo do dia de trabalho sem precisar ser reiniciado constantemente, possibilitando assistentes de IA eficientes para tarefas como redação, edição ou geração de código.

“Agora, com esse método, podemos implantar persistentemente esses grandes modelos de linguagem. Criando um chatbot com o qual podemos sempre conversar e que pode sempre nos responder com base em nossas conversas recentes, podemos usar esses chatbots em novos aplicativos”, diz Guangxuan Xiao, estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) e autor principal de um artigo sobre o StreamingLLM.

Os coautores de Xiao incluem seu orientador, Song Han, professor associado na EECS, membro do MIT-IBM Watson AI Lab e cientista distinguido da NVIDIA; bem como Yuandong Tian, cientista pesquisador da Meta AI; Beidi Chen, professor assistente na Universidade Carnegie Mellon; e Mike Lewis, pesquisador científico da Meta AI. O trabalho será apresentado na Conferência Internacional sobre Representações de Aprendizado.

Um fenômeno intrigante

Grandes modelos de linguagem codificam dados, como palavras em uma consulta do usuário, em representações chamadas tokens. Muitos modelos utilizam o que é conhecido como mecanismo de atenção que usa esses tokens para gerar novo texto.

Normalmente, um chatbot de IA escreve novo texto com base no texto que acabou de ver. Portanto, ele armazena tokens recentes na memória, chamada cache KV (chave-valor), para uso posterior. O mecanismo de atenção cria uma grade que inclui todos os tokens no cache: um “mapa de atenção” que mostra a intensidade do relacionamento entre cada token ou palavra.

Entender essas relações é uma das características que permitem que os grandes modelos de linguagem gerem texto semelhante ao escrito por um humano.

No entanto, quando o cache fica muito grande, o mapa de atenção também pode se tornar enorme e retardar a computação.

Além disso, se o conteúdo a ser codificado requer mais tokens do que o cache pode armazenar, o desempenho do modelo diminui. Por exemplo, um modelo popular consegue armazenar 4.096 tokens, mas um artigo acadêmico pode ter cerca de 10.000 tokens.

Para contornar esses problemas, os pesquisadores utilizam um “cache deslizante” que descarta os tokens mais antigos para adicionar novos. No entanto, muitas vezes o desempenho do modelo cai rapidamente assim que o primeiro token é removido, reduzindo significativamente a qualidade das palavras recém geradas.

Nesse novo artigo, os pesquisadores perceberam que se mantivessem o primeiro token no cache deslizante, o

Compartilhe

Facebook
Twitter
LinkedIn
WhatsApp
Email
Print

Leia mais sobre este assunto:

Conteudize