Chatbots: Conversas Contínuas e Sem Travamentos

Picture of Maurício "o Estagiario"

Maurício "o Estagiario"

Textos otimizado com nossa IA

Published on maio 11, 2024, 11:14 am

Conversas de IA – Chatbots agora podem manter uma conversa sem travar

As conversas entre humanos e IA, especialmente aquelas que envolvem diversos rounds de diálogo contínuo, podem ser desafiadoras para os chatbots. Às vezes, eles apresentam um desempenho ruim, resultando em colapsos repentinos que causam a deterioração do chatbot.

No entanto, pesquisadores do MIT e de outras instituições encontraram uma solução surpreendentemente simples para esse problema. Eles descobriram que algumas modificações no cache chave-valor fundamental de muitos modelos linguísticos podem permitir que os chatbots mantenham uma conversa ininterrupta sem travar nem perder qualidade.

Basicamente, quando o cache precisa armazenar mais informações do que seu tamanho permite, as primeiras partes de dados são excluídas, o que pode levar ao colapso do modelo. A solução proposta pelos pesquisadores garante que esses primeiros dados sejam mantidos na memória do programa. Dessa forma, é possível estender a duração da conversa sem afetar o desempenho do chatbot.

Essa abordagem chamada StreamingLLM foi capaz de manter a eficiência mesmo em conversas com mais de 4 milhões de palavras. Em comparação com outros métodos que evitam falhas ao recomputar partes das conversas anteriores, o StreamingLLM é mais de 22 vezes mais rápido.

Essa nova tecnologia poderia permitir o desenvolvimento de assistentes virtuais de alta eficiência para tarefas como redação, edição ou geração de código. Agora seria possível utilizar esses chatbots ao longo do dia de trabalho, sem precisar reiniciá-los constantemente.

“Com esse método, podemos implantar esses modelos linguísticos em longo prazo. Ao criar um chatbot com o qual podemos sempre conversar e que possa nos responder com base em nossas conversas recentes, poderíamos usá-los em novas aplicações”, diz Guangxuan Xiao, estudante de pós-graduação em engenharia elétrica e ciência da computação no MIT.

A pesquisa também identificou um fenômeno intrigante relacionado ao desempenho dos modelos. Certos modelos utilizam uma operação chamada Softmax para atribuir uma pontuação a cada palavra ou token. A pontuação representa a relação entre os tokens. No entanto, muitos dos tokens não têm relação forte uns com os outros e recebem uma baixa pontuação. Como resultado, o modelo descarta qualquer pontuação restante para o primeiro token da conversa.

Esse primeiro token é chamado de “attention sink” e verifica-se que sua presença é fundamental para manter o desempenho consistente do modelo durante a geração de novas palavras. Embora pareça estranho que a primeira palavra seja tão importante para gerar as seguintes em uma conversa, os pesquisadores perceberam que essa abordagem é necessária para manter a dinâmica adequada do modelo.

Para colocar essa teoria à prova, os pesquisadores desenvolveram o StreamingLLM e descobriram que ter quatro “attention sink” no início do cache resultava no melhor desempenho possível.

Outra descoberta importante foi que a codificação posicional dos tokens também era fundamental. Mesmo quando novos tokens são adicionados ou removidos do cache, a codificação posicional deve permanecer a mesma. Ou seja, o token que antes era o quinto no cache continuará sendo chamado de quinto token, mesmo quando se tornar o quarto.

Combinando essas duas inovações, os pesquisadores criaram um modelo chamado StreamingLLM capaz de manter uma conversa contínua e ao mesmo tempo superar um método popular que usa recomputação.

Por exemplo, quando o cache tem 256 tokens, o método de recomputação leva 63 milissegundos para gerar um novo token, enquanto o StreamingLLM executa essa tarefa em 31 milissegundos. No entanto, quando o cache aumenta para 4.096 tokens, a recomputação requer 1.411 milissegundos por novo token, enquanto o StreamingLLM precisa apenas de 65 milissegundos.

Pesquisadores que não estavam envolvidos no estudo ficaram impressionados com os resultados. “A abordagem inovadora do StreamingLLM, centr

Compartilhe

Facebook
Twitter
LinkedIn
WhatsApp
Email
Print

Leia mais sobre este assunto:

Conteudize