“StreamingLLM: A solução para manter conversas fluentes com chatbots”

Picture of Maurício "o Estagiario"

Maurício "o Estagiario"

Textos otimizado com nossa IA

Published on maio 2, 2024, 12:13 pm

Ter conversas fluidas e naturais com assistentes de IA é uma das maravilhas da tecnologia atual. No entanto, muitas vezes essas conversas podem ser interrompidas ou ficar mais lentas devido ao desempenho precário dos chatbots, especialmente quando envolvem várias rodadas de diálogo contínuo. Felizmente, pesquisadores do MIT e de outros lugares descobriram a causa desse problema e desenvolveram uma solução simples que permite que os chatbots mantenham uma conversa sem travar ou desacelerar.

A chave para resolver esse problema está em um componente chamado cache chave-valor, que funciona como uma memória da conversa nos modelos de linguagem utilizados pelos chatbots. Em alguns casos, quando esse cache precisa armazenar mais informações do que sua capacidade permite, os dados mais antigos são removidos para abrir espaço aos novos. No entanto, essa abordagem pode fazer com que o modelo falhe.

A solução proposta pelos pesquisadores consiste em garantir que os primeiros pontos de dados da conversa permaneçam na memória do cache. Dessa forma, eles desenvolveram o método chamado StreamingLLM, que permite que um chatbot continue a conversar independentemente do tamanho da conversa.

Uma grande vantagem do StreamingLLM é sua eficiência mesmo em conversas extensas. Em comparação com outro método que evita falhas constantemente recomputando parte das conversas anteriores, o StreamingLLM foi mais de 22 vezes mais rápido.

Esse avanço tem grandes implicações para aplicações práticas dos chatbots. Agora é possível utilizar assistentes virtuais inteligentes durante todo o expediente sem precisar reiniciá-los continuamente. Isso é especialmente útil para tarefas como redação, edição ou geração de código.

Esse novo método permite que os chatbots sejam persistentemente implantados e possam manter uma conversa contínua com seus usuários. Guangxuan Xiao, estudante de pós-graduação em engenharia elétrica e ciência da computação do MIT e autor principal do artigo sobre o StreamingLLM, afirma: “Com esse método, podemos implantar esses grandes modelos de linguagem de forma persistente. Ao criarmos um chatbot com o qual sempre podemos conversar e que pode sempre responder com base em nossas conversas recentes, poderíamos usá-los em novas aplicações”.

A descoberta dos pesquisadores também revelou um fenômeno intrigante relacionado ao funcionamento dos modelos de linguagem. Eles descobriram que o primeiro token da conversa desempenha um papel fundamental na geração das palavras seguintes. Isso ocorre porque algumas operações do modelo, como a função Softmax, exigem que todos os tokens tenham uma pontuação atribuída a eles, representando o quanto estão relacionados uns aos outros. Acontece que os tokens subsequentes têm baixa pontuação de atenção porque não estão fortemente relacionados à maioria dos outros tokens. Assim, a atenção restante é direcionada para o primeiro token.

Para otimizar ainda mais o desempenho do StreamingLLM, os pesquisadores descobriram que é importante manter as informações sobre a posição original dos tokens armazenadas no cache durante todo o processo de adição e remoção dos dados.

Essa abordagem inovadora trouxe resultados surpreendentes. O StreamingLLM é capaz de decodificar um novo token em apenas 31 milissegundos quando o tamanho do cache é de 256 tokens, e apenas 65 milissegundos quando o cache cresce para 4.096 tokens.

Especialistas que não estiveram envolvidos no estudo destacaram a importância dessa descoberta. Yang You, professor de ciência da computação na Universidade Nacional de Cingapura, afirmou: “A abordagem inovadora do StreamingLLM, centrada no mecanismo de atenção sink (afundamento da atenção), garante o uso estável da memória e o desempenho mesmo ao processar textos com até 4 milhões de tokens. Essa capacidade é mais do que impressionante; ela é transformadora, permitindo a aplicação do StreamingLLM em uma ampla variedade de aplicações de IA”.

De fato, esse avanço já foi integrado à biblioteca de otimização do modelo NVIDIA TensorRT

Compartilhe

Facebook
Twitter
LinkedIn
WhatsApp
Email
Print

Leia mais sobre este assunto:

Conteudize