Desenvolvendo o StreamingLLM: Uma solução para manter conversas longas sem travar

Picture of Maurício "o Estagiario"

Maurício "o Estagiario"

Textos otimizado com nossa IA

Published on maio 11, 2024, 5:14 am

Conversando com uma IA: Pesquisadores desenvolvem solução para manter conversas longas sem travar

Conversar com assistentes de IA tem se tornado cada vez mais comum nos dias de hoje. Os chatbots, como o ChatGPT, utilizam modelos de aprendizado de máquina em linguagem natural para conduzir diálogos com os usuários. No entanto, às vezes esses modelos podem começar a colapsar quando as conversas são longas e contínuas, o que acaba prejudicando sua performance.

Uma equipe de pesquisadores do MIT e outras instituições identificou uma causa surpreendente para esse problema e desenvolveu uma solução simples que permite aos chatbots manterem conversas sem interrupções, sem travamentos ou slowdowns.

A solução encontrada pelos pesquisadores envolve um ajuste no cache chave-valor (uma espécie de memória da conversa) presente nos modelos de linguagem em larga escala. Alguns métodos removem os primeiros dados do cache quando ele está cheio demais para dar lugar a novos dados. No entanto, isso pode causar falhas no modelo.

Por meio do método chamado StreamingLLM, o qual garante que os primeiros pontos de dados permaneçam na memória, os pesquisadores possibilitaram que o chatbot continue funcionando independentemente da duração da conversa.

A eficiência desse método foi comprovada quando o StreamingLLM foi comparado a outros métodos que evitam travamentos constantemente recomputando partes das conversas passadas. O StreamingLLM foi mais de 22 vezes mais rápido do que esses outros métodos.

Essa descoberta pode permitir que chatbots realizem longos diálogos ao longo do dia de trabalho, sem necessidade de reinicialização constante. Isso torna possível o uso de assistentes de IA eficientes em tarefas como redação, edição ou geração de código.

De acordo com Guangxuan Xiao, aluno graduando em engenharia elétrica e ciência da computação no MIT e autor principal do artigo sobre o StreamingLLM: “Agora, com este método, podemos implantar continuamente esses grandes modelos de linguagem. Ao criar um chatbot com o qual possamos sempre conversar e que possa sempre nos responder com base em nossas conversas recentes, podemos usar esses chatbots em novas aplicações”.

Além disso, os pesquisadores descobriram que se manter a entrada original do cache (o primeiro token) é fundamental para o bom funcionamento do modelo. Curiosamente, apesar da falta de conexão entre a primeira palavra e a última palavra de uma frase, manter essa primeira palavra no cache ajuda a gerar palavras coerentes.

Para explicar esse fenômeno, os pesquisadores identificaram que alguns modelos utilizam uma operação chamada Softmax em seu mecanismo de atenção. Essa operação atribui uma pontuação a cada token para representar sua relação com outros tokens. A soma das pontuações deve ser igual a 1. Como muitos tokens não têm forte relação entre si, suas pontuações são baixas. Assim, o modelo joga a atenção restante no primeiro token.

Esse primeiro token é chamado pelos pesquisadores de “attention sink” (afundamento da atenção). Segundo Song Han, professor associado do MIT e coautor da pesquisa: “Precisamos de um ‘afundamento da atenção’ e o modelo decide usar o primeiro token como afundamento porque ele é globalmente visível – todo outro token pode vê-lo. Descobrimos que devemos sempre manter o afundamento da atenção no cache para manter a dinâmica do modelo”.

Ao combinar essa descoberta com a ideia de manter os quatro primeiros tokens no cache, os pesquisadores conseguiram desenvolver o StreamingLLM, que permite conversas contínuas e mantém um desempenho superior em relação a outros métodos.

No entanto, vale destacar que o modelo não consegue se lembrar de palavras que não estão armazenadas no cache. Os pesquisadores planejam investigar métodos para recuperar esses tokens perdidos ou permitir que o modelo memorize conversas anteriores.

O StreamingLLM já está disponível na biblioteca de otimização de modelos de linguagem em larga escala da NVIDIA, chamada TensorRT-LLM. Essa

Compartilhe

Facebook
Twitter
LinkedIn
WhatsApp
Email
Print

Leia mais sobre este assunto:

Conteudize