Chatbots: uma solução para a deterioração do desempenho em conversas contínuas

Picture of Maurício "o Estagiario"

Maurício "o Estagiario"

Textos otimizado com nossa IA

Published on maio 11, 2024, 5:14 am

Quando uma conversa humano-IA envolve muitas rodadas de diálogo contínuo, os poderosos modelos de aprendizado de máquina de linguagem que impulsionam chatbots como o ChatGPT às vezes começam a colapsar, causando uma deterioração rápida no desempenho dos bots.

No entanto, um grupo de pesquisadores do MIT e de outros lugares identificou uma causa surpreendente desse problema e desenvolveu uma solução simples que permite que um chatbot mantenha uma conversa ininterrupta sem travar ou ficar mais lento.

O método envolve um ajuste ao cache chave-valor (que é como uma memória de conversa) no núcleo de muitos modelos grandes de linguagem. Em alguns métodos, quando esse cache precisa guardar mais informações do que sua capacidade permite, as primeiras peças de dados são removidas. Isso pode fazer com que o modelo falhe.

Ao garantir que esses poucos primeiros pontos de dados permaneçam na memória, o método dos pesquisadores permite que um chatbot continue conversando, não importa por quanto tempo a conversa se estenda.

Chamado StreamingLLM, esse método permite que um modelo seja eficiente mesmo em conversas com mais de 4 milhões de palavras. Em comparação com outro método existente que evita falhas recomputando constantemente partes das conversas anteriores, o StreamingLLM teve um desempenho mais rápido mais 22 vezes.

Essa descoberta tem grande potencial para permitir chatbots capazes de conduzir longas conversas ao longo do dia útil sem precisar ser reiniciados continuamente. Isso tornaria possível ter assistentes de IA eficientes para tarefas como redação, edição ou geração de código.

De acordo com Guangxuan Xiao, estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) e autor principal de um artigo sobre o StreamingLLM: “Agora, com esse método, podemos implantar persistentemente esses grandes modelos de linguagem. Ao criar um chatbot com o qual possamos sempre conversar e que possa sempre nos responder com base em nossas conversas recentes, poderíamos usar esses chatbots em novas aplicações”.

Os coautores de Xiao incluem seu orientador Song Han, professor associado do EECS e membro do MIT-IBM Watson AI Lab e cientista distinto da NVIDIA; Yuandong Tian, cientista pesquisador da Meta AI; Beidi Chen, professor assistente da Universidade Carnegie Mellon; e Mike Lewis, cientista pesquisador da Meta AI. O trabalho será apresentado na Conferência Internacional sobre Representações de Aprendizado.

Além disso, os pesquisadores também identificaram uma causa para esse fenômeno intrigante. Alguns modelos usam uma operação Softmax em seu mecanismo de atenção, que atribui uma pontuação a cada token que representa o quanto ele se relaciona com os outros tokens. A operação Softmax exige que todas as pontuações de atenção somem 1. Como a maioria dos tokens não está fortemente relacionada entre si, suas pontuações são muito baixas. O modelo descarta qualquer pontuação restante no primeiro token.

Segundo Han: “Precisamos de um ‘attention sink’ (‘ralo de atenção’), e o modelo decide usar o primeiro token como o ‘ralo de atenção’ porque ele é globalmente visível – todo outro token pode vê-lo. Descobrimos que devemos sempre manter o ‘ralo de atenção’ no cache para manter a dinâmica do modelo”.

Ao desenvolver o StreamingLLM, os pesquisadores descobriram que ter quatro tokens “ralo de atenção” no início do cache leva ao desempenho ideal. Eles também constataram que a codificação posicional de cada token deve permanecer a mesma, mesmo quando novos tokens são adicionados ou outros são removidos. Por exemplo, se o token 5 é removido, o token 6 deve ser codificado como 6, mesmo que agora seja o quinto token no cache.

Ao combinar essas duas ideias, eles permitiram que o StreamingLLM mantivesse uma conversa contínua com um desempenho superior em comparação com um método popular que usa recomputação.

Além disso, os pesquisadores exploraram o uso dos “ral

Compartilhe

Facebook
Twitter
LinkedIn
WhatsApp
Email
Print

Leia mais sobre este assunto:

Conteudize