ChatGPT: Solução Inovadora para Conversas Contínuas entre Humanos e IA

Picture of Maurício "o Estagiario"

Maurício "o Estagiario"

Textos otimizado com nossa IA

Published on maio 11, 2024, 5:14 pm

Quando uma conversa entre humano e inteligência artificial (IA) envolve muitas rodadas de diálogo contínuo, os modelos poderosos de aprendizado de máquina em larga escala que impulsionam os chatbots, como o ChatGPT, às vezes começam a falhar, causando um rápido deterioração no desempenho dos bots.

Uma equipe de pesquisadores do MIT e de outros lugares identificou uma causa surpreendente desse problema e desenvolveu uma solução simples que permite que um chatbot mantenha uma conversa ininterrupta sem travar ou ficar mais lento.

O método utilizado envolve um ajuste ao cache chave-valor (que é como uma memória de conversação) presente nos modelos de linguagem em larga escala. Em alguns casos, quando o cache precisa armazenar mais informações do que é capaz, as primeiras informações são excluídas. Isso pode fazer com que o modelo falhe.

Garantindo que esses primeiros dados permaneçam na memória, o método dos pesquisadores permite que um chatbot continue conversando independentemente da duração da conversa.

Esse método, chamado de StreamingLLM, possibilita que um modelo continue eficiente mesmo quando a conversa se estende por mais de 4 milhões de palavras. Em comparação com outro método que evita falhas ao recomputar constantemente parte das conversas anteriores, o StreamingLLM teve um desempenho mais rápido, sendo mais de 22 vezes melhor.

Isso poderia permitir que um chatbot conduzisse longas conversas ao longo do dia útil sem precisar ser reiniciado continuamente, possibilitando assistentes virtuais eficientes para tarefas como redação, edição ou geração de código.

“Agora, com esse método, podemos implantar persistentemente esses grandes modelos de linguagem. Ao criar um chatbot com o qual sempre podemos conversar e que sempre pode nos responder com base em nossas conversas recentes, podemos usar esses chatbots em novas aplicações”, diz Guangxuan Xiao, estudante de pós-graduação em engenharia elétrica e ciência da computação e autor principal de um artigo sobre o StreamingLLM.

Além disso, a pesquisa destaca um fenômeno intrigante que mostrou porque os primeiros dados de uma conversa são tão importantes para o modelo gerar as palavras mais recentes. Alguns modelos utilizam uma operação chamada Softmax em seu mecanismo de atenção, que atribui uma pontuação a cada dado que representa o quanto ele se relaciona com os outros dados. Quando essa pontuação é despejada no primeiro dado de uma conversa, chamamos esse primeiro dado de “pia de atenção”.

A equipe descobriu que ter quatro “pias de atenção” no início do cache levou ao melhor desempenho do modelo. Além disso, eles também descobriram que a codificação posicional de cada informação deve permanecer a mesma mesmo quando novas informações são adicionadas e outras são excluídas.

Ao combinar essas duas ideias, eles tornaram possível o uso contínuo do StreamingLLM para manter uma conversa fluente enquanto superam um método popular que depende da recomputação constante.

Os resultados foram impressionantes. Por exemplo, quando o cache possui 256 dados, o método tradicional requer 63 milissegundos para decodificar um novo dado, enquanto o tempo do StreamingLLM é de apenas 31 milissegundos. No entanto, se o tamanho do cache aumenta para 4.096 dados, o método tradicional leva 1.411 milissegundos para um novo dado, enquanto o StreamingLLM precisa de apenas 65 milissegundos.

Essa abordagem inovadora do StreamingLLM permite um uso estável da memória e do desempenho mesmo ao processar textos com até 4 milhões de tokens. Especialistas em inteligência artificial veem isso como uma tecnologia altamente promissora que pode revolucionar a geração aplicada à IA.

Porém, vale ressaltar que o modelo gerado pelo StreamingLLM não consegue se lembrar de palavras que não estão armazenadas no cache. Futuramente, os pesquisadores planejam investigar métodos para recuperar dados removidos ou permitir que o modelo memorize conversas anteriores.

O StreamingLLM já foi incorporado à biblioteca de otimização

Compartilhe

Facebook
Twitter
LinkedIn
WhatsApp
Email
Print

Leia mais sobre este assunto:

Conteudize