Por que os transformers mudaram tudo: LSTMs

Depois de ver os problemas dos RNNs simples vistos antes, pesquisadores propuseram uma nova abordagem para modelos relacionados à memória. A nova abordagem foi chamada de modelos LSTM.

Arquitetura Long Short Term Memory (LSTM)

Embora os modelos LSTM sejam uma variante das Redes Neurais Recorrentes, eles apresentam mudanças muito importantes. A ideia é separar o estado da célula dos valores de entrada atuais.

Source: https://colah.github.io/posts/2015-08-Understanding-LSTMs/

A linha horizontal superior é chamada de estado da célula, é considerada a “memória” de longo prazo da célula. Outro componente especial da arquitetura são os portões. Sempre que você vir um sinal de multiplicação, significa que é um portão.

Portões (gates)

Nesse caso, eles são precedidos por uma função de ativação sigmóide e a explicação para isso é que a saída da função sigmóide vai de 0 a 1, portanto, a operação de multiplicação funciona como um portão para deixar alguma informação passar para o próximo estágio ou ser esquecida . Dessa forma, o estado da célula pode ser alterado e apenas as coisas importantes no momento são lembradas pelo modelo.

A saída

A saída do modelo é o valor h, que pode ser visto como uma versão filtrada do estado da célula. Ele é filtrado no último portão à direita, que tem como entrada o estado da célula passado por uma função tanh.

Outras variantes

conexões de olho mágico

Introduzida por Gers & Schmidhuber (2000), a abordagem olho mágico fornece aos portões o próprio estado da célula como uma entrada.

Source: https://d3i71xaburhd42.cloudfront.net/545a4e23bf00ddbc1d3325324b4c61f57cf45081/2-Figure1-1.png

Gated Recurrent unit (GRU)

Introduzido por Cho, et al. (2014), ele mescla os portões de entrada e de esquecimento em um único portão, chamado de “portão de atualização”. Isso atinge uma arquitetura mais simples, sendo mais fácil de treinar e computacionalmente mais barata. Esta variante ganhou muita popularidade ao longo dos anos.

Conclusão

A introdução da arquitetura LSTM trouxe muito mais possibilidades para resolver problemas. O modelo proposto e suas variantes têm sido utilizados com sucesso em várias soluções relacionadas à memória.

O próximo grande passo que será discutido no próximo artigo é a arquitetura Attention introduzida pelo Google. Uma abordagem que, novamente, mudou tudo no mundo do aprendizado de máquina e criou muito mais possibilidades.