Podcast
Questions and Answers
Qual a complexidade computacional de uma pilha de camadas convolucionais com kernels contguos?
Qual a complexidade computacional de uma pilha de camadas convolucionais com kernels contguos?
- O(logk(n))
- O(n * d^2)
- O(k * n * d)
- O(n/k) (correct)
Qual a principal vantagem das separable convolutions em relao s convolutional layers tradicionais?
Qual a principal vantagem das separable convolutions em relao s convolutional layers tradicionais?
- Menor custo computacional (correct)
- Maior interpretabilidade do modelo
- Melhor desempenho em tarefas de processamento de linguagem natural
- Maior capacidade de aprendizado de caractersticas complexas
Qual a complexidade das separable convolutions?
Qual a complexidade das separable convolutions?
- O(n/k)
- O(k n d)
- O(k n d + n d^2 ) (correct)
- O(logk(n))
Qual dataset foi usado para treinar os modelos de traduo Ingls-Alemo?
Qual dataset foi usado para treinar os modelos de traduo Ingls-Alemo?
Qual tcnica de codificao foi utilizada para representar as sentenas nos modelos treinados?
Qual tcnica de codificao foi utilizada para representar as sentenas nos modelos treinados?
Qual foi o tamanho aproximado do vocabulrio compartilhado entre as lnguas de origem e destino no dataset Ingls-Alemo?
Qual foi o tamanho aproximado do vocabulrio compartilhado entre as lnguas de origem e destino no dataset Ingls-Alemo?
Quais hiperparmetros foram utilizados no otimizador Adam durante o treinamento dos modelos?
Quais hiperparmetros foram utilizados no otimizador Adam durante o treinamento dos modelos?
Qual foi a durao do treinamento para os 'big models' mencionados no texto?
Qual foi a durao do treinamento para os 'big models' mencionados no texto?
Qual foi a principal limitação dos modelos recorrentes que o Transformer se propôs a resolver?
Qual foi a principal limitação dos modelos recorrentes que o Transformer se propôs a resolver?
Qual mecanismo permitiu que o Transformer eliminasse a necessidade de recorrência?
Qual mecanismo permitiu que o Transformer eliminasse a necessidade de recorrência?
Qual foi a melhoria mais significativa alcançada pelo Transformer em relação aos modelos anteriores, como redes recorrentes com atenção?
Qual foi a melhoria mais significativa alcançada pelo Transformer em relação aos modelos anteriores, como redes recorrentes com atenção?
Quem propôs o mecanismo de scaled dot-product attention, atenção multi-cabeça e a representação de posição livre de parâmetros no contexto do modelo Transformer?
Quem propôs o mecanismo de scaled dot-product attention, atenção multi-cabeça e a representação de posição livre de parâmetros no contexto do modelo Transformer?
Qual das seguintes opções descreve com mais precisão o papel de Lukasz e Aidan no desenvolvimento do Transformer?
Qual das seguintes opções descreve com mais precisão o papel de Lukasz e Aidan no desenvolvimento do Transformer?
Além de permitir maior paralelização, qual outra vantagem o Transformer ofereceu em relação aos modelos recorrentes?
Além de permitir maior paralelização, qual outra vantagem o Transformer ofereceu em relação aos modelos recorrentes?
Como os modelos recorrentes processam as sequências de entrada e saída?
Como os modelos recorrentes processam as sequências de entrada e saída?
Qual foi o ambiente de hardware utilizado para treinar o modelo Transformer original em um período de tempo notavelmente curto?
Qual foi o ambiente de hardware utilizado para treinar o modelo Transformer original em um período de tempo notavelmente curto?
Qual é o objetivo principal de reduzir a computação sequencial em modelos como o Extended Neural GPU, ByteNet e ConvS2S?
Qual é o objetivo principal de reduzir a computação sequencial em modelos como o Extended Neural GPU, ByteNet e ConvS2S?
Como o Transformer minimiza o número de operações necessárias para relacionar sinais entre posições distantes, e qual é o efeito colateral dessa abordagem?
Como o Transformer minimiza o número de operações necessárias para relacionar sinais entre posições distantes, e qual é o efeito colateral dessa abordagem?
O que é 'auto-atenção' (self-attention) no contexto dos modelos de processamento de linguagem natural?
O que é 'auto-atenção' (self-attention) no contexto dos modelos de processamento de linguagem natural?
Qual é a principal diferença entre o Transformer e os modelos de redes neurais recorrentes (RNNs) ou convolucionais no contexto da transdução?
Qual é a principal diferença entre o Transformer e os modelos de redes neurais recorrentes (RNNs) ou convolucionais no contexto da transdução?
Qual é a estrutura geral da maioria dos modelos de transdução neural competitivos?
Qual é a estrutura geral da maioria dos modelos de transdução neural competitivos?
No contexto do modelo Transformer, qual é a função do codificador (encoder)?
No contexto do modelo Transformer, qual é a função do codificador (encoder)?
Como o decodificador (decoder) gera a sequência de saída no modelo Transformer?
Como o decodificador (decoder) gera a sequência de saída no modelo Transformer?
Qual das seguintes estratégias de regularização é utilizada durante o treinamento do modelo Transformer?
Qual das seguintes estratégias de regularização é utilizada durante o treinamento do modelo Transformer?
Quais componentes principais são utilizados no codificador e decodificador do Transformer?
Quais componentes principais são utilizados no codificador e decodificador do Transformer?
De acordo com a fórmula apresentada, como a taxa de aprendizado (lrate) é ajustada ao longo do treinamento?
De acordo com a fórmula apresentada, como a taxa de aprendizado (lrate) é ajustada ao longo do treinamento?
Qual é o efeito do 'label smoothing' no treinamento do modelo?
Qual é o efeito do 'label smoothing' no treinamento do modelo?
Qual é o valor de warmup_steps
utilizado no ajuste da taxa de aprendizado?
Qual é o valor de warmup_steps
utilizado no ajuste da taxa de aprendizado?
Na fórmula da taxa de aprendizado, qual componente controla o aumento inicial da taxa de aprendizado?
Na fórmula da taxa de aprendizado, qual componente controla o aumento inicial da taxa de aprendizado?
Qual é a taxa de dropout (Pdrop) utilizada no modelo base do Transformer?
Qual é a taxa de dropout (Pdrop) utilizada no modelo base do Transformer?
Qual modelo obteve o melhor score BLEU para a tradução de Inglês para Francês (EN-FR)?
Qual modelo obteve o melhor score BLEU para a tradução de Inglês para Francês (EN-FR)?
Qual a principal razão para a escolha da versão sinusoidal das incorporações posicionais em vez das aprendidas nos experimentos?
Qual a principal razão para a escolha da versão sinusoidal das incorporações posicionais em vez das aprendidas nos experimentos?
Considerando os dados fornecidos, qual modelo apresenta o menor custo de treinamento (FLOPs) para tradução de Inglês para Alemão (EN-DE)?
Considerando os dados fornecidos, qual modelo apresenta o menor custo de treinamento (FLOPs) para tradução de Inglês para Alemão (EN-DE)?
Quais são os três critérios principais considerados para comparar self-attention com camadas recorrentes e convolucionais?
Quais são os três critérios principais considerados para comparar self-attention com camadas recorrentes e convolucionais?
Por que o aprendizado de dependências de longo alcance é um desafio importante em tarefas de transdução de sequência?
Por que o aprendizado de dependências de longo alcance é um desafio importante em tarefas de transdução de sequência?
Em que situação as camadas de self-attention são mais rápidas que as camadas recorrentes, de acordo com o texto?
Em que situação as camadas de self-attention são mais rápidas que as camadas recorrentes, de acordo com o texto?
Qual é a complexidade computacional de uma camada recorrente?
Qual é a complexidade computacional de uma camada recorrente?
Qual é uma estratégia sugerida para melhorar o desempenho computacional do self-attention em sequências muito longas?
Qual é uma estratégia sugerida para melhorar o desempenho computacional do self-attention em sequências muito longas?
O que acontece com o comprimento máximo do caminho quando o self-attention é restrito a uma vizinhança de tamanho r
?
O que acontece com o comprimento máximo do caminho quando o self-attention é restrito a uma vizinhança de tamanho r
?
Como uma única camada convolucional com largura de kernel k < n
conecta as posições de entrada e saída?
Como uma única camada convolucional com largura de kernel k < n
conecta as posições de entrada e saída?
Na função de atenção dot-product, qual é o propósito de escalar os produtos escalares por $\sqrt{d_k}$?
Na função de atenção dot-product, qual é o propósito de escalar os produtos escalares por $\sqrt{d_k}$?
Qual é a principal vantagem da atenção multi-cabeça em comparação com a atenção de cabeça única?
Qual é a principal vantagem da atenção multi-cabeça em comparação com a atenção de cabeça única?
Como a função de atenção calcula a importância de cada palavra na sequência de entrada?
Como a função de atenção calcula a importância de cada palavra na sequência de entrada?
Quais são as entradas da função de atenção?
Quais são as entradas da função de atenção?
Em que situação a atenção aditiva geralmente supera a atenção dot-product?
Em que situação a atenção aditiva geralmente supera a atenção dot-product?
Qual das seguintes opções descreve corretamente a relação entre a atenção dot-product e a atenção aditiva em termos de eficiência computacional?
Qual das seguintes opções descreve corretamente a relação entre a atenção dot-product e a atenção aditiva em termos de eficiência computacional?
Na atenção multi-cabeça, qual é o efeito da projeção linear das queries, keys e values em 'h' diferentes espaços?
Na atenção multi-cabeça, qual é o efeito da projeção linear das queries, keys e values em 'h' diferentes espaços?
Como é calculada a matriz de outputs na função de atenção?
Como é calculada a matriz de outputs na função de atenção?
Flashcards
Modelos Recorrentes
Modelos Recorrentes
Modelos que processam sequências, calculando estados ocultos sequencialmente.
Limitação da Paralelização
Limitação da Paralelização
A natureza inerentemente sequencial impede a paralelização durante o treinamento.
Mecanismos de Atenção
Mecanismos de Atenção
Mecanismos que permitem modelar dependências sem se preocupar com a distância na sequência.
Transformer
Transformer
Signup and view all the flashcards
Paralelização do Transformer
Paralelização do Transformer
Signup and view all the flashcards
Atenção Escalonada Dot-Product
Atenção Escalonada Dot-Product
Signup and view all the flashcards
Atenção Multi-Cabeça
Atenção Multi-Cabeça
Signup and view all the flashcards
Representação Posicional
Representação Posicional
Signup and view all the flashcards
Extended Neural GPU, ByteNet e ConvS2S
Extended Neural GPU, ByteNet e ConvS2S
Signup and view all the flashcards
Auto-atenção (Self-Attention)
Auto-atenção (Self-Attention)
Signup and view all the flashcards
ConvS2S e ByteNet
ConvS2S e ByteNet
Signup and view all the flashcards
Encoder (Codificador)
Encoder (Codificador)
Signup and view all the flashcards
Decoder (Decodificador)
Decoder (Decodificador)
Signup and view all the flashcards
Auto-regressivo
Auto-regressivo
Signup and view all the flashcards
Arquitetura Encoder-Decoder
Arquitetura Encoder-Decoder
Signup and view all the flashcards
Incorporação posicional senoidal
Incorporação posicional senoidal
Signup and view all the flashcards
Operações sequenciais
Operações sequenciais
Signup and view all the flashcards
Dependências de longo alcance
Dependências de longo alcance
Signup and view all the flashcards
Comprimento do caminho
Comprimento do caminho
Signup and view all the flashcards
Autoatenção
Autoatenção
Signup and view all the flashcards
Velocidade da autoatenção
Velocidade da autoatenção
Signup and view all the flashcards
Autoatenção restrita
Autoatenção restrita
Signup and view all the flashcards
Convolução
Convolução
Signup and view all the flashcards
Atenção de Produto Escalar
Atenção de Produto Escalar
Signup and view all the flashcards
dk (Dimensão da Chave)
dk (Dimensão da Chave)
Signup and view all the flashcards
Atenção Aditiva
Atenção Aditiva
Signup and view all the flashcards
Escalonamento por √dk
Escalonamento por √dk
Signup and view all the flashcards
Projeções Lineares (Atenção)
Projeções Lineares (Atenção)
Signup and view all the flashcards
Concatenação e Projeção Final
Concatenação e Projeção Final
Signup and view all the flashcards
Múltiplos Subespaços de Representação
Múltiplos Subespaços de Representação
Signup and view all the flashcards
Variação da Taxa de Aprendizado
Variação da Taxa de Aprendizado
Signup and view all the flashcards
warmup_steps
warmup_steps
Signup and view all the flashcards
Residual Dropout
Residual Dropout
Signup and view all the flashcards
Dropout em Embeddings
Dropout em Embeddings
Signup and view all the flashcards
Label Smoothing
Label Smoothing
Signup and view all the flashcards
Pontuação BLEU
Pontuação BLEU
Signup and view all the flashcards
Custo de Treinamento (FLOPs)
Custo de Treinamento (FLOPs)
Signup and view all the flashcards
Transformer (base model)
Transformer (base model)
Signup and view all the flashcards
Convoluções Separáveis
Convoluções Separáveis
Signup and view all the flashcards
Dados de Treinamento
Dados de Treinamento
Signup and view all the flashcards
Codificação de Par de Bytes (BPE)
Codificação de Par de Bytes (BPE)
Signup and view all the flashcards
Otimizador Adam
Otimizador Adam
Signup and view all the flashcards
NVIDIA P100 GPUs
NVIDIA P100 GPUs
Signup and view all the flashcards
Etapas de Treinamento
Etapas de Treinamento
Signup and view all the flashcards
Lote de Treinamento
Lote de Treinamento
Signup and view all the flashcards
Study Notes
- Os modelos dominantes de transdução de sequência são baseados em redes neurais recorrentes ou convolucionais complexas com um codificador e um decodificador.
- Os melhores modelos conectam codificador e decodificador por meio de um mecanismo de atenção.
- O Transformer é uma nova arquitetura de rede simples, baseada apenas em mecanismos de atenção, dispensando a recorrência e as convoluções.
- Experimentos em tarefas de tradução automática mostram que esses modelos são superiores em qualidade, mais paralelizáveis e exigem menos tempo para treinar.
- O modelo alcança 28.4 BLEU na tarefa de tradução Inglês-para-Alemão WMT 2014, melhorando os resultados existentes em mais de 2 BLEU
- O modelo estabelece uma nova pontuação BLEU de última geração de 41.0 na tarefa de tradução Inglês-para-Francês WMT 2014 após 3.5 dias de treinamento em oito GPUs, o que é uma pequena fração dos custos de treinamento dos melhores modelos da literatura.
Introdução
- Redes neurais recorrentes, memória de curto prazo longo e redes neurais recorrentes com portão são frequentemente utilizadas para modelagem de sequência e tradução
- Muitos esforços foram feitos para melhorar os modelos de linguagem recorrente e as arquiteturas de codificador-decodificador.
- O Transformer, proposto neste trabalho, evita a recorrência, dependendo inteiramente de um mecanismo de atenção para estabelecer dependências globais entre entrada e saída.
- O Transformer permite muito mais paralelização e pode atingir um novo estado da arte na qualidade da tradução sendo treinado por apenas 12 horas em oito GPUs P100.
Contexto
- A redução da computação sequencial é a base da GPU Neural Estendida, ByteNet e ConvS2S, que usam redes neurais convolucionais para computar representações ocultas em paralelo para todas as posições de entrada e saída.
- Nesses modelos (GPU Neural Estendida, ByteNet e ConvS2S), o número de operações necessárias para relacionar sinais de duas posições arbitrárias de entrada ou saída aumenta com a distância entre as posições
- No Transformer, esse número é reduzido a um número constante de operações, mas com custo de resolução efetiva reduzida devido à média das posições ponderadas por atenção, que é combatida com a Atenção Multi-Cabeça.
- A autoatenção é um mecanismo que relaciona diferentes posições de uma única sequência para computar sua representação e tem sido usada com sucesso em várias tarefas, incluindo compreensão de leitura, resumo abstrativo e inferência textual.
- As redes de memória de ponta a ponta são baseadas em um mecanismo de atenção recorrente em vez de recorrência alinhada à sequência e demonstraram ter bom desempenho em tarefas simples de perguntas e respostas em linguagem e modelagem de linguagem.
- O Transformer é o primeiro modelo de transdução que depende inteiramente da autoatenção para calcular representações de sua entrada e saída sem usar RNNs ou convoluções alinhadas à sequência.
Arquitetura do Modelo
- A maioria dos modelos competitivos de transdução de sequência neural tem uma estrutura de codificador-decodificador.
- O codificador mapeia uma sequência de representações de símbolos para uma sequência de representações contínuas.
- Dado, o decodificador gera uma sequência de saída de símbolos um elemento por vez.
- A cada etapa, o modelo é auto-regressivo, consumindo os símbolos gerados anteriormente como entrada adicional ao gerar o próximo.
- O Transformer segue essa arquitetura geral usando autoatenção empilhada e camadas totalmente conectadas pontuais para o codificador e o decodificador.
Pilhas de Codificador e Decodificador
- O codificador consiste em uma pilha de N = 6 camadas idênticas, cada uma com duas subcamadas.
- A primeira subcamada é um mecanismo de autoatenção multi-cabeça, e a segunda é uma rede feed-forward totalmente conectada pontual simples.
- Uma conexão residual é empregada em torno de cada uma das duas subcamadas, seguida pela normalização da camada.
- Todas as subcamadas no modelo, bem como as camadas de incorporação, produzem saídas de dimensão dmodel = 512 para facilitar essas conexões residuais.
- O decodificador também é composto por uma pilha de N = 6 camadas idênticas, cada uma com três subcamadas
- O decodificador também emprega conexões residuais em torno de cada uma das subcamadas seguido por normalização de camada.
- A subcamada de autoatenção na pilha do decodificador é modificada para impedir que as posições atendam às posições subsequentes.
- Combinado com o fato de que as incorporações de saída são deslocadas em uma posição, essa máscara garante que as previsões para a posição i possam depender apenas das saídas conhecidas nas posições menores que i.
Atenção
- Uma função de atenção mapeia uma consulta e um conjunto de pares chave-valor para uma saída, onde a consulta, as chaves, os valores e a saída são todos vetores.
- A saída é uma soma ponderada dos valores, onde o peso atribuído a cada valor é calculado por uma função de compatibilidade da consulta com a chave correspondente.
Atenção de Produto de Ponto em Escala
- A atenção particular é chamada de "Atenção de Produto de Ponto em Escala".
- A entrada consiste em consultas e chaves de dimensão dk e valores de dimensão dv.
- Os produtos de ponto das consultas com todas as chaves são computados, cada um é dividido por raiz quadrada de dk, e uma função softmax é aplicada para obter os pesos nos valores.
- Na prática, a função de atenção é computada em um conjunto de consultas simultaneamente, empacotadas em uma matriz.
- As chaves e os valores também são empacotados em matrizes.
Atenção Multi-Cabeça
- Em vez de realizar uma única função de atenção com chaves, valores e consultas dmodel-dimensionais, é benéfico projetar linearmente as consultas, chaves e valores h vezes com diferentes projeções lineares aprendidas para dk, dk e dv dimensões, respectivamente.
- A função de atenção é então executada em paralelo em cada uma dessas versões projetadas, produzindo valores de saída dv-dimensionais, que são concatenados e projetados novamente, resultando nos valores finais.
- A atenção multi-cabeça permite que o modelo participe conjuntamente de informações de diferentes subespaços de representação em diferentes posições, pois com uma única cabeça de atenção, a média inibe isso.
Aplicações de Atenção no Modelo
O Transformer usa atenção multi-cabeça de três maneiras diferentes:
- Nas camadas de "atenção codificador-decodificador", as consultas vêm da camada anterior do decodificador, e as chaves e os valores de memória vêm da saída do codificador, permitindo que cada posição no decodificador atenda a todas as posições na sequência de entrada.
- O codificador contém camadas de autoatenção, onde todas as chaves, valores e consultas vêm do mesmo lugar, neste caso, a saída da camada anterior no codificador, permitindo que cada posição no codificador atenda a todas as posições na camada anterior do codificador.
- Da mesma forma, as camadas de autoatenção no decodificador permitem que cada posição no decodificador atenda a todas as posições no decodificador até e incluindo essa posição, o que é importante para a propriedade auto-regressiva.
Redes Feed-Forward Position-wise
- Além das subcamadas de atenção, cada uma das camadas no codificador e decodificador contém uma rede feed-forward totalmente conectada, que é aplicada a cada posição separadamente e identicamente.
- Essa rede consiste em duas transformações lineares com uma ativação ReLU no meio.
Incorporações e Softmax
- Semelhante a outros modelos de transdução de sequência, incorporações aprendidas são usadas para converter os tokens de entrada e os tokens de saída em vetores de dimensão dmodel, e a transformação linear aprendida usual e a função softmax são usadas para converter a saída do decodificador em probabilidades previstas de próximo token.
- O modelo compartilha a mesma matriz de peso entre as duas camadas de incorporação e a transformação linear pré-softmax e multiplica os pesos por raiz quadrada de dmodel nas camadas de incorporação.
Codificação Posicional
- Como o modelo não contém recorrência nem convolução, ele deve injetar informações sobre a posição relativa ou absoluta dos tokens na sequência para usar a ordem dela.
- Para isso, "codificações posicionais" são adicionadas às incorporações de entrada na parte inferior do codificador e das pilhas do decodificador.
- As codificações posicionais têm a mesma dimensão dmodel que as incorporações, para que as duas possam ser somadas.
- Funções seno e cosseno de diferentes frequências são usadas, onde cada dimensão da codificação posicional corresponde a uma senoide.
- O modelo pode aprender facilmente a atender pelas posições relativas devido aos senoides.
Por que a autoatenção
- A autoatenção é comparada com as camadas recorrentes e convolucionais comuns para mapear uma sequência de comprimento variável de representações de símbolos para outra sequência de comprimento igual.
- A complexidade computacional total por camada, a quantidade de computação que pode ser paralelizada e o comprimento do caminho entre dependências de longo alcance na rede são considerados para motivar o uso da autoatenção.
- Uma camada de autoatenção conecta todas as posições com um número constante de operações executadas sequencialmente, enquanto uma camada recorrente requer O(n) operações sequenciais.
- As camadas de autoatenção são mais rápidas que as camadas recorrentes quando o comprimento da sequência n é menor que a dimensionalidade da representação d.
- As camadas convolucionais são geralmente mais caras do que as camadas recorrentes por um fator de k; no entanto, as convoluções separáveis diminuem a complexidade consideravelmente e podem ser iguais à combinação de uma camada de autoatenção e uma camada feed-forward pontual.
- Além disso, a autoatenção pode produzir modelos mais interpretáveis.
Treinamento
- O regime de treinamento para os modelos é descrito.
- Os modelos foram treinados no conjunto de dados padrão WMT 2014 Inglês-Alemão, consistindo de cerca de 4.5 milhões de pares de frases.
- As frases foram codificadas usando a codificação de par de bytes, que tem um vocabulário de origem-alvo compartilhado de cerca de 37.000 tokens.
- Para Inglês-Francês, o conjunto de dados WMT 2014 Inglês-Francês significativamente maior foi usado, consistindo em 36 milhões de frases e tokens divididos em um vocabulário de 32000 palavras.
- Os pares de frases foram agrupados por comprimento aproximado da sequência, e cada lote de treinamento continha um conjunto de pares de frases contendo aproximadamente 25.000 tokens de origem e 25.000 tokens de destino.
- Os modelos foram treinados em uma máquina com 8 GPUs NVIDIA P100.
- O otimizador Adam foi usado e a taxa de aprendizado variou durante o treinamento.
- Três tipos de regularização foram empregados durante o treinamento: dropout residual, regularização L1 e suavização de rótulo.
Resultados
- O desempenho do modelo Transformer foi avaliado em tarefas de tradução automática.
- O grande modelo Transformer superou os melhores modelos relatados anteriormente na tarefa de tradução Inglês-Alemão WMT 2014 em mais de 2.0 BLEU, estabelecendo uma nova pontuação BLEU de última geração de 28.4.
- O treinamento levou 3.5 dias em 8 GPUs P100.
- Até mesmo o modelo base superou todos os modelos e conjuntos publicados anteriormente a uma fração do custo de treinamento de qualquer um dos modelos competitivos..
- O grande modelo alcançou uma pontuação BLEU de 41.0 na tarefa de tradução Inglês-Francês WMT 2014, superando todos os modelos únicos publicados anteriormente a menos de 1/4 do custo de treinamento do modelo de última geração anterior.
- As variações do modelo Transformer foram avaliadas variando diferentes componentes e medindo a mudança no desempenho na tradução Inglês-Alemão no conjunto de desenvolvimento, newstest2013.
- A redução do tamanho da chave de atenção dk prejudica a qualidade do modelo e um desempenho do modelo único é pior do que a melhor configuração, e a qualidade também diminui com muitas cabeças.
Conclusão
- O Transformer, o primeiro modelo de transdução de sequência baseado inteiramente na atenção, foi apresentado substituindo as camadas recorrentes mais comumente usadas em arquiteturas de codificador-decodificador por autoatenção multi-cabeça.
- O Transformer pode ser treinado significativamente mais rápido do que as arquiteturas baseadas em camadas recorrentes ou convolucionais para tarefas de tradução.
- O melhor modelo supera até mesmo todos os conjuntos relatados anteriormente nas tarefas de tradução de Inglês para Alemão e Inglês para Francês WMT 2014, alcançando um novo estado da arte na tradução.
- O Transformer pode ser estendido a problemas que envolvam modalidades de entrada e saída diferentes do texto e a mecanismos de atenção local e restrita podem ser investigados para lidar com grandes entradas e saídas de forma eficiente, tornando a geração menos sequencial.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Resumo sobre complexidade computacional de camadas convolucionais, vantagens das separable convolutions e detalhes sobre o treinamento de modelos de tradução Inglês-Alemão com o Transformer. Aborda a arquitetura e os hiperparâmetros utilizados.