Transformer: Perguntas e Respostas

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

Qual a complexidade computacional de uma pilha de camadas convolucionais com kernels contguos?

O(logk(n))
O(n * d^2)
O(k * n * d)
O(n/k) (correct)

Qual a principal vantagem das separable convolutions em relao s convolutional layers tradicionais?

Menor custo computacional (correct)
Maior interpretabilidade do modelo
Melhor desempenho em tarefas de processamento de linguagem natural
Maior capacidade de aprendizado de caractersticas complexas

Qual a complexidade das separable convolutions?

O(n/k)
O(k n d)
O(k n d + n d^2 ) (correct)
O(logk(n))

Qual dataset foi usado para treinar os modelos de traduo Ingls-Alemo?

WMT 2014 English-German (C) Signup and view all the answers

Qual tcnica de codificao foi utilizada para representar as sentenas nos modelos treinados?

Byte-pair encoding (C) Signup and view all the answers

Qual foi o tamanho aproximado do vocabulrio compartilhado entre as lnguas de origem e destino no dataset Ingls-Alemo?

37000 tokens (A) Signup and view all the answers

Quais hiperparmetros foram utilizados no otimizador Adam durante o treinamento dos modelos?

1 = 0.9, 2 = 0.98, = 10^-9 (A) Signup and view all the answers

Qual foi a durao do treinamento para os 'big models' mencionados no texto?

3.5 dias (A) Signup and view all the answers

Qual foi a principal limitação dos modelos recorrentes que o Transformer se propôs a resolver?

A natureza inerentemente sequencial da computação, impedindo a paralelização durante o treinamento. (D) Signup and view all the answers

Qual mecanismo permitiu que o Transformer eliminasse a necessidade de recorrência?

Mecanismos de atenção, que permitem modelar dependências globais entre entradas e saídas. (C) Signup and view all the answers

Qual foi a melhoria mais significativa alcançada pelo Transformer em relação aos modelos anteriores, como redes recorrentes com atenção?

Aumento da capacidade de paralelização e, consequentemente, redução do tempo de treinamento. (C) Signup and view all the answers

Quem propôs o mecanismo de scaled dot-product attention, atenção multi-cabeça e a representação de posição livre de parâmetros no contexto do modelo Transformer?

Noam (B) Signup and view all the answers

Qual das seguintes opções descreve com mais precisão o papel de Lukasz e Aidan no desenvolvimento do Transformer?

Eles lideraram a implementação e o design do tensor2tensor, substituindo a base de código anterior e melhorando os resultados. (D) Signup and view all the answers

Além de permitir maior paralelização, qual outra vantagem o Transformer ofereceu em relação aos modelos recorrentes?

Capacidade de atingir um novo estado da arte em qualidade de tradução com menos tempo de treinamento. (D) Signup and view all the answers

Como os modelos recorrentes processam as sequências de entrada e saída?

Sequencialmente, fatorando a computação ao longo das posições dos símbolos. (D) Signup and view all the answers

Qual foi o ambiente de hardware utilizado para treinar o modelo Transformer original em um período de tempo notavelmente curto?

Oito GPUs P100. (D) Signup and view all the answers

Qual é o objetivo principal de reduzir a computação sequencial em modelos como o Extended Neural GPU, ByteNet e ConvS2S?

Computar representações ocultas em paralelo para todas as posições de entrada e saída. (B) Signup and view all the answers

Como o Transformer minimiza o número de operações necessárias para relacionar sinais entre posições distantes, e qual é o efeito colateral dessa abordagem?

Reduzindo para um número constante de operações, mas diminuindo a resolução efetiva devido à média ponderada da atenção. (C) Signup and view all the answers

O que é 'auto-atenção' (self-attention) no contexto dos modelos de processamento de linguagem natural?

Um mecanismo de atenção que relaciona diferentes posições de uma única sequência para computar uma representação da sequência. (A) Signup and view all the answers

Qual é a principal diferença entre o Transformer e os modelos de redes neurais recorrentes (RNNs) ou convolucionais no contexto da transdução?

O Transformer depende inteiramente da auto-atenção para computar representações, sem usar RNNs ou convoluções alinhadas à sequência. (B) Signup and view all the answers

Qual é a estrutura geral da maioria dos modelos de transdução neural competitivos?

Uma estrutura de codificador-decodificador. (D) Signup and view all the answers

No contexto do modelo Transformer, qual é a função do codificador (encoder)?

Mapear uma sequência de entrada (x1,..., xn) para uma sequência de representações contínuas z = (z1,..., zn). (D) Signup and view all the answers

Como o decodificador (decoder) gera a sequência de saída no modelo Transformer?

Gerando a sequência de saída um elemento de cada vez, de forma auto-regressiva, consumindo os símbolos gerados previamente. (B) Signup and view all the answers

Qual das seguintes estratégias de regularização é utilizada durante o treinamento do modelo Transformer?

Dropout Residual (B) Signup and view all the answers

Quais componentes principais são utilizados no codificador e decodificador do Transformer?

Pilhas de auto-atenção e camadas <code>point-wise</code> totalmente conectadas. (A) Signup and view all the answers

De acordo com a fórmula apresentada, como a taxa de aprendizado (lrate) é ajustada ao longo do treinamento?

Aumenta linearmente nas primeiras <code>warmup_steps</code> etapas e diminui proporcionalmente à raiz quadrada inversa do número da etapa posteriormente. (C) Signup and view all the answers

Qual é o efeito do 'label smoothing' no treinamento do modelo?

Piora a perplexidade, mas melhora a precisão e o score BLEU. (C) Signup and view all the answers

Qual é o valor de `warmup_steps` utilizado no ajuste da taxa de aprendizado?

4000 (D) Signup and view all the answers

Na fórmula da taxa de aprendizado, qual componente controla o aumento inicial da taxa de aprendizado?

<code>min(step_num, step_num * warmup_steps−1.5)</code> (D) Signup and view all the answers

Qual é a taxa de dropout (Pdrop) utilizada no modelo base do Transformer?

0.1 (C) Signup and view all the answers

Qual modelo obteve o melhor score BLEU para a tradução de Inglês para Francês (EN-FR)?

GNMT + RL Ensemble (C) Signup and view all the answers

Qual a principal razão para a escolha da versão sinusoidal das incorporações posicionais em vez das aprendidas nos experimentos?

A versão sinusoidal pode permitir que o modelo extrapole para sequências maiores do que as encontradas no treinamento. (C) Signup and view all the answers

Considerando os dados fornecidos, qual modelo apresenta o menor custo de treinamento (FLOPs) para tradução de Inglês para Alemão (EN-DE)?

Transformer (base model) (B) Signup and view all the answers

Quais são os três critérios principais considerados para comparar self-attention com camadas recorrentes e convolucionais?

Complexidade computacional, capacidade de paralelização e comprimento do caminho para dependências de longo alcance. (D) Signup and view all the answers

Por que o aprendizado de dependências de longo alcance é um desafio importante em tarefas de transdução de sequência?

Porque o comprimento dos caminhos que os sinais forward e backward têm que percorrer na rede afeta a capacidade de aprender essas dependências. (C) Signup and view all the answers

Em que situação as camadas de self-attention são mais rápidas que as camadas recorrentes, de acordo com o texto?

Quando o comprimento da sequência <code>n</code> é menor que a dimensionalidade da representação <code>d</code>. (B) Signup and view all the answers

Qual é a complexidade computacional de uma camada recorrente?

$O(n)$ (A) Signup and view all the answers

Qual é uma estratégia sugerida para melhorar o desempenho computacional do self-attention em sequências muito longas?

Restringir o self-attention a considerar apenas uma vizinhança de tamanho <code>r</code> na sequência de entrada. (B) Signup and view all the answers

O que acontece com o comprimento máximo do caminho quando o self-attention é restrito a uma vizinhança de tamanho `r`?

Aumenta para $O(n/r)$. (A) Signup and view all the answers

Como uma única camada convolucional com largura de kernel `k < n` conecta as posições de entrada e saída?

Não conecta todos os pares de posições de entrada e saída. (C) Signup and view all the answers

Na função de atenção dot-product, qual é o propósito de escalar os produtos escalares por $\sqrt{d_k}$?

Reduzir a magnitude dos produtos escalares para evitar que a função softmax opere em regiões com gradientes muito pequenos. (B) Signup and view all the answers

Qual é a principal vantagem da atenção multi-cabeça em comparação com a atenção de cabeça única?

Permitir que o modelo atenda conjuntamente a informações de diferentes subespaços de representação em diferentes posições. (A) Signup and view all the answers

Como a função de atenção calcula a importância de cada palavra na sequência de entrada?

Calculando um peso para cada par de palavras (query e key) e aplicando uma função softmax para normalizar esses pesos. (C) Signup and view all the answers

Quais são as entradas da função de atenção?

Queries (Q), Keys (K) e Values (V). (D) Signup and view all the answers

Em que situação a atenção aditiva geralmente supera a atenção dot-product?

Quando a dimensão das chaves ($d_k$) é grande e a atenção dot-product não é escalada. (B) Signup and view all the answers

Qual das seguintes opções descreve corretamente a relação entre a atenção dot-product e a atenção aditiva em termos de eficiência computacional?

A atenção dot-product é mais rápida e eficiente em termos de espaço porque pode ser implementada usando código de multiplicação de matrizes altamente otimizado. (A) Signup and view all the answers

Na atenção multi-cabeça, qual é o efeito da projeção linear das queries, keys e values em 'h' diferentes espaços?

Permitir que o modelo capture diferentes aspectos das relações entre as palavras, projetando-as em subespaços distintos. (B) Signup and view all the answers

Como é calculada a matriz de outputs na função de atenção?

Pela aplicação da função softmax à divisão do produto escalar de Q e K pela raiz quadrada da dimensão da chave (dk), seguido pela multiplicação pela matriz V. (B) Signup and view all the answers

Flashcards

Modelos Recorrentes

Modelos que processam sequências, calculando estados ocultos sequencialmente.

Limitação da Paralelização

A natureza inerentemente sequencial impede a paralelização durante o treinamento.