Podcast
Questions and Answers
Qual é o objetivo principal do modelo generativo (G) em uma Rede Adversarial Generativa (GAN)?
Qual é o objetivo principal do modelo generativo (G) em uma Rede Adversarial Generativa (GAN)?
- Estimar a probabilidade de uma amostra pertencer aos dados de treinamento.
- Competir diretamente com outros modelos generativos para alcançar a maior precisão.
- Minimizar a probabilidade de o discriminador (D) identificar amostras geradas como falsas.
- Capturar a distribuição de dados subjacente, gerando amostras que se assemelham aos dados de treinamento. (correct)
Em uma GAN, o modelo discriminador (D) é treinado para enganar o gerador (G), classificando corretamente as amostras geradas como reais.
Em uma GAN, o modelo discriminador (D) é treinado para enganar o gerador (G), classificando corretamente as amostras geradas como reais.
False (B)
Qual é a principal vantagem de usar multilayer perceptrons (MLPs) para definir os modelos G e D em uma GAN?
Qual é a principal vantagem de usar multilayer perceptrons (MLPs) para definir os modelos G e D em uma GAN?
Backpropagation
O treinamento do modelo gerador (G) em uma GAN busca __________ a probabilidade de o discriminador (D) cometer um erro ao classificar as amostras geradas.
O treinamento do modelo gerador (G) em uma GAN busca __________ a probabilidade de o discriminador (D) cometer um erro ao classificar as amostras geradas.
Combine os seguintes componentes da GAN com suas respectivas funções:
Combine os seguintes componentes da GAN com suas respectivas funções:
Qual é o resultado ideal de um treinamento bem-sucedido de uma GAN, no que diz respeito à distribuição de dados?
Qual é o resultado ideal de um treinamento bem-sucedido de uma GAN, no que diz respeito à distribuição de dados?
As Redes Adversariais Generativas (GANs) requerem o uso de cadeias de Markov durante o processo de treinamento para gerar amostras.
As Redes Adversariais Generativas (GANs) requerem o uso de cadeias de Markov durante o processo de treinamento para gerar amostras.
Qual é o principal desafio que as GANs superam em relação a outros modelos generativos profundos?
Qual é o principal desafio que as GANs superam em relação a outros modelos generativos profundos?
Qual característica distingue as Redes Generativas Estocásticas (GSNs) das Máquinas de Boltzmann?
Qual característica distingue as Redes Generativas Estocásticas (GSNs) das Máquinas de Boltzmann?
As redes adversariais generativas (GANs) e os autoencoders variacionais (VAEs) ambos necessitam de diferenciação pelas unidades visíveis.
As redes adversariais generativas (GANs) e os autoencoders variacionais (VAEs) ambos necessitam de diferenciação pelas unidades visíveis.
Qual é a principal limitação das GANs em comparação com os VAEs no que se refere ao tipo de dados que podem modelar?
Qual é a principal limitação das GANs em comparação com os VAEs no que se refere ao tipo de dados que podem modelar?
A técnica de estimação de contraste de ruído (NCE) treina um modelo generativo aprendendo os pesos que tornam o modelo útil para discriminar dados de uma distribuição de ruído ________.
A técnica de estimação de contraste de ruído (NCE) treina um modelo generativo aprendendo os pesos que tornam o modelo útil para discriminar dados de uma distribuição de ruído ________.
Qual é a função da segunda rede neural nos autoencoders variacionais (VAEs)?
Qual é a função da segunda rede neural nos autoencoders variacionais (VAEs)?
O trabalho de Kingma e Welling e Rezende et al. não permite a retropropagação através de distribuições Gaussianas com variância finita.
O trabalho de Kingma e Welling e Rezende et al. não permite a retropropagação através de distribuições Gaussianas com variância finita.
Qual é a principal desvantagem de abordar o treinamento de modelos generativos profundos usando um critério discriminativo baseado em razões de probabilidades?
Qual é a principal desvantagem de abordar o treinamento de modelos generativos profundos usando um critério discriminativo baseado em razões de probabilidades?
Associe as seguintes técnicas com suas principais características:
Associe as seguintes técnicas com suas principais características:
Qual é a principal desvantagem do novo framework de redes generativas adversariais (GANs) em relação aos modelos anteriores?
Qual é a principal desvantagem do novo framework de redes generativas adversariais (GANs) em relação aos modelos anteriores?
Na estrutura de redes adversariais generativas, o ruído é utilizado como entrada para todas as camadas do gerador, desde a camada inferior até a superior.
Na estrutura de redes adversariais generativas, o ruído é utilizado como entrada para todas as camadas do gerador, desde a camada inferior até a superior.
Qual método é usado para estimar a probabilidade dos dados do conjunto de teste sob $p_g$?
Qual método é usado para estimar a probabilidade dos dados do conjunto de teste sob $p_g$?
O parâmetro $\sigma$ das Gaussianas é obtido por validação cruzada no conjunto de ________.
O parâmetro $\sigma$ das Gaussianas é obtido por validação cruzada no conjunto de ________.
Combine os componentes das GANs com suas respectivas funções:
Combine os componentes das GANs com suas respectivas funções:
Qual das seguintes opções representa uma vantagem das Redes Generativas Adversariais (GANs) em relação a outras abordagens de modelagem generativa?
Qual das seguintes opções representa uma vantagem das Redes Generativas Adversariais (GANs) em relação a outras abordagens de modelagem generativa?
Para evitar o 'cenário Helvetica', é crucial que o gerador (G) seja treinado excessivamente sem atualizar o discriminador (D).
Para evitar o 'cenário Helvetica', é crucial que o gerador (G) seja treinado excessivamente sem atualizar o discriminador (D).
Qual é a motivação para pesquisar métodos de avaliação para modelos generativos que podem amostrar, mas não estimar a verossimilhança diretamente?
Qual é a motivação para pesquisar métodos de avaliação para modelos generativos que podem amostrar, mas não estimar a verossimilhança diretamente?
Qual é o principal propósito dos exemplos adversariais no contexto de redes neurais?
Qual é o principal propósito dos exemplos adversariais no contexto de redes neurais?
No treinamento de redes adversariais, o discriminador (D) é treinado para minimizar a probabilidade de atribuir o rótulo correto a exemplos de treinamento e amostras do gerador (G).
No treinamento de redes adversariais, o discriminador (D) é treinado para minimizar a probabilidade de atribuir o rótulo correto a exemplos de treinamento e amostras do gerador (G).
Na função de valor $V(D, G)$ em um jogo minimax adversarial, qual é o objetivo do gerador (G)?
Na função de valor $V(D, G)$ em um jogo minimax adversarial, qual é o objetivo do gerador (G)?
Em redes adversariais, a função $D(x)$ representa a probabilidade de que $x$ veio dos dados reais em vez de $p_g$, onde $p_g$ é a distribuição do ______.
Em redes adversariais, a função $D(x)$ representa a probabilidade de que $x$ veio dos dados reais em vez de $p_g$, onde $p_g$ é a distribuição do ______.
Qual é a principal razão para alternar entre $k$ passos de otimização do discriminador (D) e um passo de otimização do gerador (G) em GANs?
Qual é a principal razão para alternar entre $k$ passos de otimização do discriminador (D) e um passo de otimização do gerador (G) em GANs?
A função $\log(1 - D(G(z)))$ sempre fornece um gradiente suficiente para o gerador (G) aprender bem, mesmo no início do treinamento.
A função $\log(1 - D(G(z)))$ sempre fornece um gradiente suficiente para o gerador (G) aprender bem, mesmo no início do treinamento.
Qual das seguintes opções descreve melhor o papel do ruído de entrada $p_z(z)$ no processo de geração de dados por $G(z; \theta_g)$?
Qual das seguintes opções descreve melhor o papel do ruído de entrada $p_z(z)$ no processo de geração de dados por $G(z; \theta_g)$?
Combine os seguintes componentes de uma rede adversarial com sua descrição:
Combine os seguintes componentes de uma rede adversarial com sua descrição:
Qual é uma das principais dificuldades associadas aos modelos gráficos direcionados profundos durante o treinamento?
Qual é uma das principais dificuldades associadas aos modelos gráficos direcionados profundos durante o treinamento?
Modelos de autoencoders generativos adversariais não necessitam de um trade-off entre o discriminador e o gerador durante o treinamento.
Modelos de autoencoders generativos adversariais não necessitam de um trade-off entre o discriminador e o gerador durante o treinamento.
Qual método de inferência é frequentemente usado para modelos gráficos não direcionados profundos?
Qual método de inferência é frequentemente usado para modelos gráficos não direcionados profundos?
A avaliação de $p(x)$ em modelos generativos pode ser aproximada usando estimativa de densidade de ______.
A avaliação de $p(x)$ em modelos generativos pode ser aproximada usando estimativa de densidade de ______.
Combine os seguintes tipos de modelos generativos com os desafios associados à amostragem:
Combine os seguintes tipos de modelos generativos com os desafios associados à amostragem:
Em modelos gráficos não direcionados profundos, qual é o principal desafio em relação à função de partição?
Em modelos gráficos não direcionados profundos, qual é o principal desafio em relação à função de partição?
Autoencoders variacionais requerem cadeias de Markov para amostragem.
Autoencoders variacionais requerem cadeias de Markov para amostragem.
Qual é um método usado para aproximar a avaliação de $p(x)$ quando é intratável em modelos gráficos?
Qual é um método usado para aproximar a avaliação de $p(x)$ quando é intratável em modelos gráficos?
Qual consideração de design de modelo é particularmente importante para modelos gráficos profundos, de acordo com a tabela?
Qual consideração de design de modelo é particularmente importante para modelos gráficos profundos, de acordo com a tabela?
Para modelos generativos adversariais, qualquer função ______ é teoricamente permitida para o design do modelo.
Para modelos generativos adversariais, qualquer função ______ é teoricamente permitida para o design do modelo.
Qual dos seguintes artigos apresenta uma abordagem para melhorar as redes neurais, prevenindo a co-adaptação de detectores de características?
Qual dos seguintes artigos apresenta uma abordagem para melhorar as redes neurais, prevenindo a co-adaptação de detectores de características?
O algoritmo wake-sleep foi desenvolvido para treinamento supervisionado de redes neurais.
O algoritmo wake-sleep foi desenvolvido para treinamento supervisionado de redes neurais.
Qual é o nome do conjunto de dados faciais desenvolvido na Universidade de Toronto mencionado nos textos?
Qual é o nome do conjunto de dados faciais desenvolvido na Universidade de Toronto mencionado nos textos?
O artigo de LeCun, Bottou, Bengio e Haffner (1998) demonstra a aplicação de aprendizado baseado em __________ para reconhecimento de documentos.
O artigo de LeCun, Bottou, Bengio e Haffner (1998) demonstra a aplicação de aprendizado baseado em __________ para reconhecimento de documentos.
Combine os seguintes autores com suas respectivas contribuições mencionadas:
Combine os seguintes autores com suas respectivas contribuições mencionadas:
Qual artigo propôs uma nova técnica de estimativa para modelos estatísticos não normalizados?
Qual artigo propôs uma nova técnica de estimativa para modelos estatísticos não normalizados?
O artigo de Schmidhuber (1992) explora o uso de Redes Neurais Convolucionais para reconhecimento de imagens.
O artigo de Schmidhuber (1992) explora o uso de Redes Neurais Convolucionais para reconhecimento de imagens.
Qual publicação descreve a classificação ImageNet com redes neurais convolucionais profundas?
Qual publicação descreve a classificação ImageNet com redes neurais convolucionais profundas?
Flashcards
Redes Generativas Adversariais (GANs)
Redes Generativas Adversariais (GANs)
Uma estrutura para estimar modelos generativos, treinando simultaneamente dois modelos: um gerador (G) e um discriminador (D).
Modelo Gerador (G)
Modelo Gerador (G)
Modelo que captura a distribuição de dados, criando novas amostras que se assemelham aos dados de treinamento.
Modelo Discriminador (D)
Modelo Discriminador (D)
Modelo que estima a probabilidade de uma amostra ser proveniente dos dados de treinamento versus o modelo gerador.
Treinamento Adversarial
Treinamento Adversarial
Signup and view all the flashcards
Jogo Minimax
Jogo Minimax
Signup and view all the flashcards
Retropropagação (Backpropagation)
Retropropagação (Backpropagation)
Signup and view all the flashcards
Modelos Discriminativos
Modelos Discriminativos
Signup and view all the flashcards
Modelos Generativos Profundos
Modelos Generativos Profundos
Signup and view all the flashcards
Redes Estocásticas Generativas
Redes Estocásticas Generativas
Signup and view all the flashcards
Retropropagação Estocástica
Retropropagação Estocástica
Signup and view all the flashcards
Autoencoders Variacionais (VAEs)
Autoencoders Variacionais (VAEs)
Signup and view all the flashcards
Redes Adversariais Generativas (GANs)
Redes Adversariais Generativas (GANs)
Signup and view all the flashcards
Diferenciação em VAEs e GANs
Diferenciação em VAEs e GANs
Signup and view all the flashcards
Estimativa de Contraste de Ruído (NCE)
Estimativa de Contraste de Ruído (NCE)
Signup and view all the flashcards
Usando um Modelo Previamente Treinado como Ruído
Usando um Modelo Previamente Treinado como Ruído
Signup and view all the flashcards
Mecanismo de Competição em GANs
Mecanismo de Competição em GANs
Signup and view all the flashcards
Exemplos Adversariais
Exemplos Adversariais
Signup and view all the flashcards
Gerador (em GANs)
Gerador (em GANs)
Signup and view all the flashcards
Discriminador (em GANs)
Discriminador (em GANs)
Signup and view all the flashcards
Função de Valor (em GANs)
Função de Valor (em GANs)
Signup and view all the flashcards
Ruído de Entrada (em GANs)
Ruído de Entrada (em GANs)
Signup and view all the flashcards
Treinamento Iterativo (em GANs)
Treinamento Iterativo (em GANs)
Signup and view all the flashcards
Saturação do Gradiente
Saturação do Gradiente
Signup and view all the flashcards
Janela Parzen Gaussiana
Janela Parzen Gaussiana
Signup and view all the flashcards
Sincronização D e G
Sincronização D e G
Signup and view all the flashcards
Colapso do Gerador
Colapso do Gerador
Signup and view all the flashcards
Falta de pg(x) Explícito
Falta de pg(x) Explícito
Signup and view all the flashcards
Sem Cadeias de Markov
Sem Cadeias de Markov
Signup and view all the flashcards
Vantagem Estatística das GANs
Vantagem Estatística das GANs
Signup and view all the flashcards
Atualização por Gradientes do Discriminador
Atualização por Gradientes do Discriminador
Signup and view all the flashcards
Flexibilidade Funcional das GANs
Flexibilidade Funcional das GANs
Signup and view all the flashcards
Modelos Gráficos Direcionados Profundos
Modelos Gráficos Direcionados Profundos
Signup and view all the flashcards
Modelos Gráficos Não Direcionados Profundos
Modelos Gráficos Não Direcionados Profundos
Signup and view all the flashcards
Autoencoders Generativos
Autoencoders Generativos
Signup and view all the flashcards
Modelos Adversariais Generativos (GANs)
Modelos Adversariais Generativos (GANs)
Signup and view all the flashcards
Inferência no Treinamento (Direcionados)
Inferência no Treinamento (Direcionados)
Signup and view all the flashcards
Tipos de Inferência (Não Direcionados)
Tipos de Inferência (Não Direcionados)
Signup and view all the flashcards
Inferência em GANs
Inferência em GANs
Signup and view all the flashcards
Amostragem em Modelos Não Direcionados
Amostragem em Modelos Não Direcionados
Signup and view all the flashcards
Avaliação de p(x)
Avaliação de p(x)
Signup and view all the flashcards
Flexibilidade de Modelagem (GANs)
Flexibilidade de Modelagem (GANs)
Signup and view all the flashcards
DNNs para modelagem acústica
DNNs para modelagem acústica
Signup and view all the flashcards
Algoritmo Wake-Sleep
Algoritmo Wake-Sleep
Signup and view all the flashcards
Prevenção de Co-adaptação
Prevenção de Co-adaptação
Signup and view all the flashcards
Aprendizado Baseado em Gradiente
Aprendizado Baseado em Gradiente
Signup and view all the flashcards
Máquinas de Boltzmann Profundas
Máquinas de Boltzmann Profundas
Signup and view all the flashcards
Minimização da Previsibilidade
Minimização da Previsibilidade
Signup and view all the flashcards
Processo Generativo para CAE
Processo Generativo para CAE
Signup and view all the flashcards
Redes Auto-Regressivas Profundas
Redes Auto-Regressivas Profundas
Signup and view all the flashcards
Study Notes
Redes Generativas Adversariais
- Apresenta uma nova estrutura para estimar modelos generativos através de um processo adversarial.
- Treina simultaneamente dois modelos: um modelo generativo (G) e um modelo discriminativo (D).
- G captura a distribuição dos dados.
- D estima a probabilidade de uma amostra vir dos dados de treinamento em vez de G.
- O procedimento de treinamento para G visa maximizar a probabilidade de D cometer um erro.
- Esta estrutura corresponde a um jogo minimax de dois jogadores.
- No espaço de funções arbitrárias G e D existe uma solução única, com G recuperando a distribuição dos dados de treinamento e D igual a 1/2 em todos os lugares.
- Quando G e D são definidos por perceptrons multicamadas, todo o sistema pode ser treinado com retropropagação.
- Não há necessidade de cadeias de Markov ou redes de inferência aproximadas desenroladas durante o treinamento ou geração de amostras.
- Os experimentos demonstram o potencial da estrutura por meio de avaliação qualitativa e quantitativa das amostras geradas.
Introdução
- O objetivo do aprendizado profundo é descobrir modelos ricos e hierárquicos que representam distribuições de probabilidade sobre os tipos de dados encontrados em aplicações de inteligência artificial.
- Os sucessos mais notáveis no aprendizado profundo envolveram modelos discriminativos que mapeiam uma entrada sensorial rica e de alta dimensão para um rótulo de classe.
- Esses sucessos foram baseados principalmente nos algoritmos de retropropagação e dropout, usando unidades lineares por partes que têm um gradiente particularmente bem comportado.
- Os modelos generativos profundos tiveram menos impacto devido à dificuldade de aproximar muitos cálculos probabilísticos intratáveis que surgem na estimativa de máxima verossimilhança e estratégias relacionadas, e devido à dificuldade de aproveitar os benefícios de unidades lineares por partes no contexto generativo.
- Uma nova estimativa de modelo generativo é proposta que contorna essas dificuldades.
- Na estrutura de redes adversárias proposta, o modelo generativo é confrontado com um adversário: um modelo discriminativo que aprende a determinar se uma amostra vem da distribuição do modelo ou da distribuição dos dados.
- O modelo generativo pode ser considerado análogo a uma equipe de falsificadores, tentando produzir moeda falsa e usá-la sem detecção, enquanto o modelo discriminativo é análogo à polícia, tentando detectar a moeda falsa. Concordar!
- A competição neste jogo leva ambas as equipes a melhorar seus métodos até que as falsificações sejam indistinguíveis dos artigos genuínos.
Trabalhos Relacionados
- Trabalhos recentes em modelos generativos profundos concentraram-se em modelos que fornecem uma especificação paramétrica de uma função de distribuição de probabilidade.
- O modelo pode então ser treinado maximizando o log-verossimilhança.
- Nesta família de modelos, talvez o mais bem-sucedido seja a máquina de Boltzmann profunda.
- Esses modelos geralmente têm funções de verossimilhança intratáveis e, portanto, exigem inúmeras aproximações do gradiente de verossimilhança.
- Essas dificuldades motivaram o desenvolvimento de "máquinas generativas" - modelos que não representam explicitamente a verossimilhança, mas são capazes de gerar amostras da distribuição desejada.
- Redes estocásticas generativas são um exemplo de uma máquina generativa que pode ser treinada com retropropagação exata em vez das inúmeras aproximações necessárias para máquinas de Boltzmann.
- Este trabalho estende a ideia de uma máquina generativa eliminando as cadeias de Markov usadas em redes estocásticas generativas.
- Este trabalho retropropaga derivadas através de processos generativos usando a observação de que: lim σ→0Vz~N(0,σ2I) f(x + ε) = ∇x f(x).
- Kingma e Welling e Rezende et al. desenvolveram regras de retropropagação estocástica mais gerais, permitindo retropropagar através de distribuições gaussianas com variância finita e retropropagar para o parâmetro de covariância, bem como a média.
- Essas regras de retropropagação podem permitir que se aprenda a variância condicional do gerador, que foi tratada como um hiperparâmetro neste trabalho.
- Kingma e Welling e Rezende et al. usam retropropagação estocástica para treinar autoencoders variacionais (VAEs).
- Como as redes generativas adversárias, os autoencoders variacionais combinam uma rede geradora diferenciável com uma segunda rede neural.
- Ao contrário das redes generativas adversárias, a segunda rede em um VAE é um modelo de reconhecimento que realiza inferência aproximada.
- GANs exigem diferenciação através das unidades visíveis e, portanto, não podem modelar dados discretos, enquanto VAEs exigem diferenciação através das unidades ocultas e, portanto, não podem ter variáveis latentes discretas.
- Outras abordagens semelhantes a VAE existem, mas são menos estreitamente relacionadas com este método.
- Trabalhos anteriores também adotaram a abordagem de usar um critério discriminativo para treinar um modelo generativo.
- Essas abordagens usam critérios intratáveis para modelos generativos profundos.
- Esses métodos são difíceis mesmo de aproximar para modelos profundos porque envolvem razões de probabilidades que não podem ser aproximadas usando aproximações variacionais que limitam inferiormente a probabilidade.
- A estimativa de ruído-contraste (NCE) envolve o treinamento de um modelo generativo aprendendo os pesos que tornam o modelo útil para discriminar dados de uma distribuição de ruído fixo.
- Usar um modelo treinado anteriormente como distribuição de ruído permite treinar uma sequência de modelos de qualidade crescente.
- Isso pode ser visto como um mecanismo de competição informal semelhante em espírito à competição formal usada no jogo de redes adversárias.
- A principal limitação do NCE é que seu "discriminador" é definido pela razão das densidades de probabilidade da distribuição de ruído e da distribuição do modelo e, portanto, requer a capacidade de avaliar e retropropagar através de ambas as densidades.
- Alguns trabalhos anteriores usaram o conceito geral de ter duas redes neurais competindo.
- O trabalho mais relevante é a minimização de previsibilidade. Na minimização de previsibilidade, cada unidade oculta em uma rede neural é treinada para ser diferente da saída de uma segunda rede, que prevê o valor dessa unidade oculta dado o valor de todas as outras unidades ocultas.
- Este trabalho difere da minimização de previsibilidade em três aspectos importantes: 1) neste trabalho, a competição entre as redes é o único critério de treinamento e é suficiente por si só para treinar a rede.
- A minimização da previsibilidade é apenas um regularizador que incentiva as unidades ocultas de uma rede neural a serem estatisticamente independentes enquanto realizam alguma outra tarefa; não é um critério primário de treinamento.
- A natureza da competição é diferente.
- Na minimização de previsibilidade, as saídas de duas redes são comparadas, com uma rede tentando tornar as saídas semelhantes e a outra tentando tornar as saídas diferentes.
Redes Adversariais
- A estrutura de modelagem adversária é mais simples de aplicar quando os modelos são ambos perceptrons multicamadas.
- Para aprender a distribuição do gerador pg sobre os dados x, definimos um prior nas variáveis de ruído de entrada pz(z), então representamos um mapeamento para o espaço de dados como G(z; θg), onde G é uma função diferenciável representada por um perceptron multicamadas com parâmetros θg.
- Também definimos um segundo perceptron multicamadas D(x; θd) que produz um único escalar.
- D(x) representa a probabilidade de x vir dos dados em vez de pg.
- Treinamos D para maximizar a probabilidade de atribuir o rótulo correto tanto aos exemplos de treinamento quanto às amostras de G. Treinamos simultaneamente G para minimizar log(1 – D(G(z))).
- Em outras palavras, D e G jogam o seguinte jogo minimax de dois jogadores com função de valor V (G, D): minG maxD V (D, G) = Ex~pdata(x) [log D(x)] + Ezpz(z) [log(1 – D(G(z)))].
- Na próxima seção, apresenta uma análise teórica das redes adversárias, mostrando essencialmente que o critério de treinamento permite recuperar a distribuição geradora de dados à medida que G e D recebem capacidade suficiente, ou seja, no limite não paramétrico.
- A Figura 1 mostra uma explicação menos formal e mais pedagógica da abordagem.
- Na prática, deve-se implementar o jogo usando uma abordagem iterativa e numérica.
- A otimização de D até a conclusão no loop interno do treinamento é computacionalmente proibitiva e, em conjuntos de dados finitos, resultaria em overfitting. Em vez disso, alterna entre k etapas de otimização de D e uma etapa de otimização de G. Isso resulta em D sendo mantido próximo de sua solução ideal, desde que G mude lentamente o suficiente.
- Em prática, a equação 1 pode não fornecer gradiente suficiente para G aprender bem.
- No início do aprendizado, quando G é ruim, D pode rejeitar amostras com alta confiança porque elas são claramente diferentes dos dados de treinamento. Nesse caso, log(1 – D(G(z))) satura.
- Em vez de treinar G para minimizar log(1-D(G(z))), pode-se treinar G para maximizar log D(G(z)).
- Esta função objetiva resulta no mesmo ponto fixo da dinâmica de G e D, mas fornece gradientes muito mais fortes no início do aprendizado.
Resultados Teóricos
- O gerador G define implicitamente uma distribuição de probabilidade pg como a distribuição das amostras G(z) obtidas quando z ~ pz.
- Portanto, gostaria que o Algoritmo 1 convergisse para um bom estimador de Pdata, se dada capacidade suficiente e tempo de treinamento.
- Os resultados desta seção são feitos em um ambiente não paramétrico, e.g. representa um modelo com capacidade infinita, estudando a convergência no espaço das funções de densidade de probabilidade. Será mostrado na seção 4.1 que este jogo minimax tem um ótimo global para pg = Pdata. Então mostrará na seção 4.2 que o Algoritmo 1 otimiza a Eq 1, obtendo assim o resultado desejado.
- A Figura 1: As redes adversárias generativas são treinadas atualizando simultaneamente a distribuição discriminativa (D, linha tracejada azul) para que ela discrimine entre amostras da distribuição geradora de dados (linha pontilhada preta) pæ daquelas da distribuição generativa pg(G) (linha sólida verde).
- A linha horizontal inferior é o domínio do qual z é amostrado, neste caso uniformemente.
- A linha horizontal acima é parte do domínio de x.
- As setas apontando para cima mostram como o mapeamento x = G(z) impõe a distribuição não uniforme pg em amostras transformadas.
- G se contrai em regiões de alta densidade e se expande em regiões de baixa densidade de pg.
- (a) Considere um par adversário próximo da convergência: pg é semelhante a pdata e D é um classificador parcialmente preciso.
- (b) No loop interno do algoritmo D é treinado para discriminar amostras de dados, convergindo para D*(x) = pdata (x)/pdata (x) + P(x).
- (c) Após uma atualização para G, o gradiente de D guiou G(z) para fluir para regiões que são mais propensas a serem classificadas como dados.
- (d) Após várias etapas de treinamento, se G e D tiverem capacidade suficiente, eles atingirão um ponto em que ambos não podem melhorar porque pg = Pdata.
- O discriminador é incapaz de diferenciar entre as duas distribuições, i.e. D(x) = 1/2.
Algoritmo 1
- Minibatch descendente do gradiente estocástico treinamento de redes generativas adversárias.
- O número de etapas a serem aplicadas ao discriminador, k, é um hiperparâmetro.
- Para o número de iterações de treinamento, para k etapas:
- Amostragem de minibatch de m amostras de ruído {z(1), . . ., z(m) } do prior de ruído pg(z).
- Amostragem de minibatch de m exemplos {x(1),…,x(m)} da distribuição geradora de dados Pdata (x).
- Atualização do discriminador subindo seu gradiente estocástico: ⎷ E [log D(x(i)) + log (1 - D (G(z(i))))].
- Amostragem de minibatch de m amostras de ruído {z(1), . . ., z(m)} do prior de ruído pg(z).
- Atualização do gerador diminuindo seu gradiente estocástico: 1/m ✓ eg P
- As atualizações baseadas em gradiente podem usar qualquer regra de aprendizado baseada em gradiente padrão.
Otimalidade Global de pg = Pdata
- Considere primeiro o discriminador ideal D para um determinado gerador G.
- Proposição 1. Para G fixo, o discriminador ideal D é: D(x) = pdata(x)/pdata(x) + Pg(x)
- A função objetivo de treinamento para o discriminador D, dado qualquer gerador G, é maximizar a quantidade V (G, D).
- Para quaisquer (a, b) ∈ R² \ {0,0}, a função y → a · log(y) + b· log(1 – y) atinge seu máximo em [0, 1] em y = a/(a+b).
- É provado que o discriminador não precisa ser definido fora de Supp(Pdata) ∪ Supp(pg).
- O objetivo de treinamento para D pode ser interpretado como maximizar o log-verossimilhança para estimar a probabilidade condicional P(Y = y|x), onde Y indica se x vem de Pdata (com y = 1) ou de pg (com y = 0).
- O jogo minimax na Eq. 1 pode agora ser reformulado da seguinte forma: C(G) = maxD V (G, D)
- Teorema 1. O mínimo global do critério de treinamento virtual C(G) é alcançado se e somente se Pg = Pdata. Nesse ponto, C(G) atinge o valor – log 4.
Convergência do Algoritmo 1
- Proposição 2.
- Se G e D tiverem capacidade suficiente, e em cada etapa do Algoritmo 1, o discriminador puder atingir seu ótimo dado G, e pg for atualizado para melhorar o critério Ex
pdata [log D(x)] + Expg [log(1 – D(x))], então pg converge para Pdata. - Na prática, as redes adversárias representam uma família limitada de distribuições pg através da função G(z; θg), e otimiza θg em vez de pg em si, então as provas não se aplicam.
- No entanto, o excelente desempenho dos perceptrons multicamadas na prática sugere que eles são um modelo razoável para usar apesar de sua falta de garantias teóricas.
Vantagens e Desvantagens
- Essa nova estrutura vem com vantagens e desvantagens em relação às estruturas de modelagem anteriores.
- As desvantagens são principalmente que não há representação explícita de pg(x) e que D deve ser bem sincronizado com G durante o treinamento (em particular, G não deve ser treinado demais sem atualizar D para evitar “o cenário Helvetica” em que G colapsa muitos valores de z para o mesmo valor de x para ter diversidade suficiente para modelar Pdata), assim como as cadeias negativas de uma máquina de Boltzmann devem ser mantidas atualizadas entre as etapas de aprendizado.
- As vantagens são que as cadeias de Markov nunca são necessárias, apenas a retropropagação é usada para obter gradientes, nenhuma inferência é necessária durante o aprendizado e uma ampla variedade de funções pode ser incorporada ao modelo.
- As vantagens mencionadas são principalmente computacionais.
- Os modelos adversários também podem obter alguma vantagem estatística da rede geradora não sendo atualizada diretamente com exemplos de dados, mas apenas com gradientes fluindo através do discriminador.
- Isso significa que componentes da entrada não são copiados diretamente para os parâmetros do gerador.
- Outra vantagem das redes adversárias é que elas podem representar distribuições muito nítidas, mesmo degeneradas, enquanto os métodos baseados em cadeias de Markov exigem que a distribuição seja um tanto turva para que as cadeias possam se misturar entre os modos.
Conclusões e Trabalhos Futuros
- Essa estrutura admite muitas extensões diretas.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Esta aula é sobre o artigo "Generative Adversarial Nets" onde os autores mostram um novo framework para a estimação de modelos generativos chamado Redes Adversárias Generativas (GANs). Nele, dois modelos são treinados simultaneamente: um modelo gerador (G), que aprende a capturar a distribuição dos dados, e um modelo discriminador (D), que tenta distinguir entre amostras reais e amostras geradas. Esse treinamento é formulado como um jogo de soma zero, no qual G tenta enganar D gerando amostras cada vez mais realistas. O artigo apresenta tanto uma análise teórica da convergência desse processo quanto experimentos demonstrando a capacidade das GANs de gerar amostras de alta qualidade em diversos conjuntos de dados.
GOODFELLOW, Ian J.; POUGET-ABADIE, Jean; MIRZA, Mehdi; XU, Bing; WARDE-FARLEY, David; OZAIR, Sherjil; COURVILLE, Aaron; BENGIO, Yoshua. Generative adversarial nets. In: ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 27 (NIPS 2014), 2014, Montréal. Anais [...]. Montréal: Neural Information Processing Systems Foundation, 2014. p. 2672-2680.