Generative Adversarial Nets
50 Questions
3 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Qual é o objetivo principal do modelo generativo (G) em uma Rede Adversarial Generativa (GAN)?

  • Estimar a probabilidade de uma amostra pertencer aos dados de treinamento.
  • Competir diretamente com outros modelos generativos para alcançar a maior precisão.
  • Minimizar a probabilidade de o discriminador (D) identificar amostras geradas como falsas.
  • Capturar a distribuição de dados subjacente, gerando amostras que se assemelham aos dados de treinamento. (correct)

Em uma GAN, o modelo discriminador (D) é treinado para enganar o gerador (G), classificando corretamente as amostras geradas como reais.

False (B)

Qual é a principal vantagem de usar multilayer perceptrons (MLPs) para definir os modelos G e D em uma GAN?

Backpropagation

O treinamento do modelo gerador (G) em uma GAN busca __________ a probabilidade de o discriminador (D) cometer um erro ao classificar as amostras geradas.

<p>maximizar</p> Signup and view all the answers

Combine os seguintes componentes da GAN com suas respectivas funções:

<p>Modelo Generativo (G) = Gera amostras a partir de ruído aleatório, tentando imitar os dados de treinamento. Modelo Discriminador (D) = Avalia a probabilidade de uma amostra ser real (dos dados de treinamento) ou gerada pelo modelo G. Backpropagation = Algoritmo usado para treinar ambos os modelos, ajustando seus pesos com base no erro. Minimax Game = A estrutura que representa a competição entre G e D, onde G busca enganar D, e D busca identificar amostras falsas.</p> Signup and view all the answers

Qual é o resultado ideal de um treinamento bem-sucedido de uma GAN, no que diz respeito à distribuição de dados?

<p>O modelo generativo (G) recupera a distribuição dos dados de treinamento, e o modelo discriminador (D) atribui uma probabilidade de 1/2 a todas as amostras. (C)</p> Signup and view all the answers

As Redes Adversariais Generativas (GANs) requerem o uso de cadeias de Markov durante o processo de treinamento para gerar amostras.

<p>False (B)</p> Signup and view all the answers

Qual é o principal desafio que as GANs superam em relação a outros modelos generativos profundos?

<p>Computações probabilísticas intratáveis</p> Signup and view all the answers

Qual característica distingue as Redes Generativas Estocásticas (GSNs) das Máquinas de Boltzmann?

<p>GSNs utilizam retropropagação exata em vez das aproximações necessárias para Máquinas de Boltzmann. (D)</p> Signup and view all the answers

As redes adversariais generativas (GANs) e os autoencoders variacionais (VAEs) ambos necessitam de diferenciação pelas unidades visíveis.

<p>False (B)</p> Signup and view all the answers

Qual é a principal limitação das GANs em comparação com os VAEs no que se refere ao tipo de dados que podem modelar?

<p>GANs não podem modelar dados discretos, enquanto VAEs podem.</p> Signup and view all the answers

A técnica de estimação de contraste de ruído (NCE) treina um modelo generativo aprendendo os pesos que tornam o modelo útil para discriminar dados de uma distribuição de ruído ________.

<p>fixa</p> Signup and view all the answers

Qual é a função da segunda rede neural nos autoencoders variacionais (VAEs)?

<p>Realizar inferência aproximada como um modelo de reconhecimento. (D)</p> Signup and view all the answers

O trabalho de Kingma e Welling e Rezende et al. não permite a retropropagação através de distribuições Gaussianas com variância finita.

<p>False (B)</p> Signup and view all the answers

Qual é a principal desvantagem de abordar o treinamento de modelos generativos profundos usando um critério discriminativo baseado em razões de probabilidades?

<p>Esses critérios são intratáveis para modelos generativos profundos e difíceis de aproximar.</p> Signup and view all the answers

Associe as seguintes técnicas com suas principais características:

<p>Redes Generativas Estocásticas (GSNs) = Utilizam retropropagação exata em vez de aproximações. Autoencoders Variacionais (VAEs) = Possuem uma rede de reconhecimento para inferência aproximada. Redes Adversariais Generativas (GANs) = Não conseguem modelar dados discretos. Estimação de Contraste de Ruído (NCE) = Discrimina dados de uma distribuição de ruído fixa.</p> Signup and view all the answers

Qual é a principal desvantagem do novo framework de redes generativas adversariais (GANs) em relação aos modelos anteriores?

<p>A ausência de uma representação explícita de $p_g(x)$. (C)</p> Signup and view all the answers

Na estrutura de redes adversariais generativas, o ruído é utilizado como entrada para todas as camadas do gerador, desde a camada inferior até a superior.

<p>False (B)</p> Signup and view all the answers

Qual método é usado para estimar a probabilidade dos dados do conjunto de teste sob $p_g$?

<p>Parzen window Gaussiana</p> Signup and view all the answers

O parâmetro $\sigma$ das Gaussianas é obtido por validação cruzada no conjunto de ________.

<p>validação</p> Signup and view all the answers

Combine os componentes das GANs com suas respectivas funções:

<p>Gerador (G) = Cria amostras a partir de ruído aleatório. Discriminador (D) = Avalia se uma amostra é real ou gerada. Backpropagation = Método usado para atualizar os pesos das redes G e D. Parzen Window = Usado para estimar a probabilidade dos dados gerados.</p> Signup and view all the answers

Qual das seguintes opções representa uma vantagem das Redes Generativas Adversariais (GANs) em relação a outras abordagens de modelagem generativa?

<p>Capacidade de incorporar uma ampla variedade de funções no modelo. (C)</p> Signup and view all the answers

Para evitar o 'cenário Helvetica', é crucial que o gerador (G) seja treinado excessivamente sem atualizar o discriminador (D).

<p>False (B)</p> Signup and view all the answers

Qual é a motivação para pesquisar métodos de avaliação para modelos generativos que podem amostrar, mas não estimar a verossimilhança diretamente?

<p>Avanços em modelos generativos.</p> Signup and view all the answers

Qual é o principal propósito dos exemplos adversariais no contexto de redes neurais?

<p>Demonstrar que redes neurais podem classificar imagens de forma diferente com alta confiança, mesmo com diferenças imperceptíveis para humanos. (B)</p> Signup and view all the answers

No treinamento de redes adversariais, o discriminador (D) é treinado para minimizar a probabilidade de atribuir o rótulo correto a exemplos de treinamento e amostras do gerador (G).

<p>False (B)</p> Signup and view all the answers

Na função de valor $V(D, G)$ em um jogo minimax adversarial, qual é o objetivo do gerador (G)?

<p>Minimizar V(D, G)</p> Signup and view all the answers

Em redes adversariais, a função $D(x)$ representa a probabilidade de que $x$ veio dos dados reais em vez de $p_g$, onde $p_g$ é a distribuição do ______.

<p>gerador</p> Signup and view all the answers

Qual é a principal razão para alternar entre $k$ passos de otimização do discriminador (D) e um passo de otimização do gerador (G) em GANs?

<p>Para evitar que o discriminador (D) seja otimizado em excesso (overfitting) em conjuntos de dados finitos. (A)</p> Signup and view all the answers

A função $\log(1 - D(G(z)))$ sempre fornece um gradiente suficiente para o gerador (G) aprender bem, mesmo no início do treinamento.

<p>False (B)</p> Signup and view all the answers

Qual das seguintes opções descreve melhor o papel do ruído de entrada $p_z(z)$ no processo de geração de dados por $G(z; \theta_g)$?

<p>Fornecer uma fonte de aleatoriedade que o gerador transforma em dados estruturados. (D)</p> Signup and view all the answers

Combine os seguintes componentes de uma rede adversarial com sua descrição:

<p>Gerador (G) = Cria amostras a partir de ruído, tentando imitar os dados reais Discriminador (D) = Avalia a probabilidade de uma amostra ser real ou gerada $p_z(z)$ = Distribuição de probabilidade do ruído de entrada Ex∼pdata(x) = Distribuição dos dados reais</p> Signup and view all the answers

Qual é uma das principais dificuldades associadas aos modelos gráficos direcionados profundos durante o treinamento?

<p>Necessidade de inferência durante o treinamento. (A)</p> Signup and view all the answers

Modelos de autoencoders generativos adversariais não necessitam de um trade-off entre o discriminador e o gerador durante o treinamento.

<p>False (B)</p> Signup and view all the answers

Qual método de inferência é frequentemente usado para modelos gráficos não direcionados profundos?

<p>MCMC</p> Signup and view all the answers

A avaliação de $p(x)$ em modelos generativos pode ser aproximada usando estimativa de densidade de ______.

<p>Parzen</p> Signup and view all the answers

Combine os seguintes tipos de modelos generativos com os desafios associados à amostragem:

<p>Modelos Gráficos Direcionados Profundos = Sem dificuldades Modelos Gráficos Não Direcionados Profundos = Requer cadeia de Markov Autoencoders Generativos Adversariais = Sem dificuldades</p> Signup and view all the answers

Em modelos gráficos não direcionados profundos, qual é o principal desafio em relação à função de partição?

<p>A função de partição precisa ser aproximada. (B)</p> Signup and view all the answers

Autoencoders variacionais requerem cadeias de Markov para amostragem.

<p>False (B)</p> Signup and view all the answers

Qual é um método usado para aproximar a avaliação de $p(x)$ quando é intratável em modelos gráficos?

<p>AIS</p> Signup and view all the answers

Qual consideração de design de modelo é particularmente importante para modelos gráficos profundos, de acordo com a tabela?

<p>O modelo deve ser projetado para funcionar com o esquema de inferência desejado. (D)</p> Signup and view all the answers

Para modelos generativos adversariais, qualquer função ______ é teoricamente permitida para o design do modelo.

<p>diferenciável</p> Signup and view all the answers

Qual dos seguintes artigos apresenta uma abordagem para melhorar as redes neurais, prevenindo a co-adaptação de detectores de características?

<p>Hinton et al. (2012b) (B)</p> Signup and view all the answers

O algoritmo wake-sleep foi desenvolvido para treinamento supervisionado de redes neurais.

<p>False (B)</p> Signup and view all the answers

Qual é o nome do conjunto de dados faciais desenvolvido na Universidade de Toronto mencionado nos textos?

<p>Toronto face dataset</p> Signup and view all the answers

O artigo de LeCun, Bottou, Bengio e Haffner (1998) demonstra a aplicação de aprendizado baseado em __________ para reconhecimento de documentos.

<p>gradiente</p> Signup and view all the answers

Combine os seguintes autores com suas respectivas contribuições mencionadas:

<p>Gregor et al. (2014) = Redes Auto-Regressivas Profundas Gutmann e Hyvarinen (2010) = Estimativa de Contraste de Ruído Hinton et al. (2012a) = Redes Neurais Profundas para Modelagem Acústica Kingma e Welling (2014) = Auto-Codificação Bayesiana Variacional</p> Signup and view all the answers

Qual artigo propôs uma nova técnica de estimativa para modelos estatísticos não normalizados?

<p>Gutmann e Hyvarinen (2010) (A)</p> Signup and view all the answers

O artigo de Schmidhuber (1992) explora o uso de Redes Neurais Convolucionais para reconhecimento de imagens.

<p>False (B)</p> Signup and view all the answers

Qual publicação descreve a classificação ImageNet com redes neurais convolucionais profundas?

<p>Krizhevsky, Sutskever e Hinton (2012)</p> Signup and view all the answers

Flashcards

Redes Generativas Adversariais (GANs)

Uma estrutura para estimar modelos generativos, treinando simultaneamente dois modelos: um gerador (G) e um discriminador (D).

Modelo Gerador (G)

Modelo que captura a distribuição de dados, criando novas amostras que se assemelham aos dados de treinamento.

Modelo Discriminador (D)

Modelo que estima a probabilidade de uma amostra ser proveniente dos dados de treinamento versus o modelo gerador.

Treinamento Adversarial

Procedimento de treinamento onde o gerador tenta enganar o discriminador, maximizando a probabilidade de o discriminador cometer erros.

Signup and view all the flashcards

Jogo Minimax

Jogo de soma zero entre o gerador e o discriminador, buscando um equilíbrio onde o gerador replica a distribuição dos dados de treinamento e o discriminador não consegue distinguir.

Signup and view all the flashcards

Retropropagação (Backpropagation)

Técnica de otimização usada para treinar redes neurais, ajustando os pesos com base no gradiente da função de perda.

Signup and view all the flashcards

Modelos Discriminativos

Modelos que mapeiam uma entrada sensorial de alta dimensão para um rótulo de classe.

Signup and view all the flashcards

Modelos Generativos Profundos

Modelos que representam distribuições de probabilidade sobre dados, como imagens ou texto.

Signup and view all the flashcards

Redes Estocásticas Generativas

Redes generativas que podem ser treinadas com retropropagação exata.

Signup and view all the flashcards

Retropropagação Estocástica

Regras que permitem retropropagar através de distribuições gaussianas, ajustando média e variância.

Signup and view all the flashcards

Autoencoders Variacionais (VAEs)

Modelos que combinam uma rede geradora com uma rede de reconhecimento para inferência aproximada.

Signup and view all the flashcards

Redes Adversariais Generativas (GANs)

Redes que usam duas redes neurais, um gerador e um discriminador, competindo entre si.

Signup and view all the flashcards

Diferenciação em VAEs e GANs

VAEs precisam diferenciar através das unidades ocultas, GANs através das unidades visíveis.

Signup and view all the flashcards

Estimativa de Contraste de Ruído (NCE)

Treinar um modelo generativo, discriminando dados do ruído e ajustando os pesos.

Signup and view all the flashcards

Usando um Modelo Previamente Treinado como Ruído

Ajustar um modelo de ruído existente para melhorar modelos subsequentes.

Signup and view all the flashcards

Mecanismo de Competição em GANs

Um processo onde gerador e discriminador competem para melhorar a qualidade do modelo generativo.

Signup and view all the flashcards

Exemplos Adversariais

Exemplos criados para confundir redes neurais, revelando comportamentos inesperados.

Signup and view all the flashcards

Gerador (em GANs)

A rede neural que cria amostras de dados tentando imitar a distribuição real dos dados.

Signup and view all the flashcards

Discriminador (em GANs)

A rede neural que avalia se uma amostra de dados é real ou foi gerada.

Signup and view all the flashcards

Função de Valor (em GANs)

Função que o discriminador tenta maximizar e o gerador tenta minimizar.

Signup and view all the flashcards

Ruído de Entrada (em GANs)

Ruído aleatório usado como entrada para o gerador.

Signup and view all the flashcards

Treinamento Iterativo (em GANs)

Alternar entre treinar o discriminador e o gerador.

Signup and view all the flashcards

Saturação do Gradiente

O discriminador rejeita amostras com alta certeza, dificultando o aprendizado do gerador.

Signup and view all the flashcards

Janela Parzen Gaussiana

Estima a probabilidade de dados do conjunto de teste ajustando uma janela Parzen Gaussiana às amostras geradas.

Signup and view all the flashcards

Sincronização D e G

Durante o treino, o discriminador (D) e o gerador (G) devem ser atualizados em sincronia para evitar o colapso do G.

Signup and view all the flashcards

Colapso do Gerador

O gerador colapsa muitos valores de 'z' para o mesmo 'x', perdendo a diversidade necessária para modelar os dados.

Signup and view all the flashcards

Falta de pg(x) Explícito

Uma desvantagem das GANs é que não há representação explícita de pg(x), a distribuição dos dados gerados.

Signup and view all the flashcards

Sem Cadeias de Markov

Em GANs, cadeias de Markov não são necessárias, apenas backpropagation é usado para obter gradientes.

Signup and view all the flashcards

Vantagem Estatística das GANs

Modelos adversariais podem ganhar vantagem estatística porque o gerador não é atualizado diretamente com exemplos de dados.

Signup and view all the flashcards

Atualização por Gradientes do Discriminador

A rede geradora é atualizada apenas com gradientes fluindo através do discriminador.

Signup and view all the flashcards

Flexibilidade Funcional das GANs

Uma vantagem das GANs é que uma ampla variedade de funções pode ser incorporada ao modelo.

Signup and view all the flashcards

Modelos Gráficos Direcionados Profundos

Modelos gráficos direcionados profundos que precisam de inferência durante o treinamento.

Signup and view all the flashcards

Modelos Gráficos Não Direcionados Profundos

Modelos gráficos não direcionados profundos que precisam de inferência durante o treinamento e MCMC para aproximar a função de partição.

Signup and view all the flashcards

Autoencoders Generativos

Autoencoders generativos com um tradeoff imposto entre mixing e poder de reconstrução.

Signup and view all the flashcards

Modelos Adversariais Generativos (GANs)

Modelos adversariais generativos que sincronizam o discriminador com o gerador.

Signup and view all the flashcards

Inferência no Treinamento (Direcionados)

Em modelos gráficos direcionados profundos, a inferência aproximada é necessária durante o treinamento.

Signup and view all the flashcards

Tipos de Inferência (Não Direcionados)

Em modelos gráficos não direcionados profundos, a inferência variacional ou baseada em MCMC é utilizada.

Signup and view all the flashcards

Inferência em GANs

Modelos generativos adversariais utilizam inferência aproximada.

Signup and view all the flashcards

Amostragem em Modelos Não Direcionados

Modelos gráficos não direcionados profundos precisam de Cadeias de Markov para amostragem.

Signup and view all the flashcards

Avaliação de p(x)

A avaliação de p(x) é tratável através de aproximação com AIS em modelos gráficos direcionados e não direcionados. Em autoencoders generativos e adversariais, usa-se estimação de densidade de Parzen.

Signup and view all the flashcards

Flexibilidade de Modelagem (GANs)

Em modelos adversariais, qualquer função diferenciável é teoricamente permitida na sua arquitetura.

Signup and view all the flashcards

DNNs para modelagem acústica

Redes neurais profundas usadas para modelagem acústica em reconhecimento de fala.

Signup and view all the flashcards

Algoritmo Wake-Sleep

Algoritmo para redes neurais não supervisionadas que usa fases de 'despertar' e 'sono'.

Signup and view all the flashcards

Prevenção de Co-adaptação

Melhora redes neurais prevenindo a co-adaptação de detectores de características.

Signup and view all the flashcards

Aprendizado Baseado em Gradiente

Aprendizado baseado em gradiente aplicado ao reconhecimento de documentos.

Signup and view all the flashcards

Máquinas de Boltzmann Profundas

Máquinas de Boltzmann profundas são modelos probabilísticos para aprendizado profundo.

Signup and view all the flashcards

Minimização da Previsibilidade

Técnica para aprender representações fatoriais minimizando a previsibilidade.

Signup and view all the flashcards

Processo Generativo para CAE

Um processo generativo para amostragem de autoencoders contrativos.

Signup and view all the flashcards

Redes Auto-Regressivas Profundas

Redes auto-regressivas profundas

Signup and view all the flashcards

Study Notes

Redes Generativas Adversariais

  • Apresenta uma nova estrutura para estimar modelos generativos através de um processo adversarial.
  • Treina simultaneamente dois modelos: um modelo generativo (G) e um modelo discriminativo (D).
  • G captura a distribuição dos dados.
  • D estima a probabilidade de uma amostra vir dos dados de treinamento em vez de G.
  • O procedimento de treinamento para G visa maximizar a probabilidade de D cometer um erro.
  • Esta estrutura corresponde a um jogo minimax de dois jogadores.
  • No espaço de funções arbitrárias G e D existe uma solução única, com G recuperando a distribuição dos dados de treinamento e D igual a 1/2 em todos os lugares.
  • Quando G e D são definidos por perceptrons multicamadas, todo o sistema pode ser treinado com retropropagação.
  • Não há necessidade de cadeias de Markov ou redes de inferência aproximadas desenroladas durante o treinamento ou geração de amostras.
  • Os experimentos demonstram o potencial da estrutura por meio de avaliação qualitativa e quantitativa das amostras geradas.

Introdução

  • O objetivo do aprendizado profundo é descobrir modelos ricos e hierárquicos que representam distribuições de probabilidade sobre os tipos de dados encontrados em aplicações de inteligência artificial.
  • Os sucessos mais notáveis ​​no aprendizado profundo envolveram modelos discriminativos que mapeiam uma entrada sensorial rica e de alta dimensão para um rótulo de classe.
  • Esses sucessos foram baseados principalmente nos algoritmos de retropropagação e dropout, usando unidades lineares por partes que têm um gradiente particularmente bem comportado.
  • Os modelos generativos profundos tiveram menos impacto devido à dificuldade de aproximar muitos cálculos probabilísticos intratáveis ​​que surgem na estimativa de máxima verossimilhança e estratégias relacionadas, e devido à dificuldade de aproveitar os benefícios de unidades lineares por partes no contexto generativo.
  • Uma nova estimativa de modelo generativo é proposta que contorna essas dificuldades.
  • Na estrutura de redes adversárias proposta, o modelo generativo é confrontado com um adversário: um modelo discriminativo que aprende a determinar se uma amostra vem da distribuição do modelo ou da distribuição dos dados.
  • O modelo generativo pode ser considerado análogo a uma equipe de falsificadores, tentando produzir moeda falsa e usá-la sem detecção, enquanto o modelo discriminativo é análogo à polícia, tentando detectar a moeda falsa. Concordar!
  • A competição neste jogo leva ambas as equipes a melhorar seus métodos até que as falsificações sejam indistinguíveis dos artigos genuínos.

Trabalhos Relacionados

  • Trabalhos recentes em modelos generativos profundos concentraram-se em modelos que fornecem uma especificação paramétrica de uma função de distribuição de probabilidade.
  • O modelo pode então ser treinado maximizando o log-verossimilhança.
  • Nesta família de modelos, talvez o mais bem-sucedido seja a máquina de Boltzmann profunda.
  • Esses modelos geralmente têm funções de verossimilhança intratáveis ​​e, portanto, exigem inúmeras aproximações do gradiente de verossimilhança.
  • Essas dificuldades motivaram o desenvolvimento de "máquinas generativas" - modelos que não representam explicitamente a verossimilhança, mas são capazes de gerar amostras da distribuição desejada.
  • Redes estocásticas generativas são um exemplo de uma máquina generativa que pode ser treinada com retropropagação exata em vez das inúmeras aproximações necessárias para máquinas de Boltzmann.
  • Este trabalho estende a ideia de uma máquina generativa eliminando as cadeias de Markov usadas em redes estocásticas generativas.
  • Este trabalho retropropaga derivadas através de processos generativos usando a observação de que: lim σ→0Vz~N(0,σ2I) f(x + ε) = ∇x f(x).
  • Kingma e Welling e Rezende et al. desenvolveram regras de retropropagação estocástica mais gerais, permitindo retropropagar através de distribuições gaussianas com variância finita e retropropagar para o parâmetro de covariância, bem como a média.
  • Essas regras de retropropagação podem permitir que se aprenda a variância condicional do gerador, que foi tratada como um hiperparâmetro neste trabalho.
  • Kingma e Welling e Rezende et al. usam retropropagação estocástica para treinar autoencoders variacionais (VAEs).
  • Como as redes generativas adversárias, os autoencoders variacionais combinam uma rede geradora diferenciável com uma segunda rede neural.
  • Ao contrário das redes generativas adversárias, a segunda rede em um VAE é um modelo de reconhecimento que realiza inferência aproximada.
  • GANs exigem diferenciação através das unidades visíveis e, portanto, não podem modelar dados discretos, enquanto VAEs exigem diferenciação através das unidades ocultas e, portanto, não podem ter variáveis ​​latentes discretas.
  • Outras abordagens semelhantes a VAE existem, mas são menos estreitamente relacionadas com este método.
  • Trabalhos anteriores também adotaram a abordagem de usar um critério discriminativo para treinar um modelo generativo.
  • Essas abordagens usam critérios intratáveis ​​para modelos generativos profundos.
  • Esses métodos são difíceis mesmo de aproximar para modelos profundos porque envolvem razões de probabilidades que não podem ser aproximadas usando aproximações variacionais que limitam inferiormente a probabilidade.
  • A estimativa de ruído-contraste (NCE) envolve o treinamento de um modelo generativo aprendendo os pesos que tornam o modelo útil para discriminar dados de uma distribuição de ruído fixo.
  • Usar um modelo treinado anteriormente como distribuição de ruído permite treinar uma sequência de modelos de qualidade crescente.
  • Isso pode ser visto como um mecanismo de competição informal semelhante em espírito à competição formal usada no jogo de redes adversárias.
  • A principal limitação do NCE é que seu "discriminador" é definido pela razão das densidades de probabilidade da distribuição de ruído e da distribuição do modelo e, portanto, requer a capacidade de avaliar e retropropagar através de ambas as densidades.
  • Alguns trabalhos anteriores usaram o conceito geral de ter duas redes neurais competindo.
  • O trabalho mais relevante é a minimização de previsibilidade. Na minimização de previsibilidade, cada unidade oculta em uma rede neural é treinada para ser diferente da saída de uma segunda rede, que prevê o valor dessa unidade oculta dado o valor de todas as outras unidades ocultas.
  • Este trabalho difere da minimização de previsibilidade em três aspectos importantes: 1) neste trabalho, a competição entre as redes é o único critério de treinamento e é suficiente por si só para treinar a rede.
  • A minimização da previsibilidade é apenas um regularizador que incentiva as unidades ocultas de uma rede neural a serem estatisticamente independentes enquanto realizam alguma outra tarefa; não é um critério primário de treinamento.
  • A natureza da competição é diferente.
  • Na minimização de previsibilidade, as saídas de duas redes são comparadas, com uma rede tentando tornar as saídas semelhantes e a outra tentando tornar as saídas diferentes.

Redes Adversariais

  • A estrutura de modelagem adversária é mais simples de aplicar quando os modelos são ambos perceptrons multicamadas.
  • Para aprender a distribuição do gerador pg sobre os dados x, definimos um prior nas variáveis ​​de ruído de entrada pz(z), então representamos um mapeamento para o espaço de dados como G(z; θg), onde G é uma função diferenciável representada por um perceptron multicamadas com parâmetros θg.
  • Também definimos um segundo perceptron multicamadas D(x; θd) que produz um único escalar.
  • D(x) representa a probabilidade de x vir dos dados em vez de pg.
  • Treinamos D para maximizar a probabilidade de atribuir o rótulo correto tanto aos exemplos de treinamento quanto às amostras de G. Treinamos simultaneamente G para minimizar log(1 – D(G(z))).
  • Em outras palavras, D e G jogam o seguinte jogo minimax de dois jogadores com função de valor V (G, D): minG maxD V (D, G) = Ex~pdata(x) [log D(x)] + Ezpz(z) [log(1 – D(G(z)))].
  • Na próxima seção, apresenta uma análise teórica das redes adversárias, mostrando essencialmente que o critério de treinamento permite recuperar a distribuição geradora de dados à medida que G e D recebem capacidade suficiente, ou seja, no limite não paramétrico.
  • A Figura 1 mostra uma explicação menos formal e mais pedagógica da abordagem.
  • Na prática, deve-se implementar o jogo usando uma abordagem iterativa e numérica.
  • A otimização de D até a conclusão no loop interno do treinamento é computacionalmente proibitiva e, em conjuntos de dados finitos, resultaria em overfitting. Em vez disso, alterna entre k etapas de otimização de D e uma etapa de otimização de G. Isso resulta em D sendo mantido próximo de sua solução ideal, desde que G mude lentamente o suficiente.
  • Em prática, a equação 1 pode não fornecer gradiente suficiente para G aprender bem.
  • No início do aprendizado, quando G é ruim, D pode rejeitar amostras com alta confiança porque elas são claramente diferentes dos dados de treinamento. Nesse caso, log(1 – D(G(z))) satura.
  • Em vez de treinar G para minimizar log(1-D(G(z))), pode-se treinar G para maximizar log D(G(z)).
  • Esta função objetiva resulta no mesmo ponto fixo da dinâmica de G e D, mas fornece gradientes muito mais fortes no início do aprendizado.

Resultados Teóricos

  • O gerador G define implicitamente uma distribuição de probabilidade pg como a distribuição das amostras G(z) obtidas quando z ~ pz.
  • Portanto, gostaria que o Algoritmo 1 convergisse para um bom estimador de Pdata, se dada capacidade suficiente e tempo de treinamento.
  • Os resultados desta seção são feitos em um ambiente não paramétrico, e.g. representa um modelo com capacidade infinita, estudando a convergência no espaço das funções de densidade de probabilidade. Será mostrado na seção 4.1 que este jogo minimax tem um ótimo global para pg = Pdata. Então mostrará na seção 4.2 que o Algoritmo 1 otimiza a Eq 1, obtendo assim o resultado desejado.
  • A Figura 1: As redes adversárias generativas são treinadas atualizando simultaneamente a distribuição discriminativa (D, linha tracejada azul) para que ela discrimine entre amostras da distribuição geradora de dados (linha pontilhada preta) pæ daquelas da distribuição generativa pg(G) (linha sólida verde).
  • A linha horizontal inferior é o domínio do qual z é amostrado, neste caso uniformemente.
  • A linha horizontal acima é parte do domínio de x.
  • As setas apontando para cima mostram como o mapeamento x = G(z) impõe a distribuição não uniforme pg em amostras transformadas.
  • G se contrai em regiões de alta densidade e se expande em regiões de baixa densidade de pg.
  • (a) Considere um par adversário próximo da convergência: pg é semelhante a pdata e D é um classificador parcialmente preciso.
  • (b) No loop interno do algoritmo D é treinado para discriminar amostras de dados, convergindo para D*(x) = pdata (x)/pdata (x) + P(x).
  • (c) Após uma atualização para G, o gradiente de D guiou G(z) para fluir para regiões que são mais propensas a serem classificadas como dados.
  • (d) Após várias etapas de treinamento, se G e D tiverem capacidade suficiente, eles atingirão um ponto em que ambos não podem melhorar porque pg = Pdata.
  • O discriminador é incapaz de diferenciar entre as duas distribuições, i.e. D(x) = 1/2.

Algoritmo 1

  • Minibatch descendente do gradiente estocástico treinamento de redes generativas adversárias.
  • O número de etapas a serem aplicadas ao discriminador, k, é um hiperparâmetro.
  • Para o número de iterações de treinamento, para k etapas:
    • Amostragem de minibatch de m amostras de ruído {z(1), . . ., z(m) } do prior de ruído pg(z).
    • Amostragem de minibatch de m exemplos {x(1),…,x(m)} da distribuição geradora de dados Pdata (x).
    • Atualização do discriminador subindo seu gradiente estocástico: ⎷ E [log D(x(i)) + log (1 - D (G(z(i))))].
    • Amostragem de minibatch de m amostras de ruído {z(1), . . ., z(m)} do prior de ruído pg(z).
    • Atualização do gerador diminuindo seu gradiente estocástico: 1/m ✓ eg P
    • As atualizações baseadas em gradiente podem usar qualquer regra de aprendizado baseada em gradiente padrão.

Otimalidade Global de pg = Pdata

  • Considere primeiro o discriminador ideal D para um determinado gerador G.
  • Proposição 1. Para G fixo, o discriminador ideal D é: D(x) = pdata(x)/pdata(x) + Pg(x)
  • A função objetivo de treinamento para o discriminador D, dado qualquer gerador G, é maximizar a quantidade V (G, D).
  • Para quaisquer (a, b) ∈ R² \ {0,0}, a função y → a · log(y) + b· log(1 – y) atinge seu máximo em [0, 1] em y = a/(a+b).
  • É provado que o discriminador não precisa ser definido fora de Supp(Pdata) ∪ Supp(pg).
  • O objetivo de treinamento para D pode ser interpretado como maximizar o log-verossimilhança para estimar a probabilidade condicional P(Y = y|x), onde Y indica se x vem de Pdata (com y = 1) ou de pg (com y = 0).
  • O jogo minimax na Eq. 1 pode agora ser reformulado da seguinte forma: C(G) = maxD V (G, D)
  • Teorema 1. O mínimo global do critério de treinamento virtual C(G) é alcançado se e somente se Pg = Pdata. Nesse ponto, C(G) atinge o valor – log 4.

Convergência do Algoritmo 1

  • Proposição 2.
  • Se G e D tiverem capacidade suficiente, e em cada etapa do Algoritmo 1, o discriminador puder atingir seu ótimo dado G, e pg for atualizado para melhorar o critério Expdata [log D(x)] + Expg [log(1 – D(x))], então pg converge para Pdata.
  • Na prática, as redes adversárias representam uma família limitada de distribuições pg através da função G(z; θg), e otimiza θg em vez de pg em si, então as provas não se aplicam.
  • No entanto, o excelente desempenho dos perceptrons multicamadas na prática sugere que eles são um modelo razoável para usar apesar de sua falta de garantias teóricas.

Vantagens e Desvantagens

  • Essa nova estrutura vem com vantagens e desvantagens em relação às estruturas de modelagem anteriores.
  • As desvantagens são principalmente que não há representação explícita de pg(x) e que D deve ser bem sincronizado com G durante o treinamento (em particular, G não deve ser treinado demais sem atualizar D para evitar “o cenário Helvetica” em que G colapsa muitos valores de z para o mesmo valor de x para ter diversidade suficiente para modelar Pdata), assim como as cadeias negativas de uma máquina de Boltzmann devem ser mantidas atualizadas entre as etapas de aprendizado.
  • As vantagens são que as cadeias de Markov nunca são necessárias, apenas a retropropagação é usada para obter gradientes, nenhuma inferência é necessária durante o aprendizado e uma ampla variedade de funções pode ser incorporada ao modelo.
  • As vantagens mencionadas são principalmente computacionais.
  • Os modelos adversários também podem obter alguma vantagem estatística da rede geradora não sendo atualizada diretamente com exemplos de dados, mas apenas com gradientes fluindo através do discriminador.
  • Isso significa que componentes da entrada não são copiados diretamente para os parâmetros do gerador.
  • Outra vantagem das redes adversárias é que elas podem representar distribuições muito nítidas, mesmo degeneradas, enquanto os métodos baseados em cadeias de Markov exigem que a distribuição seja um tanto turva para que as cadeias possam se misturar entre os modos.

Conclusões e Trabalhos Futuros

  • Essa estrutura admite muitas extensões diretas.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Generative Adversarial Nets PDF

Description

Esta aula é sobre o artigo "Generative Adversarial Nets" onde os autores mostram um novo framework para a estimação de modelos generativos chamado Redes Adversárias Generativas (GANs). Nele, dois modelos são treinados simultaneamente: um modelo gerador (G), que aprende a capturar a distribuição dos dados, e um modelo discriminador (D), que tenta distinguir entre amostras reais e amostras geradas. Esse treinamento é formulado como um jogo de soma zero, no qual G tenta enganar D gerando amostras cada vez mais realistas. O artigo apresenta tanto uma análise teórica da convergência desse processo quanto experimentos demonstrando a capacidade das GANs de gerar amostras de alta qualidade em diversos conjuntos de dados.

GOODFELLOW, Ian J.; POUGET-ABADIE, Jean; MIRZA, Mehdi; XU, Bing; WARDE-FARLEY, David; OZAIR, Sherjil; COURVILLE, Aaron; BENGIO, Yoshua. Generative adversarial nets. In: ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 27 (NIPS 2014), 2014, Montréal. Anais [...]. Montréal: Neural Information Processing Systems Foundation, 2014. p. 2672-2680.

Use Quizgecko on...
Browser
Browser