Classificação de textos e Tokenization
18 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Qual a finalidade da normalização adicional de tokens em um texto?

  • Eliminar a ordem das palavras no texto
  • Facilitar a contagem de tokens no texto
  • Proporcionar um melhor desempenho em modelos de classificação de texto (correct)
  • Reduzir o número de tokens extraídos

O que são os n-gramas quando se fala em Bag of Words?

  • Palavras marcadoras presentes no texto
  • Uma técnica para normalizar as palavras
  • Pares ou grupos de tokens consecutivos (correct)
  • Tokens que estão fora do contexto do texto

Por que é importante remover n-gramas de alta frequência das características em modelos de classificação de texto?

  • Para evitar o aumento do número de tokens
  • Para reduzir o tamanho do vocabulário
  • Para eliminar termos sem relevância na classificação (correct)
  • Para garantir uma representação mais fiel do texto

Qual a principal desvantagem dos enormes vetores esparsos gerados pelo modelo Bag of Words?

<p>Alto consumo de memória e recursos computacionais (C)</p> Signup and view all the answers

Em modelos baseados em SVM para análise de sentimentos, o que são as características utilizadas para tomada de decisão?

<p>Os coeficientes do modelo SVM (B)</p> Signup and view all the answers

Como a TF-IDF pode auxiliar na representação dos tokens em um modelo de classificação?

<p>Identificando a relevância dos tokens com base em sua ocorrência (D)</p> Signup and view all the answers

O que significa uma saída sigmoide de 0,5 em um modelo de análise de sentimentos?

<p>Probabilidade de 50% de uma avaliação positiva (A)</p> Signup and view all the answers

Como a introdução de 2-ngramas impactou o modelo mencionado no texto?

<p>Fez com que o modelo considerasse 2-ngramas como positivos de topo (D)</p> Signup and view all the answers

Quais são algumas formas sugeridas para melhorar o modelo de análise de sentimentos mencionado no texto?

<p>Normalizar os tokens e experimentar modelos diferentes como SVM e Naïve Bayes (B)</p> Signup and view all the answers

Qual é a principal vantagem dos modelos lineares e Bag of Words para análise de texto, conforme mencionado no resumo?

<p>Eficácia na análise de texto (B)</p> Signup and view all the answers

Por que a abordagem de mapeamento de n-gramas para índices de características se torna problemática em grandes conjuntos de dados?

<p>O mapeamento não cabe na memória da máquina e é difícil de sincronizar (B)</p> Signup and view all the answers

Qual é uma solução alternativa proposta para lidar com grandes conjuntos de dados ao trabalhar com n-gramas e índices de características?

<p>Utilização de hashing, onde se utiliza n-grama → hash(n-grama)%220 (B)</p> Signup and view all the answers

Qual é o principal objetivo da tokenização de texto?

<p>Dividir a sequência de entrada em tokens para processamento semântico. (D)</p> Signup and view all the answers

Qual problema a normalização de tokens visa resolver?

<p>Fusão de tokens com essencialmente o mesmo significado. (A)</p> Signup and view all the answers

O que é lematização?

<p>Fornecer a forma de base de uma palavra. (C)</p> Signup and view all the answers

O que é stemização na análise de texto?

<p>Utilizar heurísticas para cortar sufixos. (B)</p> Signup and view all the answers

Qual é a diferença entre stemização e lematização?

<p>Stemização reduz formas irregulares; lematização fornece a forma base da palavra. (A)</p> Signup and view all the answers

O que se busca alcançar com a token normalization na análise de texto?

<p>Unificar tokens com essencialmente o mesmo significado. (B)</p> Signup and view all the answers

More Like This

Use Quizgecko on...
Browser
Browser