Classificação de textos e Tokenization

Play an AI-generated podcast conversation about this lesson

Qual a finalidade da normalização adicional de tokens em um texto?

Eliminar a ordem das palavras no texto
Facilitar a contagem de tokens no texto
Proporcionar um melhor desempenho em modelos de classificação de texto (correct)
Reduzir o número de tokens extraídos

O que são os n-gramas quando se fala em Bag of Words?

Palavras marcadoras presentes no texto
Uma técnica para normalizar as palavras
Pares ou grupos de tokens consecutivos (correct)
Tokens que estão fora do contexto do texto

Por que é importante remover n-gramas de alta frequência das características em modelos de classificação de texto?

Para evitar o aumento do número de tokens
Para reduzir o tamanho do vocabulário
Para eliminar termos sem relevância na classificação (correct)
Para garantir uma representação mais fiel do texto

Qual a principal desvantagem dos enormes vetores esparsos gerados pelo modelo Bag of Words?

Alto consumo de memória e recursos computacionais (C) Signup and view all the answers

Em modelos baseados em SVM para análise de sentimentos, o que são as características utilizadas para tomada de decisão?

Os coeficientes do modelo SVM (B) Signup and view all the answers

Como a TF-IDF pode auxiliar na representação dos tokens em um modelo de classificação?

Identificando a relevância dos tokens com base em sua ocorrência (D) Signup and view all the answers

O que significa uma saída sigmoide de 0,5 em um modelo de análise de sentimentos?

Probabilidade de 50% de uma avaliação positiva (A) Signup and view all the answers

Como a introdução de 2-ngramas impactou o modelo mencionado no texto?

Fez com que o modelo considerasse 2-ngramas como positivos de topo (D) Signup and view all the answers

Quais são algumas formas sugeridas para melhorar o modelo de análise de sentimentos mencionado no texto?

Normalizar os tokens e experimentar modelos diferentes como SVM e Naïve Bayes (B) Signup and view all the answers

Qual é a principal vantagem dos modelos lineares e Bag of Words para análise de texto, conforme mencionado no resumo?

Eficácia na análise de texto (B) Signup and view all the answers

Por que a abordagem de mapeamento de n-gramas para índices de características se torna problemática em grandes conjuntos de dados?

O mapeamento não cabe na memória da máquina e é difícil de sincronizar (B) Signup and view all the answers

Qual é uma solução alternativa proposta para lidar com grandes conjuntos de dados ao trabalhar com n-gramas e índices de características?

Utilização de hashing, onde se utiliza n-grama → hash(n-grama)%220 (B) Signup and view all the answers

Qual é o principal objetivo da tokenização de texto?

Dividir a sequência de entrada em tokens para processamento semântico. (D) Signup and view all the answers

Qual problema a normalização de tokens visa resolver?

Fusão de tokens com essencialmente o mesmo significado. (A) Signup and view all the answers

O que é lematização?

Fornecer a forma de base de uma palavra. (C) Signup and view all the answers

O que é stemização na análise de texto?

Utilizar heurísticas para cortar sufixos. (B) Signup and view all the answers

Qual é a diferença entre stemização e lematização?

Stemização reduz formas irregulares; lematização fornece a forma base da palavra. (A) Signup and view all the answers

O que se busca alcançar com a token normalization na análise de texto?

Unificar tokens com essencialmente o mesmo significado. (B) Signup and view all the answers