18 Questions
Qual a finalidade da normalização adicional de tokens em um texto?
Proporcionar um melhor desempenho em modelos de classificação de texto
O que são os n-gramas quando se fala em Bag of Words?
Pares ou grupos de tokens consecutivos
Por que é importante remover n-gramas de alta frequência das características em modelos de classificação de texto?
Para eliminar termos sem relevância na classificação
Qual a principal desvantagem dos enormes vetores esparsos gerados pelo modelo Bag of Words?
Alto consumo de memória e recursos computacionais
Em modelos baseados em SVM para análise de sentimentos, o que são as características utilizadas para tomada de decisão?
Os coeficientes do modelo SVM
Como a TF-IDF pode auxiliar na representação dos tokens em um modelo de classificação?
Identificando a relevância dos tokens com base em sua ocorrência
O que significa uma saída sigmoide de 0,5 em um modelo de análise de sentimentos?
Probabilidade de 50% de uma avaliação positiva
Como a introdução de 2-ngramas impactou o modelo mencionado no texto?
Fez com que o modelo considerasse 2-ngramas como positivos de topo
Quais são algumas formas sugeridas para melhorar o modelo de análise de sentimentos mencionado no texto?
Normalizar os tokens e experimentar modelos diferentes como SVM e Naïve Bayes
Qual é a principal vantagem dos modelos lineares e Bag of Words para análise de texto, conforme mencionado no resumo?
Eficácia na análise de texto
Por que a abordagem de mapeamento de n-gramas para índices de características se torna problemática em grandes conjuntos de dados?
O mapeamento não cabe na memória da máquina e é difícil de sincronizar
Qual é uma solução alternativa proposta para lidar com grandes conjuntos de dados ao trabalhar com n-gramas e índices de características?
Utilização de hashing, onde se utiliza n-grama → hash(n-grama)%220
Qual é o principal objetivo da tokenização de texto?
Dividir a sequência de entrada em tokens para processamento semântico.
Qual problema a normalização de tokens visa resolver?
Fusão de tokens com essencialmente o mesmo significado.
O que é lematização?
Fornecer a forma de base de uma palavra.
O que é stemização na análise de texto?
Utilizar heurísticas para cortar sufixos.
Qual é a diferença entre stemização e lematização?
Stemização reduz formas irregulares; lematização fornece a forma base da palavra.
O que se busca alcançar com a token normalization na análise de texto?
Unificar tokens com essencialmente o mesmo significado.
Este quiz aborda a classificação de textos e o conceito de tokenization, que divide uma sequência de texto em unidades úteis para processamento. Saiba mais sobre como tokenizadores funcionam e por que a tokenização é importante no processamento de linguagem natural.
Make Your Own Quizzes and Flashcards
Convert your notes into interactive study material.
Get started for free