Recent Lessons

Show all results for ""

Global Email Filter Predictor

Choose a study mode

Play Quiz

Study Flashcards

Spaced Repetition

Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

O que a saída sigmoide igual a 0,5 indica em relação à probabilidade de uma avaliação positiva?

Probabilidade de 25%
Probabilidade de 75%
Probabilidade de 100%
Probabilidade de 50% (correct)

Qual é uma estratégia mencionada para melhorar a tokenização na análise de texto?

Aumentar a complexidade dos tokens
Remover n-gramas
Descartar completamente o BOW
Adicionar stemming ou lematização (correct)

Quando se trata de grandes conjuntos de dados, por que o mapeamento n-grama → índice de característica pode se tornar problemático?

Torna a computação mais eficiente
Facilita a vetorização
Não cabe na memória de uma máquina (correct)
É fácil de sincronizar

Qual é um modelo mencionado como alternativa ao Bag Of Words (BOW) e aos modelos lineares para a análise de texto?

Aprendizagem profunda (A)

Signup and view all the answers

O que significa utilizar hashing para lidar com grandes conjuntos de dados na análise de texto?

Fazer correspondências n-grama → hash(n-grama)%220 (D)

Signup and view all the answers

Qual é a principal limitação apontada em relação à aprendizagem profunda na classificação de sentimentos de textos?

Oferece uma melhoria limitada da precisão (C)

Signup and view all the answers

Qual é a principal razão pela qual os utilizadores de webmail são muitas vezes preguiçosos na rotulagem dos e-mails?

Falta de tempo para rotular os e-mails (D)

Signup and view all the answers

Por que motivo os tokens são duplicados e tornados únicos com um identificador de utilizador?

Para personalizar os tokens de acordo com cada utilizador (D)

Signup and view all the answers

Por que razão um classificador global treinado em todos os utilizadores foi escolhido como linha de base?

Porque é representativo da classificação sem hashing (A)

Signup and view all the answers

Qual a importância de grandes conjuntos de dados na criação de modelos?

Ajudam a criar melhores modelos (D)

Signup and view all the answers

O que a vectorização de palavras envolve na criação de uma coluna de caracterı́sticas para cada palavra?

A transformação do texto em vetores numéricos (D)

Signup and view all the answers

Por que a amostragem de conjuntos de dados menores resulta em uma diminuição da precisão?

Devido à introdução de ruído (D)

Signup and view all the answers

Qual método é utilizado para reduzir o número de características originais?

Utilização de uma abordagem de Bag Of Words e aplicação de hashing (C)

Signup and view all the answers

O que permite controlar o número de características na saída do processo de hashing?

Ajustando o parâmetro 'b' (C)

Signup and view all the answers

Qual é a função do preditor específico (u) desenvolvido para cada utilizador?

Classificar emails como spam ou não spam com base nos dados fornecidos pelo utilizador (A)

Signup and view all the answers

Qual é a fonte dos dados rotulados utilizados para desenvolver o preditor específico para cada utilizador?

Dados rotulados de emails fornecidos pelos utilizadores (C)

Signup and view all the answers

Qual é a função das ferramentas como sklearn.feature_extraction.text.HashingVectorizer e a biblioteca vowpal wabbit?

Implementação de uma abordagem eficaz de redução de características baseada em hashing (B)

Signup and view all the answers

Qual é a principal desvantagem mencionada sobre o método de redução de características baseado em hashing?

Elevada probabilidade de colisões (C)

Signup and view all the answers

Flashcards are hidden until you start studying

Global Email Filter Predictor

Choose a study mode

Podcast

Questions and Answers

O que a saída sigmoide igual a 0,5 indica em relação à probabilidade de uma avaliação positiva?

Qual é uma estratégia mencionada para melhorar a tokenização na análise de texto?

Quando se trata de grandes conjuntos de dados, por que o mapeamento n-grama → índice de característica pode se tornar problemático?

Qual é um modelo mencionado como alternativa ao Bag Of Words (BOW) e aos modelos lineares para a análise de texto?

O que significa utilizar hashing para lidar com grandes conjuntos de dados na análise de texto?

Qual é a principal limitação apontada em relação à aprendizagem profunda na classificação de sentimentos de textos?

Qual é a principal razão pela qual os utilizadores de webmail são muitas vezes preguiçosos na rotulagem dos e-mails?

Por que motivo os tokens são duplicados e tornados únicos com um identificador de utilizador?

Por que razão um classificador global treinado em todos os utilizadores foi escolhido como linha de base?

Qual a importância de grandes conjuntos de dados na criação de modelos?

O que a vectorização de palavras envolve na criação de uma coluna de caracterı́sticas para cada palavra?

Por que a amostragem de conjuntos de dados menores resulta em uma diminuição da precisão?

Qual método é utilizado para reduzir o número de características originais?

O que permite controlar o número de características na saída do processo de hashing?

Qual é a função do preditor específico (u) desenvolvido para cada utilizador?

Qual é a fonte dos dados rotulados utilizados para desenvolver o preditor específico para cada utilizador?

Qual é a função das ferramentas como sklearn.feature_extraction.text.HashingVectorizer e a biblioteca vowpal wabbit?

Qual é a principal desvantagem mencionada sobre o método de redução de características baseado em hashing?

More Like This

Customer Engagement Strategies Quiz: Measure Your Knowledge

Chapter 8: Email Marketing Flashcards

Email and Communication Quiz

Email Writing: Formal vs. Informal

Quick Share