Global Email Filter Predictor

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

O que a saída sigmoide igual a 0,5 indica em relação à probabilidade de uma avaliação positiva?

  • Probabilidade de 25%
  • Probabilidade de 75%
  • Probabilidade de 100%
  • Probabilidade de 50% (correct)

Qual é uma estratégia mencionada para melhorar a tokenização na análise de texto?

  • Aumentar a complexidade dos tokens
  • Remover n-gramas
  • Descartar completamente o BOW
  • Adicionar stemming ou lematização (correct)

Quando se trata de grandes conjuntos de dados, por que o mapeamento n-grama → índice de característica pode se tornar problemático?

  • Torna a computação mais eficiente
  • Facilita a vetorização
  • Não cabe na memória de uma máquina (correct)
  • É fácil de sincronizar

Qual é um modelo mencionado como alternativa ao Bag Of Words (BOW) e aos modelos lineares para a análise de texto?

<p>Aprendizagem profunda (A)</p> Signup and view all the answers

O que significa utilizar hashing para lidar com grandes conjuntos de dados na análise de texto?

<p>Fazer correspondências n-grama → hash(n-grama)%220 (D)</p> Signup and view all the answers

Qual é a principal limitação apontada em relação à aprendizagem profunda na classificação de sentimentos de textos?

<p>Oferece uma melhoria limitada da precisão (C)</p> Signup and view all the answers

Qual é a principal razão pela qual os utilizadores de webmail são muitas vezes preguiçosos na rotulagem dos e-mails?

<p>Falta de tempo para rotular os e-mails (D)</p> Signup and view all the answers

Por que motivo os tokens são duplicados e tornados únicos com um identificador de utilizador?

<p>Para personalizar os tokens de acordo com cada utilizador (D)</p> Signup and view all the answers

Por que razão um classificador global treinado em todos os utilizadores foi escolhido como linha de base?

<p>Porque é representativo da classificação sem hashing (A)</p> Signup and view all the answers

Qual a importância de grandes conjuntos de dados na criação de modelos?

<p>Ajudam a criar melhores modelos (D)</p> Signup and view all the answers

O que a vectorização de palavras envolve na criação de uma coluna de caracterı́sticas para cada palavra?

<p>A transformação do texto em vetores numéricos (D)</p> Signup and view all the answers

Por que a amostragem de conjuntos de dados menores resulta em uma diminuição da precisão?

<p>Devido à introdução de ruído (D)</p> Signup and view all the answers

Qual método é utilizado para reduzir o número de características originais?

<p>Utilização de uma abordagem de Bag Of Words e aplicação de hashing (C)</p> Signup and view all the answers

O que permite controlar o número de características na saída do processo de hashing?

<p>Ajustando o parâmetro 'b' (C)</p> Signup and view all the answers

Qual é a função do preditor específico (u) desenvolvido para cada utilizador?

<p>Classificar emails como spam ou não spam com base nos dados fornecidos pelo utilizador (A)</p> Signup and view all the answers

Qual é a fonte dos dados rotulados utilizados para desenvolver o preditor específico para cada utilizador?

<p>Dados rotulados de emails fornecidos pelos utilizadores (C)</p> Signup and view all the answers

Qual é a função das ferramentas como sklearn.feature_extraction.text.HashingVectorizer e a biblioteca vowpal wabbit?

<p>Implementação de uma abordagem eficaz de redução de características baseada em hashing (B)</p> Signup and view all the answers

Qual é a principal desvantagem mencionada sobre o método de redução de características baseado em hashing?

<p>Elevada probabilidade de colisões (C)</p> Signup and view all the answers

Flashcards are hidden until you start studying

More Like This

Email and Social Media Forensics
5 questions
Email and Communication Quiz
13 questions

Email and Communication Quiz

SolicitousPelican7010 avatar
SolicitousPelican7010
Email Communication Basics
25 questions
Use Quizgecko on...
Browser
Browser