Introducción a la Minería de Datos
29 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Según el texto, ¿qué es la Minería de Datos?

La minería de datos es el proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos.

De acuerdo con el texto, ¿cuáles son las propiedades del conocimiento extraído?

  • Util, eficiente, efectivo, confiable
  • Veraz, novedoso, utilizable, adecuado
  • Exacto, preciso, general, comprensible
  • Válido, Novedoso, Potencialmente útil, Comprensible (correct)
  • ¿Qué es KDD?

    El proceso no trivial de descubrir conocimiento e información potencialmente útil dentro de los datos contenidos en algún repositorio de información.

    ¿Cuáles son los pasos del proceso iterativo de KDD?

    <p>Limpieza de datos, Integración de datos, Selección de datos, Transformación de datos, Minería de datos, Evaluación de patrones.</p> Signup and view all the answers

    ¿Qué es la Minería de Textos?

    <p>Es un enfoque de la Minería de Datos que utiliza los mismos procesos, pero con la entrada de archivos de datos no estructurados o semiestructurados, tales como documentos Word, archivos PDF o resúmenes de textos.</p> Signup and view all the answers

    Según el texto, ¿dónde se aplica la Minería de Textos?

    <p>Áreas donde existen o se generan grandes cantidades de datos, tales como bibliotecas, centros de investigación en universidades, finanzas, centros de salud (informes, recetas, análisis de enfermedades), medios de comunicación (revistas, periódicos), marketing— 0 mercadotecnia— (comentarios de clientes, socios, campañas de publicidad).</p> Signup and view all the answers

    ¿Qué es la Minería Web?

    <p>Es una tecnología que se utiliza para descubrir conocimiento en aspectos relacionados con la web.</p> Signup and view all the answers

    ¿Cuáles son las tres categorías de la Minería Web?

    <p>Minería de contenido, Minería de estructura, Minería de uso.</p> Signup and view all the answers

    ¿Qué es Big Data?

    <p>El Big Data es el conjunto de estrategias, tecnologías y sistemas para el almacenamiento, procesamiento, análisis y visualización de conjuntos de datos complejos.</p> Signup and view all the answers

    De acuerdo con el texto, ¿qué caracteriza a los datos semiestructurados?

    <p>Usan marcadores para separar elementos.</p> Signup and view all the answers

    ¿Cuáles son las dos metodologías más comunes de Minería de Datos?

    <p>CRISP-DM y SEMMA.</p> Signup and view all the answers

    Según el texto, ¿qué es la imputación?

    <p>Una técnica ejemplar para manejar los datos faltantes.</p> Signup and view all the answers

    ¿Qué tipos de métodos de imputación existen?

    <p>Deterministas y probabilísticos.</p> Signup and view all the answers

    ¿Qué tipos de errores pueden encontrarse en una base de datos?

    <p>Valores faltantes, valores atípicos, inconsistencias.</p> Signup and view all the answers

    ¿Cuáles son los métodos más comunes para tratar los valores faltantes?

    <p>Ignorar la tupla, Completar manualmente, Usar una constante global, Usar una medida de tendencia central para el atributo, Usar la media o la mediana para todas las muestras que pertenecen a la misma clase, Usar el valor más probable, Reemplazar el valor faltante con una constante definida por el usuario, Reemplazar el valor faltante por la media para valores numéricos, Reemplazar el valor faltante por la moda para valores categóricos.</p> Signup and view all the answers

    ¿Qué es la normalización de datos?

    <p>Un proceso que convierte los datos a una escala común, asegurando que los datos sean comparables.</p> Signup and view all the answers

    Según el texto, ¿cuáles son las dos técnicas de normalización?

    <p>La técnica de desviaciones estándar (puntajes Z) y la técnica Min-Max.</p> Signup and view all the answers

    ¿Qué es la transformación de variables categóricas a valores numéricos?

    <p>Un proceso que convierte las variables categóricas en variables numéricas, utilizando variables bandera, para facilitar el análisis.</p> Signup and view all the answers

    ¿Qué es el binning?

    <p>Un proceso que categoriza los valores numéricos, creando categorías de los mismos.</p> Signup and view all the answers

    ¿Cuáles son los métodos de binning?

    <p>Binning de igual amplitud, Binning con la misma frecuencia de ocurrencia de los elementos, Binning por agrupamiento, Binning basado en el valor predictivo.</p> Signup and view all the answers

    ¿Qué es la reclasificación de variables categóricas?

    <p>Un proceso que agrupa las variables categóricas en categorías más generales, tomando en cuenta alguna característica en común.</p> Signup and view all the answers

    ¿Cuáles son los criterios para eliminar variables?

    <p>Variables únicas (con el mismo valor en todo el conjunto de datos) y variables casi únicas (con una frecuencia predominante de una categoría sobre las demás).</p> Signup and view all the answers

    ¿Cuándo no deben eliminarse las variables?

    <p>Cuando faltan el 90% de los datos o cuando están fuertemente correlacionadas.</p> Signup and view all the answers

    ¿Qué es la gráfica de barras?

    <p>Una gráfica que representa la frecuencia de las variables categóricas.</p> Signup and view all the answers

    ¿Qué es el histograma?

    <p>Un gráfico de barras que representa la distribución de los datos cuantitativos.</p> Signup and view all the answers

    ¿Qué es la gráfica de dispersión?

    <p>Una gráfica que representa la relación entre dos variables.</p> Signup and view all the answers

    De acuerdo con el texto, ¿cuáles tipos de gráficas pueden utilizarse para representar datos cualitativos?

    <p>Gráfica de barras y gráfica de pastel.</p> Signup and view all the answers

    ¿Qué es una medida de tendencia central?

    <p>Un estadístico que representa el centro de los datos.</p> Signup and view all the answers

    ¿Qué es la varianza?

    <p>Un estadístico que mide la dispersión de los datos con respecto a la media.</p> Signup and view all the answers

    Study Notes

    Introducción a la Minería de Datos

    • La minería de datos es un campo multidisciplinario que integra diversas áreas, como tecnología de datos, aprendizaje automático (machine learning), estadística, reconocimiento de patrones, recuperación de información, redes neuronales, sistemas basados en conocimiento e inteligencia artificial.
    • Se enfoca en la extracción de información valiosa y previamente desconocida a partir de grandes conjuntos de datos con diferentes formatos.

    Tipos de Datos

    • Datos estructurados: Datos almacenados en filas y columnas, como en una base de datos relacional. Se pueden ordenar y organizar con facilidad.
    • Datos semiestructurados: Datos que no están organizados en una estructura fija, pero que tienen ciertas características de organización. Ejemplos incluyen XML y JSON.
    • Datos no estructurados: Datos que carecen de una estructura formal. Imágenes, audio, videos, redes sociales, correos electrónicos y documentos de texto sin formato.

    Características de la Minería de Datos

    • La minería de datos trata de extraer conocimiento de forma inferencial y descriptivo a partir de datos históricos.
    • Es un proceso iterativo y se define como procesos para apoyar a la comprensión del contenido de una base de datos
    • Implica técnicas de aprendizaje automático para descubrir relaciones entre variables en grandes bases de datos.

    Metodología CRISP-DM

    • Es un proceso de seis fases que se utiliza para proyectos de minería de datos.
    • Fase 1: Comprensión del negocio.
    • Fase 2: Comprensión de los datos.
    • Fase 3: Preparación de los datos.
    • Fase 4: Modelado de datos.
    • Fase 5: Evaluación.
    • Fase 6: Implementación.

    Metodología SEMMA

    • Es una metodología de minería de datos que se centra en la selección, exploración, modificación, modelado y evaluación de datos para encontrar patrones.

    Tipos de Minería de Datos

    • Minería de datos web: Es la aplicación de técnicas de minería de datos a datos de la web. Abarca tres categorías:
      • Contenido: Extraer información del contenido textual, imágenes, audio y vídeo.
      • Estructura: Análisis de los enlaces que conectan las páginas web.
      • Uso: Análisis de patrones de uso de los visitantes del sitio web.

    Métodos de Aprendizaje Automático

    • Aprendizaje supervisado: Usa datos etiquetados para aprender la relación entre las variables de entrada y una variable de salida.
    • Aprendizaje no supervisado: Busca patrones en datos sin etiquetar, agrupando datos con características similares.
    • Aprendizaje por refuerzo: El sistema aprende a través de la interacción con un entorno.

    Tipos de Modelos (descriptivos o predictivos)

    • Descriptivos: Encontrar patrones y tendencias en los datos sin tratar de predecir el futuro.
    • Predictivos: Predecir valores futuros o desconocidos basándose en datos históricos.

    Errores de Datos

    • Un error de datos se presenta cuando las bases de datos provienen de diferentes fuentes, lo que puede dar lugar a inconsistencias en las unidades de medidas.
    • Datos faltantes: es uno de los problemas más comunes, hay que decidir entre ignorar la tupla, completar manualmente, utilizar una constante, utilizar una medida de tendencia central de la clase (media o mediana) o usar el valor más probable.

    Normalización de Datos

    • Estandarización (Z-score): Transforma los datos para que tengan una media de cero y una desviación estándar de uno, asumiendo una distribución normal.
    • Min-Max: Normaliza los datos a un rango específico, típicamente entre 0 y 1.
    • Escala decimal: Normaliza los datos para que tengan valores entre -1 y 1, utilizando la cantidad de dígitos como factor.

    Binning

    • Transforma variables numéricas en categóricas.
    • Es un conjunto de categorías para clasificar variables, por ejemplo, precio de una casa.
    • Hay diferentes tipos de binning, como binning de igual ancho, binning del mismo número de datos, binning por agrupamiento y binning basado en el valor predictivo.

    Variables redundantes o únicas

    • Remover variables que son únicas o casi únicas que tienen el mismo valor o una alta frecuencia en todos los datos porque no aportan información valiosa.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Description

    Este cuestionario aborda los fundamentos de la minería de datos, un campo multidisciplinario que combina tecnología, aprendizaje automático y estadística. Aprenderás sobre los distintos tipos de datos, incluyendo estructurados, semiestructurados y no estructurados, y su importancia en la extracción de información valiosa.

    More Like This

    Data Mining and Machine Learning Quiz
    31 questions
    Data Mining and Machine Learning Overview
    40 questions
    Data Mining and Machine Learning Overview
    24 questions
    Use Quizgecko on...
    Browser
    Browser