Técnicas Analíticas: Métodos Estadísticos Avanzados

GlamorousOrphism avatar
GlamorousOrphism
·
·
Download

Start Quiz

Study Flashcards

20 Questions

¿Qué función matemática continua especifica la probabilidad de aparición de un valor o menos para cada elemento del espacio muestral en variables continuas?

Función de distribución

La función de probabilidad geométrica estudia el número de elementos hasta el último 'acierto'.

False

¿Cómo se llama el proceso que implica organizar datos sin etiquetas en grupos similares?

clustering

La _____ de información se utiliza para reducir el desorden al dividir los datos en segmentos.

ganancia

Relaciona los tipos de aprendizaje automático con su descripción:

Aprendizaje supervisado = Clasifición y Regresión Aprendizaje no supervisado = Clustering Aprendizaje reforzado = Toma de decisiones secuencialmente

¿Qué es el aprendizaje de reglas de asociación?

Un método de aprendizaje automático basado en reglas para descubrir relaciones entre variables en grandes bases de datos

¿Cuál es uno de los problemas asociados con el algoritmo K means?

Todas las anteriores

¿Cuál es el valor obtenido para una característica en una observación?

El dato

¿Qué es PCA?

PCA (Principal Component Analysis) es un método de reducción de dimensionalidad que transforma los datos linealmente en un nuevo sistema de coordenadas para identificar las direcciones que capturan la mayor variación en los datos.

DBSCAN significa Density-Based Spatial Clustering of Applications with ___________.

Noise

La moda es el valor único más frecuente dentro de un conjunto de datos.

False

La Regularización se utiliza para aumentar el overfitting en un modelo.

False

¿Cómo se define la media aritmética?

La media aritmética es la suma de los valores del conjunto dividido por el número de elementos totales.

La ____________ se define como la diferencia entre la medida de una magnitud y su valor de referencia.

desviación estándar

Relaciona las medidas de ordenación con su descripción:

Mediana = Valor que divide los datos en dos mitades iguales Percentiles = Dejan a su izquierda un X% de los datos Cuartiles = Son los percentiles 25, 50 y 75 Deciles = Son los percentiles 10, 20, 30, ..., 90, 100

¿Qué es una Red Convolucional (CNN) principalmente utilizada para procesar?

Imágenes

¿Qué tipo de capas suelen intercalarse con las capas convolucionales para reducir la dimensión de los datos?

Capas de pooling

Las Redes Recurrentes (RNN) se caracterizan por ser capaces de tener memoria.

True

¿Qué es la Tokenización en el Procesamiento de Lenguaje Natural (NLP)?

Es el proceso de dividir un conjunto de letras o texto en un conjunto de tokens, donde cada token es una palabra.

El algoritmo ______ se basa en dos términos: Frecuencia de una palabra (TF) e Inversa de la Frecuencia de la palabra en el documento (IDF).

TF-IDF

Study Notes

Métodos Estadísticos Avanzados

  • La estadística es el resultado de la unión de dos disciplinas: cálculo de probabilidades y ciencia del Estado (estudio de la descripción de datos).
  • La estadística estudia cómo obtener conclusiones de la investigación empírica mediante el uso de modelos matemáticos.
  • Un dato es el valor obtenido para una característica en una observación.
  • El método científico consta de 6 pasos:
    • Definir el problema
    • Recoger la información existente
    • Formular hipótesis
    • Recoger datos experimentales
    • Analizar la información
    • Establecer conclusiones

Primer Análisis

  • Frecuencias de aparición de cada uno de los datos:
    • Frecuencia absoluta: número de apariciones de un dato
    • Frecuencia relativa: número de apariciones de un dato dividido por el número total de datos
    • Frecuencia acumulada: suma de las frecuencias absolutas (o relativas) anteriores al dato más las del propio dato
  • Distribución de frecuencias: pares compuestos por el dato y su frecuencia

Segundo Análisis

  • Medidas de tendencia central:
    • Media aritmética: suma de los valores del conjunto dividido por el número de elementos totales
    • Media aritmética ponderada: media aritmética que se puede ponderar multiplicando cada elemento por su peso correspondiente
    • Media geométrica: interpreta los datos a través de su producto y no de su suma
    • Media armónica: media que se calcula como la inversa de la media de las inversas de los valores
  • Moda: valor más frecuente
  • Medidas de dispersión:
    • Rango
    • Desviación estándar: diferencia entre la medida de una magnitud y su valor de referencia
    • Varianza: media de las desviaciones cuadráticas

Tercer Análisis

  • Medidas de ordenación:
    • Mediana: valor que divide nuestros datos en dos mitades iguales
    • Cuantiles: valor que divide el conjunto de datos en partes de igual tamaño
    • Percentiles: valor que deja a su izquierda un X% de los datos y a su derecha el (100-X)%
  • Visualización de datos:
    • Tablas
    • Gráficos (diagramas de barras, histogramas, diagramas de Pareto, boxplots)

Análisis de Regresión

  • La relación entre dos o más variables se puede establecer y caracterizar a través de funciones
  • La probabilidad de sucesos independientes viene dada por la ecuación P(AÇB) = P(A)P(B)
  • La probabilidad de sucesos dependientes se llama condicionada y viene dada por la ecuación P(AÇB) = P(A½B)P(B) = P(B½A)P(A)

Estudios de Poblaciones a partir de Muestras

  • Una variable aleatoria es una magnitud cuyos valores están determinados por una distribución de probabilidad
  • La función de probabilidad es una función matemática discreta que especifica la probabilidad de aparición de cada valor del espacio muestral de una variable discreta
  • La función de distribución (para variables discretas) es una función matemática discreta que especifica, para cada valor del espacio muestral, la probabilidad de aparición de ese valor o menos
  • La función de densidad es una función matemática continua que especifica la probabilidad de aparición de cada valor del espacio muestral de una variable continua

Contraste de Hipótesis

  • La hipótesis nula (H0) es la hipótesis que contrastamos
  • La hipótesis alternativa (HA) es la hipótesis que se acepta si se rechaza la nula
  • El error de tipo I ocurre cuando se rechaza H0 siendo cierta
  • El error de tipo II ocurre cuando se acepta H0 siendo falsa

Aprendizaje Automático

  • La minería de datos hace referencia al conjunto de análisis, tanto automáticos como semiautomáticos, que se utilizan para la identificación de los patrones que se encuentran ocultos en los grandes conjuntos de datos
  • La característica que define a la minería de datos es la identificación de patrones en conjuntos de datos
  • Tipos de patrones:
    • Identificación de relaciones entre conjuntos de variables (análisis de regresión)
    • Identificación de grupos semejantes o detección de anomalías (análisis de clúster)
    • Identificación de hechos que suceden de forma conjunta (reglas de asociación)

Modelos Predictivos

  • Un modelo es una abstracción de los datos que se han utilizado
  • Los algoritmos de ML toman un conjunto de datos para "entrenarse"
  • Un caso particular de modelo es una "memorización" completa ("instance-based" versus "model-based")
  • El "underfitting" suele deberse a que el modelo tiene muy pocos parámetros o al uso de un modelo que no es lo suficientemente potente para el conjunto de datos determinado
  • El "overfitting" suele deberse al uso de un modelo con demasiados parámetros o si el modelo es demasiado potente para el conjunto de datos determinado### Clasificación
  • KNN (K-Nearest Neighbors) es un clasificador que funciona sorprendentemente bien en la práctica, ya que clasifica un punto de datos según la mayoría de las etiquetas de sus k vecinos más cercanos en el espacio de características.
  • La cercanía se mide típicamente mediante métricas como la distancia euclidiana.
  • La elección del valor de k es crítica en KNN, ya que un valor pequeño de k puede hacer que el modelo sea sensible a ruido y outliers, mientras que un valor grande suaviza la frontera de decisión y puede conducir a una pérdida de detalles.

Random Forest

  • Random Forest es un algoritmo de aprendizaje automático que forma parte de la categoría de ensamblado de modelos de tipo bagging.
  • Consiste en múltiples árboles de decisión que se entrenan de forma independiente en un subconjunto aleatorio de datos de entrenamiento.
  • La diversidad entre los árboles se promueve mediante la selección aleatoria de un subconjunto de características en cada paso.

Aprendizaje no Supervisado

  • Una distancia, o métrica, es una función que asigna un número a cada par de puntos en un espacio de n dimensiones.
  • Clustering es uno de los métodos de aprendizaje no supervisado más comunes, que implica organizar datos sin etiquetar en grupos similares llamados clusters o conglomerados.
  • La detección de anomalías es el método para identificar elementos, eventos u observaciones raros que difieren significativamente de la mayoría de los datos.
  • El aprendizaje de reglas de asociación es un método de aprendizaje automático basado en reglas para descubrir relaciones interesantes entre variables en grandes bases de datos.
  • La reducción de dimensionalidad se refiere al proceso de reducir la cantidad de variables o características de entrada en un conjunto de datos.

Deep Learning

  • Deep Learning es un subconjunto del Aprendizaje automático o Machine Learning, que trata de emular el cerebro humano mediante el uso de redes neuronales con tres o más capas.
  • Los modelos modernos de Deep Learning utilizan redes neuronales para extraer información de la entrada y producir una salida.
  • Las redes neuronales están compuestas por capas de nodos, que se conectan con la siguiente y constan de un peso y un intervalo.
  • Cada nodo es una neurona artificial que se conecta con la siguiente y consta de un peso y un intervalo.

Redes Neuronales

  • La forma habitual de organizar las neuronas (unidades) en una red neuronal es por capas, en lo que se conoce como arquitectura feed-forward o, más habitualmente, perceptron multicapa (multi-layer perceptron- MLP).
  • El Backpropagation es el proceso de ajuste de los pesos de la red neuronal mediante la minimización del error total.
  • La función de activación es una función matemática que se aplica a la salida de cada neuronas para transformarla en una función no lineal.

Problemas en el Aprendizaje Automático

  • Underfitting ocurre cuando el clasificador no es sufiicientemente expresivo debido a los datos utilizados.
  • Overfitting ocurre cuando los datos de entrenamiento son demasiado específiacos y no se pueden utilizar para extrapolar casos desconocidos.
  • Regularización es una técnica para evitar el overfitting, que se logra mediante la adición de un término para penalizar la complejidad del modelo.

Aprendizaje Supervisado

  • El aprendizaje supervisado se caracteriza por el entrenamiento en el que los datos están etiquetados con el output esperado.
  • Dentro de este tipo de aprendizaje, se encuentran las redes convolucionales (CNN) para imágenes y algunas redes GAN para generación de imágenes y video.

Aprendizaje no Supervisado

  • El aprendizaje no supervisado se caracteriza por el entrenamiento en el que no se proporciona el output esperado.
  • Dentro de este tipo de aprendizaje, se encuentran los Self Organizing Maps (SOM) o Mapas de Kohonen y los autoencoders.

Procesamiento del Lenguaje Natural

  • El procesamiento del lenguaje natural (PLN) es un campo que se encuentra en la intersección de tres disciplinas - informática, inteligencia artificial y lingüística.
  • El PLN se enfoca en describir la capacidad de una máquina para “ingerir” lo que se le dice, descomponerlo y comprender cuál es su significado.
  • La Tokenización es el proceso de identificar las palabras llamadas tokens, que es la base del NLP probabilistico, Machine Learning y Deep Learning.### Análisis de Texto
  • Un texto se divide en frases, y cada frase se puede dividir en palabras o tokens.
  • La tokenización es un paso importante en el análisis de texto, ya que se utiliza para identificar cada una de las palabras que componen el texto.

Lexemas y Morfemas

  • La palabra se divide en raíz y prefijos y sufijos para analizar su estructura.
  • La palabra se puede dividir en cada una de las letras que la componen para analizar su composición.

One Hot Encoding

  • Cada palabra de las frases se traduce como un vector comprimido en one hot encoding.
  • Se identifican cada una de las palabras/categorías y se determina el número de grupos posibles y se genera un array binario con una longitud del número de grupos posibles.

Word Embeddings

  • Las palabras se convierten en vectores de baja dimensionalidad que recogen las relaciones entre las palabras y su significado.
  • Las palabras con significados similares tienen la misma representación.

Term Frequency - Inverse Document Frequency (TF-IDF)

  • TF mide la importancia de una palabra mediante su frecuencia en un documento o en varios documentos que llamamos corpus.
  • IDF mide la rareza de una palabra en un texto y cuanto mayor sea, mayor importancia se le da a la palabra.

Bag of Words

  • Es una técnica de Word Embeddings que consiste en contar el número de veces que aparece una palabra en un documento y crear un vector con ellas.
  • Los pasos para crear el Bag of Words o Vectorización son: dividir las frases en texto, dividir las frases en palabras/tokens, eliminar las stop words y puntuaciones, convertir todas las palabras a minúsculas, crear el vector con la frecuencia de cada una de las palabras.

Skip-gram

  • Es un algoritmo utilizado en Word2Vec que trata de predecir que palabras rodearán a una palabra.
  • La entrada es un 1 en la palabra central y en la salida tendremos el 1 en la palabra/s que rodearán a la palabra que determinamos de entrada.

Continuous Bag of Words (CBOW)

  • Es otro algoritmo implementado en Word2Vec para calcular los Word Embeddings.
  • Trata de partir de un conjunto de palabras predecir cual será la siguiente palabra.

Atención

  • Es un concepto que consiste en que por cada palabra se calcula su relación con todas las palabras que tiene la frase.
  • Permite conseguir una mejor idea del significado, porque no debemos olvidar que en las frases pueden existir palabras que modifiquen el significado de las palabras anteriores.

Generative IA - NLP

  • La generación de texto, imágenes, videos, … a partir de arquitecturas basadas en técnicas como Transformers y Mixer of Experts.
  • Los modelos se entrenan en dos fases: pre-training y fine-tuning.

Transformers

  • Se entrenan en dos fases: pre-training y fine-tuning.
  • En la fase de pre-training, el modelo aprende cómo se estructura el lenguaje de forma general, además de conseguir un conocimiento genérico del significado de las palabras.

MoE (Mixer of Experts)

  • Está basada en la estrategia de divide y venceras, donde las tareas se dividen en tareas más sencillas y se entrenan cada una de esas subtareas por separado.
  • La arquitectura MoE está compuesta por capas de expertos, red de puertas y softmax con la salida para seleccionar cada red.

RAG (Reading Across Granularity)

  • Se implementa para reducir las alucinaciones que se producen en los LLMs y mejorar el performance de los mismos.
  • Se utiliza para gestionar correctamente la privacidad, ya que los LLMs no se realiza fine-tuning, sino que en el contexto se le pasa los embeddings más apropiados para poder responder correctamente a la pregunta que formula el usuario.

Precisión y Confiabilidad

  • La precisión es una métrica del aprendizaje automático que mide la capacidad del modelo para predecir el valor correcto.
  • La confiabilidad mide la consistencia de las predicciones del modelo.

Aprende sobre la estadística avanzada, derivada del cálculo de probabilidades y la ciencia del estado. Obtén información sobre cómo obtener conclusiones de la investigación empírica mediante modelos matemáticos.

Make Your Own Quizzes and Flashcards

Convert your notes into interactive study material.

Get started for free
Use Quizgecko on...
Browser
Browser