Técnicas Analíticas: Métodos Estadísticos Avanzados

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

¿Qué función matemática continua especiﬁca la probabilidad de aparición de un valor o menos para cada elemento del espacio muestral en variables continuas?

Función de distribución (correct)
Función de probabilidad binomial
Función de probabilidad geométrica
Distribución de Poisson

La función de probabilidad geométrica estudia el número de elementos hasta el último 'acierto'.

False (B)

¿Cómo se llama el proceso que implica organizar datos sin etiquetas en grupos similares?

clustering

La _____ de información se utiliza para reducir el desorden al dividir los datos en segmentos.

ganancia Signup and view all the answers

Relaciona los tipos de aprendizaje automático con su descripción:

Aprendizaje supervisado = Clasiﬁción y Regresión Aprendizaje no supervisado = Clustering Aprendizaje reforzado = Toma de decisiones secuencialmente Signup and view all the answers

¿Qué es el aprendizaje de reglas de asociación?

Un método de aprendizaje automático basado en reglas para descubrir relaciones entre variables en grandes bases de datos (C) Signup and view all the answers

¿Cuál es uno de los problemas asociados con el algoritmo K means?

Todas las anteriores (B) Signup and view all the answers

¿Cuál es el valor obtenido para una característica en una observación?

El dato (A) Signup and view all the answers

¿Qué es PCA?

PCA (Principal Component Analysis) es un método de reducción de dimensionalidad que transforma los datos linealmente en un nuevo sistema de coordenadas para identificar las direcciones que capturan la mayor variación en los datos. Signup and view all the answers

DBSCAN significa Density-Based Spatial Clustering of Applications with ___________.

Noise Signup and view all the answers

La moda es el valor único más frecuente dentro de un conjunto de datos.

False (B) Signup and view all the answers

La Regularización se utiliza para aumentar el overfitting en un modelo.

False (B) Signup and view all the answers

¿Cómo se define la media aritmética?

La media aritmética es la suma de los valores del conjunto dividido por el número de elementos totales. Signup and view all the answers

La ____________ se define como la diferencia entre la medida de una magnitud y su valor de referencia.

desviación estándar Signup and view all the answers

Relaciona las medidas de ordenación con su descripción:

Mediana = Valor que divide los datos en dos mitades iguales Percentiles = Dejan a su izquierda un X% de los datos Cuartiles = Son los percentiles 25, 50 y 75 Deciles = Son los percentiles 10, 20, 30, ..., 90, 100 Signup and view all the answers

¿Qué es una Red Convolucional (CNN) principalmente utilizada para procesar?

Imágenes (A) Signup and view all the answers

¿Qué tipo de capas suelen intercalarse con las capas convolucionales para reducir la dimensión de los datos?

Capas de pooling (D) Signup and view all the answers

Las Redes Recurrentes (RNN) se caracterizan por ser capaces de tener memoria.

True (A) Signup and view all the answers

¿Qué es la Tokenización en el Procesamiento de Lenguaje Natural (NLP)?

Es el proceso de dividir un conjunto de letras o texto en un conjunto de tokens, donde cada token es una palabra. Signup and view all the answers

El algoritmo ______ se basa en dos términos: Frecuencia de una palabra (TF) e Inversa de la Frecuencia de la palabra en el documento (IDF).

TF-IDF Signup and view all the answers

Flashcards are hidden until you start studying

Study Notes

Métodos Estadísticos Avanzados

La estadística es el resultado de la unión de dos disciplinas: cálculo de probabilidades y ciencia del Estado (estudio de la descripción de datos).
La estadística estudia cómo obtener conclusiones de la investigación empírica mediante el uso de modelos matemáticos.
Un dato es el valor obtenido para una característica en una observación.
El método científico consta de 6 pasos:
- Definir el problema
- Recoger la información existente
- Formular hipótesis
- Recoger datos experimentales
- Analizar la información
- Establecer conclusiones

Primer Análisis

Frecuencias de aparición de cada uno de los datos:
- Frecuencia absoluta: número de apariciones de un dato
- Frecuencia relativa: número de apariciones de un dato dividido por el número total de datos
- Frecuencia acumulada: suma de las frecuencias absolutas (o relativas) anteriores al dato más las del propio dato
Distribución de frecuencias: pares compuestos por el dato y su frecuencia

Segundo Análisis

Medidas de tendencia central:
- Media aritmética: suma de los valores del conjunto dividido por el número de elementos totales
- Media aritmética ponderada: media aritmética que se puede ponderar multiplicando cada elemento por su peso correspondiente
- Media geométrica: interpreta los datos a través de su producto y no de su suma
- Media armónica: media que se calcula como la inversa de la media de las inversas de los valores
Moda: valor más frecuente
Medidas de dispersión:
- Rango
- Desviación estándar: diferencia entre la medida de una magnitud y su valor de referencia
- Varianza: media de las desviaciones cuadráticas

Tercer Análisis

Medidas de ordenación:
- Mediana: valor que divide nuestros datos en dos mitades iguales
- Cuantiles: valor que divide el conjunto de datos en partes de igual tamaño
- Percentiles: valor que deja a su izquierda un X% de los datos y a su derecha el (100-X)%
Visualización de datos:
- Tablas
- Gráficos (diagramas de barras, histogramas, diagramas de Pareto, boxplots)

Análisis de Regresión

La relación entre dos o más variables se puede establecer y caracterizar a través de funciones
La probabilidad de sucesos independientes viene dada por la ecuación P(AÇB) = P(A)P(B)
La probabilidad de sucesos dependientes se llama condicionada y viene dada por la ecuación P(AÇB) = P(A½B)P(B) = P(B½A)P(A)

Estudios de Poblaciones a partir de Muestras

Una variable aleatoria es una magnitud cuyos valores están determinados por una distribución de probabilidad
La función de probabilidad es una función matemática discreta que especifica la probabilidad de aparición de cada valor del espacio muestral de una variable discreta
La función de distribución (para variables discretas) es una función matemática discreta que especifica, para cada valor del espacio muestral, la probabilidad de aparición de ese valor o menos
La función de densidad es una función matemática continua que especifica la probabilidad de aparición de cada valor del espacio muestral de una variable continua

Contraste de Hipótesis

La hipótesis nula (H0) es la hipótesis que contrastamos
La hipótesis alternativa (HA) es la hipótesis que se acepta si se rechaza la nula
El error de tipo I ocurre cuando se rechaza H0 siendo cierta
El error de tipo II ocurre cuando se acepta H0 siendo falsa

Aprendizaje Automático

La minería de datos hace referencia al conjunto de análisis, tanto automáticos como semiautomáticos, que se utilizan para la identificación de los patrones que se encuentran ocultos en los grandes conjuntos de datos
La característica que define a la minería de datos es la identificación de patrones en conjuntos de datos
Tipos de patrones:
- Identificación de relaciones entre conjuntos de variables (análisis de regresión)
- Identificación de grupos semejantes o detección de anomalías (análisis de clúster)
- Identificación de hechos que suceden de forma conjunta (reglas de asociación)

Modelos Predictivos

Un modelo es una abstracción de los datos que se han utilizado
Los algoritmos de ML toman un conjunto de datos para "entrenarse"
Un caso particular de modelo es una "memorización" completa ("instance-based" versus "model-based")
El "underfitting" suele deberse a que el modelo tiene muy pocos parámetros o al uso de un modelo que no es lo suficientemente potente para el conjunto de datos determinado
El "overfitting" suele deberse al uso de un modelo con demasiados parámetros o si el modelo es demasiado potente para el conjunto de datos determinado### Clasiﬁcación
KNN (K-Nearest Neighbors) es un clasiﬁcador que funciona sorprendentemente bien en la práctica, ya que clasifica un punto de datos según la mayoría de las etiquetas de sus k vecinos más cercanos en el espacio de características.
La cercanía se mide típicamente mediante métricas como la distancia euclidiana.
La elección del valor de k es crítica en KNN, ya que un valor pequeño de k puede hacer que el modelo sea sensible a ruido y outliers, mientras que un valor grande suaviza la frontera de decisión y puede conducir a una pérdida de detalles.

Random Forest

Random Forest es un algoritmo de aprendizaje automático que forma parte de la categoría de ensamblado de modelos de tipo bagging.
Consiste en múltiples árboles de decisión que se entrenan de forma independiente en un subconjunto aleatorio de datos de entrenamiento.
La diversidad entre los árboles se promueve mediante la selección aleatoria de un subconjunto de características en cada paso.

Aprendizaje no Supervisado

Una distancia, o métrica, es una función que asigna un número a cada par de puntos en un espacio de n dimensiones.
Clustering es uno de los métodos de aprendizaje no supervisado más comunes, que implica organizar datos sin etiquetar en grupos similares llamados clusters o conglomerados.
La detección de anomalías es el método para identificar elementos, eventos u observaciones raros que difieren significativamente de la mayoría de los datos.
El aprendizaje de reglas de asociación es un método de aprendizaje automático basado en reglas para descubrir relaciones interesantes entre variables en grandes bases de datos.
La reducción de dimensionalidad se refiere al proceso de reducir la cantidad de variables o características de entrada en un conjunto de datos.

Deep Learning

Deep Learning es un subconjunto del Aprendizaje automático o Machine Learning, que trata de emular el cerebro humano mediante el uso de redes neuronales con tres o más capas.
Los modelos modernos de Deep Learning utilizan redes neuronales para extraer información de la entrada y producir una salida.
Las redes neuronales están compuestas por capas de nodos, que se conectan con la siguiente y constan de un peso y un intervalo.
Cada nodo es una neurona artificial que se conecta con la siguiente y consta de un peso y un intervalo.

Redes Neuronales

La forma habitual de organizar las neuronas (unidades) en una red neuronal es por capas, en lo que se conoce como arquitectura feed-forward o, más habitualmente, perceptron multicapa (multi-layer perceptron- MLP).
El Backpropagation es el proceso de ajuste de los pesos de la red neuronal mediante la minimización del error total.
La función de activación es una función matemática que se aplica a la salida de cada neuronas para transformarla en una función no lineal.

Problemas en el Aprendizaje Automático

Underfitting ocurre cuando el clasiﬁcador no es sufiicientemente expresivo debido a los datos utilizados.
Overfitting ocurre cuando los datos de entrenamiento son demasiado específiacos y no se pueden utilizar para extrapolar casos desconocidos.
Regularización es una técnica para evitar el overfitting, que se logra mediante la adición de un término para penalizar la complejidad del modelo.

Aprendizaje Supervisado

El aprendizaje supervisado se caracteriza por el entrenamiento en el que los datos están etiquetados con el output esperado.
Dentro de este tipo de aprendizaje, se encuentran las redes convolucionales (CNN) para imágenes y algunas redes GAN para generación de imágenes y video.

Aprendizaje no Supervisado

El aprendizaje no supervisado se caracteriza por el entrenamiento en el que no se proporciona el output esperado.
Dentro de este tipo de aprendizaje, se encuentran los Self Organizing Maps (SOM) o Mapas de Kohonen y los autoencoders.

Procesamiento del Lenguaje Natural

El procesamiento del lenguaje natural (PLN) es un campo que se encuentra en la intersección de tres disciplinas - informática, inteligencia artificial y lingüística.
El PLN se enfoca en describir la capacidad de una máquina para “ingerir” lo que se le dice, descomponerlo y comprender cuál es su significado.
La Tokenización es el proceso de identificar las palabras llamadas tokens, que es la base del NLP probabilistico, Machine Learning y Deep Learning.### Análisis de Texto
Un texto se divide en frases, y cada frase se puede dividir en palabras o tokens.
La tokenización es un paso importante en el análisis de texto, ya que se utiliza para identificar cada una de las palabras que componen el texto.

Lexemas y Morfemas

La palabra se divide en raíz y prefijos y sufijos para analizar su estructura.
La palabra se puede dividir en cada una de las letras que la componen para analizar su composición.

One Hot Encoding

Cada palabra de las frases se traduce como un vector comprimido en one hot encoding.
Se identifican cada una de las palabras/categorías y se determina el número de grupos posibles y se genera un array binario con una longitud del número de grupos posibles.

Word Embeddings

Las palabras se convierten en vectores de baja dimensionalidad que recogen las relaciones entre las palabras y su significado.
Las palabras con significados similares tienen la misma representación.

Term Frequency - Inverse Document Frequency (TF-IDF)

TF mide la importancia de una palabra mediante su frecuencia en un documento o en varios documentos que llamamos corpus.
IDF mide la rareza de una palabra en un texto y cuanto mayor sea, mayor importancia se le da a la palabra.

Bag of Words

Es una técnica de Word Embeddings que consiste en contar el número de veces que aparece una palabra en un documento y crear un vector con ellas.
Los pasos para crear el Bag of Words o Vectorización son: dividir las frases en texto, dividir las frases en palabras/tokens, eliminar las stop words y puntuaciones, convertir todas las palabras a minúsculas, crear el vector con la frecuencia de cada una de las palabras.

Skip-gram

Es un algoritmo utilizado en Word2Vec que trata de predecir que palabras rodearán a una palabra.
La entrada es un 1 en la palabra central y en la salida tendremos el 1 en la palabra/s que rodearán a la palabra que determinamos de entrada.

Continuous Bag of Words (CBOW)

Es otro algoritmo implementado en Word2Vec para calcular los Word Embeddings.
Trata de partir de un conjunto de palabras predecir cual será la siguiente palabra.

Atención

Es un concepto que consiste en que por cada palabra se calcula su relación con todas las palabras que tiene la frase.
Permite conseguir una mejor idea del significado, porque no debemos olvidar que en las frases pueden existir palabras que modifiquen el significado de las palabras anteriores.

Generative IA - NLP

La generación de texto, imágenes, videos, … a partir de arquitecturas basadas en técnicas como Transformers y Mixer of Experts.
Los modelos se entrenan en dos fases: pre-training y fine-tuning.

Transformers

Se entrenan en dos fases: pre-training y fine-tuning.
En la fase de pre-training, el modelo aprende cómo se estructura el lenguaje de forma general, además de conseguir un conocimiento genérico del significado de las palabras.

MoE (Mixer of Experts)

Está basada en la estrategia de divide y venceras, donde las tareas se dividen en tareas más sencillas y se entrenan cada una de esas subtareas por separado.
La arquitectura MoE está compuesta por capas de expertos, red de puertas y softmax con la salida para seleccionar cada red.

RAG (Reading Across Granularity)

Se implementa para reducir las alucinaciones que se producen en los LLMs y mejorar el performance de los mismos.
Se utiliza para gestionar correctamente la privacidad, ya que los LLMs no se realiza fine-tuning, sino que en el contexto se le pasa los embeddings más apropiados para poder responder correctamente a la pregunta que formula el usuario.

Precisión y Confiabilidad

La precisión es una métrica del aprendizaje automático que mide la capacidad del modelo para predecir el valor correcto.
La confiabilidad mide la consistencia de las predicciones del modelo.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Técnicas Analíticas: Métodos Estadísticos Avanzados

Choose a study mode

Podcast

Questions and Answers

¿Qué función matemática continua especiﬁca la probabilidad de aparición de un valor o menos para cada elemento del espacio muestral en variables continuas?

La función de probabilidad geométrica estudia el número de elementos hasta el último 'acierto'.

¿Cómo se llama el proceso que implica organizar datos sin etiquetas en grupos similares?

La _____ de información se utiliza para reducir el desorden al dividir los datos en segmentos.

Relaciona los tipos de aprendizaje automático con su descripción:

¿Qué es el aprendizaje de reglas de asociación?

¿Cuál es uno de los problemas asociados con el algoritmo K means?

¿Cuál es el valor obtenido para una característica en una observación?

¿Qué es PCA?

DBSCAN significa Density-Based Spatial Clustering of Applications with ___________.

La moda es el valor único más frecuente dentro de un conjunto de datos.

La Regularización se utiliza para aumentar el overfitting en un modelo.

¿Cómo se define la media aritmética?

La ____________ se define como la diferencia entre la medida de una magnitud y su valor de referencia.

Relaciona las medidas de ordenación con su descripción:

¿Qué es una Red Convolucional (CNN) principalmente utilizada para procesar?

¿Qué tipo de capas suelen intercalarse con las capas convolucionales para reducir la dimensión de los datos?

Las Redes Recurrentes (RNN) se caracterizan por ser capaces de tener memoria.

¿Qué es la Tokenización en el Procesamiento de Lenguaje Natural (NLP)?

El algoritmo ______ se basa en dos términos: Frecuencia de una palabra (TF) e Inversa de la Frecuencia de la palabra en el documento (IDF).

Study Notes

Métodos Estadísticos Avanzados

Primer Análisis

Segundo Análisis

Tercer Análisis

Análisis de Regresión

Estudios de Poblaciones a partir de Muestras

Contraste de Hipótesis

Aprendizaje Automático

Modelos Predictivos

Random Forest

Aprendizaje no Supervisado

Deep Learning

Redes Neuronales

Problemas en el Aprendizaje Automático

Aprendizaje Supervisado

Aprendizaje no Supervisado

Procesamiento del Lenguaje Natural

Lexemas y Morfemas

One Hot Encoding

Word Embeddings

Term Frequency - Inverse Document Frequency (TF-IDF)

Bag of Words

Skip-gram

Continuous Bag of Words (CBOW)

Atención

Generative IA - NLP

Transformers

MoE (Mixer of Experts)

RAG (Reading Across Granularity)

Precisión y Confiabilidad

Studying That Suits You

More Like This

Logistic Regression and Model Fit Statistics Quiz

Advanced Statistics and Probability Quiz for Engineering and B

Advanced Business Analytics - Power of Predictive Modeling

Advanced Statistical Methods in Research