Lección 1: Estadística Descriptiva
Introducción
La estadística descriptiva es una rama de la estadística que se encarga de describir, resumir y analizar un conjunto de datos. Es una herramienta fundamental en el análisis cuantitativo, ya que permite a los analistas financieros entender las características principales de los datos financieros y tomar decisiones informadas. En esta lección, exploraremos las medidas de tendencia central, las medidas de dispersión, y otros conceptos clave de la estadística descriptiva. También presentaremos ejemplos prácticos y tablas que ilustran estos conceptos.
Medidas de Tendencia Central
Las medidas de tendencia central son estadísticas que resumen un conjunto de datos con un solo valor representativo del centro del conjunto de datos. Las medidas más comunes son la media, la mediana y la moda.
1. Media
La media, o promedio, es la suma de todos los valores dividida por el número de valores. Es una medida muy utilizada debido a su simplicidad y facilidad de cálculo.
Fórmula:
Media=∑i=1nxin\text{Media} = \frac{\sum_{i=1}^n x_i}{n}
Ejemplo: Supongamos que tenemos los precios de cierre de una acción durante cinco días:
Precios=[100,105,110,115,120]\text{Precios} = [100, 105, 110, 115, 120]
La media sería:
Media=100+105+110+115+1205=5505=110\text{Media} = \frac{100 + 105 + 110 + 115 + 120}{5} = \frac{550}{5} = 110
2. Mediana
La mediana es el valor central de un conjunto de datos ordenados. Si el número de observaciones es impar, la mediana es el valor del medio. Si es par, la mediana es el promedio de los dos valores centrales.
Ejemplo: Para los precios de cierre de una acción durante cinco días:
Precios=[100,105,110,115,120]\text{Precios} = [100, 105, 110, 115, 120]
La mediana sería 110, ya que es el valor central.
Para un conjunto par de precios:
Precios=[100,105,110,115,120,125]\text{Precios} = [100, 105, 110, 115, 120, 125]
La mediana sería:
Mediana=110+1152=112.5\text{Mediana} = \frac{110 + 115}{2} = 112.5
3. Moda
La moda es el valor que aparece con mayor frecuencia en un conjunto de datos. Es posible que un conjunto de datos tenga más de una moda o ninguna moda si todos los valores son únicos.
Ejemplo: Para los precios de cierre de una acción:
Precios=[100,105,110,105,120]\text{Precios} = [100, 105, 110, 105, 120]
La moda sería 105, ya que aparece dos veces.
Medidas de Dispersión
Las medidas de dispersión indican qué tan dispersos o concentrados están los datos alrededor de la media. Las medidas más comunes son el rango, la varianza y la desviación estándar.
1. Rango
El rango es la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos.
Fórmula:
Rango=Valor maˊximo−Valor mıˊnimo\text{Rango} = \text{Valor máximo} – \text{Valor mínimo}
Ejemplo: Para los precios de cierre de una acción:
Precios=[100,105,110,115,120]\text{Precios} = [100, 105, 110, 115, 120]
El rango sería:
Rango=120−100=20\text{Rango} = 120 – 100 = 20
2. Varianza
La varianza mide la dispersión de los datos alrededor de la media. Es la media de los cuadrados de las diferencias entre cada valor y la media del conjunto de datos.
Fórmula:
Varianza=∑i=1n(xi−Media)2n\text{Varianza} = \frac{\sum_{i=1}^n (x_i – \text{Media})^2}{n}
Ejemplo: Para los precios de cierre de una acción:
Precios=[100,105,110,115,120]\text{Precios} = [100, 105, 110, 115, 120]
Primero, calculamos la media:
Media=110\text{Media} = 110
Luego, calculamos las diferencias al cuadrado:
(100−110)2=100,(105−110)2=25,(110−110)2=0,(115−110)2=25,(120−110)2=100(100 – 110)^2 = 100, \quad (105 – 110)^2 = 25, \quad (110 – 110)^2 = 0, \quad (115 – 110)^2 = 25, \quad (120 – 110)^2 = 100
Sumamos las diferencias al cuadrado:
100+25+0+25+100=250100 + 25 + 0 + 25 + 100 = 250
Finalmente, calculamos la varianza:
Varianza=2505=50\text{Varianza} = \frac{250}{5} = 50
3. Desviación Estándar
La desviación estándar es la raíz cuadrada de la varianza. Proporciona una medida de dispersión en las mismas unidades que los datos originales.
Fórmula:
Desviacioˊn Estaˊndar=Varianza\text{Desviación Estándar} = \sqrt{\text{Varianza}}
Ejemplo: Para la varianza calculada anteriormente:
Varianza=50\text{Varianza} = 50
La desviación estándar sería:
Desviacioˊn Estaˊndar=50≈7.07\text{Desviación Estándar} = \sqrt{50} \approx 7.07
Otras Medidas Descriptivas
Además de las medidas de tendencia central y dispersión, existen otras medidas descriptivas importantes como los cuartiles, el coeficiente de variación y la curtosis.
1. Cuartiles
Los cuartiles dividen un conjunto de datos en cuatro partes iguales. El primer cuartil (Q1) es el valor que divide el 25% inferior de los datos, el segundo cuartil (Q2) es la mediana, y el tercer cuartil (Q3) divide el 25% superior de los datos.
Ejemplo: Para los precios de cierre de una acción:
Precios=[100,105,110,115,120,125,130]\text{Precios} = [100, 105, 110, 115, 120, 125, 130]
Los cuartiles serían:
Q1=105,Q2=115,Q3=125Q1 = 105, \quad Q2 = 115, \quad Q3 = 125
2. Coeficiente de Variación
El coeficiente de variación (CV) es una medida de dispersión relativa. Es la relación entre la desviación estándar y la media, expresada como un porcentaje.
Fórmula:
CV=Desviacioˊn EstaˊndarMedia×100CV = \frac{\text{Desviación Estándar}}{\text{Media}} \times 100
Ejemplo: Para los precios de cierre de una acción con una desviación estándar de 7.07 y una media de 110:
CV=7.07110×100≈6.43%CV = \frac{7.07}{110} \times 100 \approx 6.43\%
3. Curtosis
La curtosis mide la «peakedness» o el grado de concentración de los datos alrededor de la media. Una distribución con alta curtosis tiene más valores en los extremos (colas) y una mayor concentración de valores cerca de la media.
Fórmula:
Curtosis=n(n+1)(n−1)(n−2)(n−3)∑(xi−MediaDesviacioˊn Estaˊndar)4−3(n−1)2(n−2)(n−3)\text{Curtosis} = \frac{n(n+1)}{(n-1)(n-2)(n-3)} \sum \left(\frac{x_i – \text{Media}}{\text{Desviación Estándar}}\right)^4 – \frac{3(n-1)^2}{(n-2)(n-3)}
Ejemplo: Para los precios de cierre de una acción:
Precios=[100,105,110,115,120]\text{Precios} = [100, 105, 110, 115, 120]
El cálculo de la curtosis sería más complejo y normalmente se realiza utilizando software estadístico como Excel, R o Python.
Ejemplo Completo: Análisis Descriptivo de Datos Financieros
Supongamos que queremos analizar los datos de precios de cierre de una acción durante 10 días:
Precios=[100,102,101,105,107,110,108,112,115,120]\text{Precios} = [100, 102, 101, 105, 107, 110, 108, 112, 115, 120]
1. Cálculo de la Media:
Media=100+102+101+105+107+110+108+112+115+12010=108010=108\text{Media} = \frac{100 + 102 + 101 + 105 + 107 + 110 + 108 + 112 + 115 + 120}{10} = \frac{1080}{10} = 108
2. Cálculo de la Mediana: Los datos ordenados son:
[100,101,102,105,107,108,110,112,115,120][100, 101, 102, 105, 107, 108, 110, 112, 115, 120]
La mediana (valor central) es:
Mediana=107+1082=107.5\text{Mediana} = \frac{107 + 108}{2} = 107.5
3. Cálculo de la Moda: No hay ningún valor que se repita, por lo que no hay moda en este conjunto de datos.
4. Cálculo del Rango:
Rango=120−100=20\text{Rango} = 120 – 100 = 20
5. Cálculo de la Varianza: Primero, calculamos las diferencias al cuadrado con respecto a la media:
(100−108)2=64,(102−108)2=36,(101−108)2=49,(105−108)2=9,(107−108)2=1(100 – 108)^2 = 64, \quad (102 – 108)^2 = 36, \quad (101 – 108)^2 = 49, \quad (105 – 108)^2 = 9, \quad (107 – 108)^2 = 1 (110−108)2=4,(108−108)2=0,(112−108)2=16,(115−108)2=49,(120−108)2=144(110 – 108)^2 = 4, \quad (108 – 108)^2 = 0, \quad (112 – 108)^2 = 16, \quad (115 – 108)^2 = 49, \quad (120 – 108)^2 = 144
Sumamos las diferencias al cuadrado:
64+36+49+9+1+4+0+16+49+144=37264 + 36 + 49 + 9 + 1 + 4 + 0 + 16 + 49 + 144 = 372
Calculamos la varianza:
Varianza=37210=37.2\text{Varianza} = \frac{372}{10} = 37.2
6. Cálculo de la Desviación Estándar:
Desviacioˊn Estaˊndar=37.2≈6.10\text{Desviación Estándar} = \sqrt{37.2} \approx 6.10
7. Cálculo del Coeficiente de Variación:
CV=6.10108×100≈5.65%CV = \frac{6.10}{108} \times 100 \approx 5.65\%
8. Cálculo de los Cuartiles: Los datos ordenados son:
[100,101,102,105,107,108,110,112,115,120][100, 101, 102, 105, 107, 108, 110, 112, 115, 120]
El primer cuartil (Q1) es el valor en el 25% inferior:
Q1=102Q1 = 102
El tercer cuartil (Q3) es el valor en el 75% superior:
Q3=112Q3 = 112
Visualización de Datos
La visualización de datos es una parte crucial de la estadística descriptiva. Los gráficos permiten entender y comunicar mejor las características de los datos.
1. Histograma
Un histograma es una representación gráfica de la distribución de los datos. Muestra la frecuencia de los valores en intervalos especificados.
Ejemplo: Para los precios de cierre de una acción:
Precios=[100,102,101,105,107,110,108,112,115,120]\text{Precios} = [100, 102, 101, 105, 107, 110, 108, 112, 115, 120]
Podemos crear un histograma que muestre la frecuencia de los precios en diferentes intervalos (bins).
2. Gráfico de Caja y Bigotes (Boxplot)
Un gráfico de caja y bigotes resume la distribución de los datos mostrando la mediana, los cuartiles y los valores atípicos (outliers).
Ejemplo: Para los mismos datos de precios, un boxplot visualiza la mediana, Q1, Q3, y cualquier valor extremo.
3. Diagrama de Dispersión (Scatter Plot)
Un diagrama de dispersión muestra la relación entre dos variables. Cada punto representa una observación con sus valores en dos dimensiones.
Ejemplo: Si tenemos datos de precios de dos acciones diferentes, podemos crear un scatter plot para visualizar la relación entre los precios de las dos acciones.
Conclusión
La estadística descriptiva es una herramienta esencial en el análisis cuantitativo. Nos permite resumir y entender las características principales de los datos financieros, proporcionando una base sólida para análisis más avanzados. A través de medidas de tendencia central y dispersión, cuartiles, coeficiente de variación y visualizaciones de datos, podemos obtener una visión clara y precisa de los datos, lo que facilita la toma de decisiones informadas en el ámbito financiero.
Lecturas Recomendadas:
- «Introduction to the Practice of Statistics» por David S. Moore, George P. McCabe y Bruce A. Craig.
- «Statistics for Business and Economics» por Paul Newbold, William L. Carlson y Betty Thorne.
- «Statistical Methods for the Social Sciences» por Alan Agresti y Barbara Finlay.
Ejercicio Práctico:
- Análisis Descriptivo con Excel:
- Recopilar datos históricos de precios de una acción durante 30 días.
- Calcular la media, mediana, moda, rango, varianza y desviación estándar utilizando las funciones de Excel.
- Crear un histograma y un boxplot para visualizar los datos.
- Análisis Descriptivo con Python:
- Usar pandas para importar datos históricos de precios de una acción.
- Calcular las medidas descriptivas y visualizar los datos utilizando matplotlib y seaborn.
- Comparar los resultados obtenidos con los de Excel y discutir cualquier diferencia.
Esta lección te proporciona una comprensión integral de la estadística descriptiva y cómo se aplica en el análisis cuantitativo.