Lección 2: Estadística Inferencial
Introducción
La estadística inferencial es una rama de la estadística que se ocupa de hacer generalizaciones, predicciones y decisiones sobre una población basada en una muestra de datos. A diferencia de la estadística descriptiva, que se centra en resumir y describir datos, la estadística inferencial utiliza métodos probabilísticos para inferir características de una población más grande. En esta lección, exploraremos conceptos clave como la probabilidad, las distribuciones de probabilidad, los intervalos de confianza y las pruebas de hipótesis. A través de ejemplos prácticos y explicaciones detalladas, aprenderás a aplicar estas técnicas en el análisis financiero.
Conceptos de Probabilidad y Distribuciones de Probabilidad
La probabilidad es una medida de la incertidumbre y juega un papel crucial en la estadística inferencial. Las distribuciones de probabilidad describen cómo se distribuyen los valores de una variable aleatoria.
1. Conceptos Básicos de Probabilidad
La probabilidad de un evento es un número entre 0 y 1 que indica la posibilidad de que ocurra ese evento. Un evento con una probabilidad de 0 nunca ocurrirá, mientras que un evento con una probabilidad de 1 ocurrirá con certeza.
Fórmulas Básicas:
- Probabilidad de un Evento AA: P(A)=Nuˊmero de resultados favorablesNuˊmero total de resultados posiblesP(A) = \frac{\text{Número de resultados favorables}}{\text{Número total de resultados posibles}}
Ejemplo: Si tienes un dado de seis caras, la probabilidad de que salga un 3 es:
P(3)=16P(3) = \frac{1}{6}
2. Distribuciones de Probabilidad
Las distribuciones de probabilidad muestran todas las posibles ocurrencias de una variable aleatoria y la probabilidad de cada una. Existen varios tipos de distribuciones, pero nos centraremos en las más comunes: la distribución normal y la distribución binomial.
a) Distribución Normal
La distribución normal, también conocida como la campana de Gauss, es una distribución continua simétrica alrededor de su media. Es fundamental en la estadística inferencial debido a su prevalencia en la naturaleza y las finanzas.
Características:
- Simétrica respecto a la media.
- La media, mediana y moda son iguales.
- Definida por dos parámetros: la media (μ\mu) y la desviación estándar (σ\sigma).
Ejemplo: Los retornos diarios de una acción suelen aproximarse a una distribución normal. Si los retornos tienen una media de 0.05% y una desviación estándar de 1%, podemos modelar los retornos utilizando una distribución normal.
b) Distribución Binomial
La distribución binomial es una distribución discreta que describe el número de éxitos en una secuencia de experimentos independientes de sí/no (bernoullianos).
Características:
- Definida por dos parámetros: el número de experimentos (nn) y la probabilidad de éxito en cada experimento (pp).
- La variable aleatoria XX representa el número de éxitos.
Fórmula:
P(X=k)=(nk)pk(1−p)n−kP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}
donde (nk)\binom{n}{k} es el coeficiente binomial, que se calcula como:
(nk)=n!k!(n−k)!\binom{n}{k} = \frac{n!}{k!(n-k)!}
Ejemplo: Si lanzamos una moneda 10 veces, la probabilidad de obtener exactamente 6 caras (suponiendo una moneda justa) se calcula usando la distribución binomial con n=10n = 10 y p=0.5p = 0.5.
Intervalos de Confianza
Un intervalo de confianza es un rango de valores, derivado de una muestra de datos, que se utiliza para estimar un parámetro de la población. Este intervalo está asociado con un nivel de confianza, que es la probabilidad de que el intervalo contenga el verdadero valor del parámetro de la población.
1. Concepto de Intervalo de Confianza
El nivel de confianza (usualmente 95% o 99%) indica la probabilidad de que el intervalo de confianza contenga el verdadero valor del parámetro de la población.
Fórmula para Intervalo de Confianza de la Media:
IC=Media muestral±(Zα/2⋅σn)IC = \text{Media muestral} \pm (Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}})
donde:
- Media muestral\text{Media muestral} es la media de la muestra.
- Zα/2Z_{\alpha/2} es el valor crítico de la distribución normal estándar correspondiente al nivel de confianza.
- σ\sigma es la desviación estándar de la población.
- nn es el tamaño de la muestra.
Ejemplo: Supongamos que tenemos una muestra de retornos diarios de una acción con una media muestral de 0.05% y una desviación estándar de 1%. Si el tamaño de la muestra es 30 y queremos construir un intervalo de confianza del 95%, usamos Z0.025=1.96Z_{0.025} = 1.96:
IC=0.05±(1.96⋅130)IC = 0.05 \pm (1.96 \cdot \frac{1}{\sqrt{30}}) IC=0.05±0.357IC = 0.05 \pm 0.357
Por lo tanto, el intervalo de confianza del 95% es:
[−0.307,0.407][-0.307, 0.407]
2. Interpretación del Intervalo de Confianza
Un intervalo de confianza del 95% significa que si tomamos muchas muestras y construimos un intervalo de confianza a partir de cada una, aproximadamente el 95% de estos intervalos contendrán el verdadero valor del parámetro de la población.
Pruebas de Hipótesis
Las pruebas de hipótesis son procedimientos estadísticos utilizados para tomar decisiones sobre un parámetro de la población basado en datos muestrales. Involucran formular una hipótesis nula (H0) y una hipótesis alternativa (H1) y utilizar un test estadístico para decidir si se rechaza o no la hipótesis nula.
1. Conceptos Básicos
- Hipótesis Nula (H0): La hipótesis que se asume verdadera hasta que se demuestre lo contrario. Generalmente, H0 representa una afirmación de «no efecto» o «no diferencia».
- Hipótesis Alternativa (H1): La hipótesis que se quiere probar. Representa una afirmación de «efecto» o «diferencia».
- Nivel de Significancia (α\alpha): La probabilidad de rechazar la hipótesis nula cuando es verdadera. Comúnmente, se utilizan niveles de significancia del 5% (0.05) o del 1% (0.01).
2. Tipos de Pruebas de Hipótesis
a) Prueba Z
La prueba Z se utiliza cuando la muestra es grande (n > 30) y la desviación estándar de la población es conocida. Se basa en la distribución normal estándar.
Fórmula:
Z=Xˉ−μσnZ = \frac{\bar{X} – \mu}{\frac{\sigma}{\sqrt{n}}}
donde:
- Xˉ\bar{X} es la media muestral.
- μ\mu es la media de la población.
- σ\sigma es la desviación estándar de la población.
- nn es el tamaño de la muestra.
Ejemplo: Supongamos que un analista financiero quiere probar si el retorno promedio diario de una acción es diferente de 0.05%. Con una muestra de 50 días, una media muestral de 0.07% y una desviación estándar de la población de 1%, la prueba Z es:
Z=0.07−0.05150=0.020.141≈0.142Z = \frac{0.07 – 0.05}{\frac{1}{\sqrt{50}}} = \frac{0.02}{0.141} \approx 0.142
Si el valor Z calculado es menor que el valor crítico Z correspondiente al nivel de significancia (α=0.05\alpha = 0.05, Z crítico = 1.96), no se rechaza la hipótesis nula.
b) Prueba t
La prueba t se utiliza cuando la muestra es pequeña (n < 30) y/o la desviación estándar de la población es desconocida. Se basa en la distribución t de Student.
Fórmula:
t=Xˉ−μsnt = \frac{\bar{X} – \mu}{\frac{s}{\sqrt{n}}}
donde:
- Xˉ\bar{X} es la media muestral.
- μ\mu es la media de la población.
- ss es la desviación estándar de la muestra.
- nn es el tamaño de la muestra.
Ejemplo: Supongamos que un analista quiere probar si el retorno promedio diario de una acción es diferente de 0.05%. Con una muestra de 10 días, una media muestral de 0.07% y una desviación estándar muestral de 1%, la prueba t es:
t=0.07−0.05110=0.020.316≈0.063t = \frac{0.07 – 0.05}{\frac{1}{\sqrt{10}}} = \frac{0.02}{0.316} \approx 0.063
Si el valor t calculado es menor que el valor crítico t correspondiente al nivel de significancia (α=0.05\alpha = 0.05, grados de libertad = 9, t crítico = 2.262), no se rechaza la hipótesis nula.
Errores en las Pruebas de Hipótesis
En las pruebas de hipótesis, existen dos tipos de errores que pueden ocurrir:
1. Error Tipo I
El error tipo I ocurre cuando se rechaza la hipótesis nula siendo verdadera. La probabilidad de cometer un error tipo I es igual al nivel de significancia (α\alpha).
Ejemplo: Si un analista rechaza la hipótesis nula de que el retorno promedio diario de una acción es 0.05% cuando en realidad es 0.05%, comete un error tipo I.
2. Error Tipo II
El error tipo II ocurre cuando no se rechaza la hipótesis nula siendo falsa. La probabilidad de cometer un error tipo II se denota como β\beta.
Ejemplo: Si un analista no rechaza la hipótesis nula de que el retorno promedio diario de una acción es 0.05% cuando en realidad es 0.07%, comete un error tipo II.
Ejemplos Prácticos de Estadística Inferencial en Finanzas
1. Análisis de Rendimiento de Portafolios
Supongamos que un gestor de portafolios quiere evaluar si el rendimiento promedio mensual de su portafolio es significativamente diferente del rendimiento promedio mensual del mercado, que es del 1%. Con una muestra de 12 meses, el rendimiento promedio del portafolio es 1.2% y la desviación estándar es 0.5%.
Prueba t:
t=1.2−1.00.512=0.20.144≈1.389t = \frac{1.2 – 1.0}{\frac{0.5}{\sqrt{12}}} = \frac{0.2}{0.144} \approx 1.389
Si el valor t calculado (1.389) es menor que el valor crítico t (2.201) para α=0.05\alpha = 0.05 y 11 grados de libertad, no se rechaza la hipótesis nula de que el rendimiento del portafolio no es significativamente diferente del rendimiento del mercado.
2. Evaluación de Estrategias de Trading
Un analista cuantitativo quiere probar si una nueva estrategia de trading basada en medias móviles genera un retorno promedio diario diferente de 0. Con una muestra de 100 días, el retorno promedio diario de la estrategia es 0.03% y la desviación estándar es 0.2%.
Prueba Z:
Z=0.03−00.2100=0.030.02=1.5Z = \frac{0.03 – 0}{\frac{0.2}{\sqrt{100}}} = \frac{0.03}{0.02} = 1.5
Si el valor Z calculado (1.5) es menor que el valor crítico Z (1.96) para α=0.05\alpha = 0.05, no se rechaza la hipótesis nula de que la estrategia de trading no genera un retorno promedio diferente de 0.
Conclusión
La estadística inferencial es una herramienta poderosa en el análisis financiero que permite a los analistas hacer generalizaciones, predicciones y decisiones informadas basadas en datos muestrales. A través del entendimiento de conceptos clave como la probabilidad, las distribuciones de probabilidad, los intervalos de confianza y las pruebas de hipótesis, los profesionales financieros pueden evaluar la validez de sus modelos y tomar decisiones basadas en evidencia. La aplicación práctica de estos conceptos en el análisis de rendimiento de portafolios y la evaluación de estrategias de trading demuestra su relevancia y utilidad en el ámbito financiero.
Lecturas Recomendadas:
- «Introduction to the Practice of Statistics» por David S. Moore, George P. McCabe y Bruce A. Craig.
- «Statistical Methods for Business and Economics» por Paul Newbold, William L. Carlson y Betty Thorne.
- «Statistics for Business and Economics» por James T. McClave, P. George Benson y Terry Sincich.
Ejercicio Práctico:
- Cálculo de Intervalos de Confianza:
- Recopilar datos históricos de rendimientos de una acción durante 50 días.
- Calcular la media muestral y la desviación estándar.
- Construir un intervalo de confianza del 95% para el rendimiento promedio diario.
- Pruebas de Hipótesis:
- Recopilar datos de rendimientos de una estrategia de trading durante 30 días.
- Formular una hipótesis nula y una hipótesis alternativa sobre el rendimiento promedio diario.
- Realizar una prueba t y decidir si se rechaza o no la hipótesis nula.
Esta lección te proporciona una comprensión integral de la estadística inferencial y su aplicación en el análisis financiero.