class: title-slide, inverse, right, top background-image: url(data:image/png;base64,#02_img/logo-uc.png) background-position: 7% 13% background-size: 20%, cover <br> .right[ # Clase 2 ### <br> Fundamentos de la estadística para las CSC ] <br> <br> <br> <br> <br> <br> .left[Aproximación a las políticas públicas desde los datos | UC | 09 de junio, 2023] <hr> .left[
<b>José D. Conejeros</b> | [
jdconejeros@uc.cl](mailto:jdconejeros@uc.cl) ] --- layout:true <div class="my-footer"> <span style="width:100%; text-align:center">
Clase 2|
<a href=mailto:jdconejeros@uc.cl style="color: white"> jdconejeros@uc.cl |
Escuela de Ingeniería - Escuela de Gobierno UC 2023</a> </span> </div> --- name: sl0 class: inverse middle animated, fadeIn #.pull-left[.center-l[Guía]] .pull-right[ .center-r[ .large[ 1. [El uso de la estadística en Políticas Públicas](#t1) 2. [Estadística Descriptiva](#t2) 3. [Estadística Inferencial](#t3) ] ] ] --- name: t1 class: inverse middle center animated, fadeIn ## 1. El uso de la estadística en Políticas Públicas --- class: animated, fadeIn ## Estadística y Políticas Públicas <img src="data:image/png;base64,#02_img/encuestas.png" width="100%" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Estadística y Políticas Públicas <img src="data:image/png;base64,#02_img/encuestas2.png" width="70%" style="display: block; margin: auto;" /> --- name: t2 class: inverse middle center animated, fadeIn ## 2. Estadística Descriptiva --- class: animated, fadeIn ## Una definición La estadística descriptiva nos entrega información sobre la **distribución** de los datos en una muestra. En otras palabras, es un **conjunto de procedimientos matemáticos** realizados para resumir y/o analizar información obtenida de manera sistemática. Por lo tanto, podemos representar de forma apropiada cómo se distribuye una **variable** contabilizando tanto la frecuencia de ocurrencia de cada puntuación en una muestra, como la distribución y dispersión de las puntuaciones. --- class: animated, fadeIn ## Para variables numéricas **Estadísticos de tendencia central** - Media: `$$\overline{x} = \frac{\sum_{i=1}^{n}x_i}{n} = \frac{1}{n}\sum_{i=1}^{n}X_i$$` - Mediana: `$$Mdn=\frac{n+1}{2}$$` - Moda: Valor con el mayor número de repeticiones. --- class: animated, fadeIn ## Para variables numéricas **Dispersión** - Rango: `$$Rg=(X_{max} - X_{min}) + UR$$` - Varianza: `$$S^2 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})^2}{n-1}$$` - Desviación estándar: `$$S = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \overline{x})^2}{n-1}}$$` --- class: animated, fadeIn ## Para variables numéricas **Posición** - Cuartiles: Fracionan la distribución en 4 partes con igual cantidad de casos. Corresponden a las puntuaciones (o valores) de una variable bajo los cuales queda ubicado un porcentaje determinado del total de las puntuaciones. En este caso, son las puntuaciones `\(Q_1\)`, `\(Q_2\)` y `\(Q_3\)` que cuentan con un 25% de los casos cada uno. <img src="data:image/png;base64,#02_img/percentiles.png" width="50%" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Para variables categóricas/discretas **Distribución** - Frecuencias: Nº de veces que es observada cada puntuación (valor o atributo) de una variable en la muestra. - Proporciones: `$$p=\frac{freq \ categoria }{n}$$` - Porcentajes: `$$Porc=\frac{freq \ categoria }{n}*100=p*100$$` - Tasas: `$$tasa=\frac{freq \ grupo \ 1}{freq \ grupo \ 2}*100$$` --- class: animated, fadeIn ## Medidas asociadas a la forma de la distribución **Sesgo o Asimetría**: mide la forma en un sentido horizontal. <img src="data:image/png;base64,#02_img/simetria.png" width="588" style="display: block; margin: auto;" /> + **Distribución simétrica** (asimetría = 0): es una distribución que no presenta sesgo y sus indicadores de `\(\overline{X}\)`, `\(Mdn\)` y `\(Moda\)` son equivalentes. + **Asimetría hacia la izquierda** (asimetría < 0) cuando una distribución tiene una asimetría negativa significa que tiene una cola más larga a la izquierda. Esto es lo que se entiende por un sesgo a la izquierda de la distribución. + **Asimetría hacia la derecha** (asimetría > 0): cuando una distribución tiene una asimetría positiva significa que tiene una cola más largo a la derecha. Esto es lo que se entiende por un sesgo a la derecha de la distribución. --- class: animated, fadeIn ## Medidas asociadas a la forma de la distribución **Curtosis**: mide la forma en un sentido vertical. Esta nos ayuda a identificar la dispersión de nuestros datos y la existencia de valores extremos. <img src="data:image/png;base64,#02_img/curtosis.png" width="472" style="display: block; margin: auto;" /> + Si la **curtosis>3** entonces podemos observar que hay una importante concentración de los datos en torno al promedio. + Si la **curtosis=3** la distribución representa una distribución normal de los datos. + Si la **curtosis>3** entonces la distribución presenta una mayor dispersión. --- class: animated, fadeIn ## Eventos aleatorios Un **evento aleatorio** se entenderá se entenderá como el resultado de un fenómeno que no puede determinarse previamente. Y el conjunto de todos los posibles resultados de un evento aleatorio se entiende por **espacio muestral**: `\(\Omega\)`. + **Experimento**: Procedimiento que se puede repetir en muchas oportunidades y en el cual se conocen todos los resultados posibles. > Lanzar una moneda. + **Evento aleatorio**: se entenderá como el resultado de un fenómeno que no puede determinarse previamente. > Resultado del lanzamiento de la moneda. + **Espacio muestral**: el conjunto de todos los resultados de un evento aleatorio. > cara/sello. + **Variable aleatoria**: el registro de los resultados de un experimento. > La variable con nuestros resultados. --- name: t3 class: inverse middle center animated, fadeIn ## 3. Estadística Inferencial --- class: animated, fadeIn ## Probabilidades Los resultados de un experimento se pueden escribir como una variable aleatoria (categórica onumérica), lo cual facilita la expresión de los sucesos y sus probabilidades. <img src="data:image/png;base64,#02_img/omega.png" width="75%" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Probabilidades La probabilidad es la herramienta que tenemos para estudiar eventos aleatorios. Es una frecuencia relativa con que puede esperarse que ocurra un evento sabiendo todos los resultados posibles a obtener. En otras palabras nos permiten estudiar la incertidumbre sobre la ocurrencia de eventos aleatorios: `$$P(x)=\frac{\text{Nº de formas en que el evento x puede ocurrir}}{\text{Nº de casos posibles}}$$` Esta definición de probabilidad, denominada concepto frecuentista, considera la repetición del experimento infinitas veces, siempre bajo las mismas condiciones (i.i.d.). --- class: animated, fadeIn ## Probabilidades La **probabilidad de un resultado** es la proporción de veces que ese resultado ocurriría si pudiésemos observar un evento aleatorio un número infinito de veces. <img src="data:image/png;base64,#02_img/distribucion.png" width="70%" style="display: block; margin: auto;" /> Donde `\(\hat{p}_n\)` corresponde a la proporción de ocurrencias de un resultado específico. --- class: animated, fadeIn ## Probabilidades Rango de variación: `\(0 \leq P(x) \leq 1\)` Suceso seguro: `\(P(x)=1\)` Suceso nulo: `\(P(x)=0\)` Suma de probabilidades: `\(P(A \cup B)=P(A) + P(B); \ si \ A \cap B = \emptyset\)` Suceso complementario: `\(P(A^c)=1-P(A); \ con \ A^c \ complemento \ de \ A\)` Eventos mutuamente excluyentes: dos eventos no pueden ocurrir simultáneamente. `$$P(Cara)=\frac{1}{2}$$` `$$P(Sello)=\frac{1}{2}$$` `$$P(Cara) \cup P(Sello) = P(Cara) + P(Sello)=1$$` `$$P(Cara) \cap P(Sello) = \emptyset$$` --- class: animated, fadeIn ## Distribuciones de probabilidad Muchas veces interesa saber cuál es la probabilidad asociada a cada uno de los valores posibles de la variable aleatoria y compararlos. Para ello, se utilizan las distribuciones de probabilidad: **Distribución de probabilidad:** Listado que relaciona cada valor de una variable aleatoria con su frecuencia relativa teórica, es decir, su probabilidad de ocurrencia en la población. <img src="data:image/png;base64,#02_img/dist_proba.png" width="70%" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Distribución de probabilidad normal <img src="data:image/png;base64,#02_img/dist_normal_estandar.png" width="70%" style="display: block; margin: auto;" /> La distribución de probabilidad normal es una de las más comunes, ejemplos los constituyen la distribución del coeficiente intelectual, la distribución de notas en un curso, la distribución del peso, y la distribución de estatura de la población. Se caracteriza por su forma acampanada, su simetría y porque media, mediana y moda coinciden. --- class: animated, fadeIn ## Regla empírica Cuando una distribución está distribuida normalmente, un 68% de los datos está a menos de 1 desviación estándar de la media, el 95% de los datos está a menos de 2 desviaciones estándar de la media y 99,7% está a menos de 3 desviaciones estándar de la media. <img src="data:image/png;base64,#02_img/regla_empirica.png" width="70%" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Regla empírica <img src="data:image/png;base64,#02_img/regla_empirica2.png" width="100%" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Regla empírica <img src="data:image/png;base64,#02_img/regla_empirica3.png" width="100%" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Regla empírica <img src="data:image/png;base64,#02_img/regla_empirica4.png" width="75%" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Normalidad como condición <img src="data:image/png;base64,#02_img/normalidad.png" width="100%" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Distribución muestral y teorema del límite central Dado el comportamiento de la distribución *t* Student ante una cantidad importante de grados de libertad y la aplicación de la Ley de los Grandes Números, estamos en condiciones de enunciar el Teorema del Límite Central: > Las **medias de las muestras aleatorias** simples, extraídas de una población que **se distribuye normalmente**, darán lugar a una distribución muestral que **también es normal**, aunque sean pequeñas. > Si el **tamaño de cada muestra es suficientemente “grande”**, con independencia de la forma de la distribución de la población, las **medias de las muestras tenderán a distribuirse normalmente**. <img src="data:image/png;base64,#02_img/regla_empirica.png" width="484" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Inferencia estadística La inferencia estadística proporciona métodos que permiten sacar conclusiones de una población a partir de los datos de una muestra. <img src="data:image/png;base64,#02_img/im53.png" width="713" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Inferencia estadística <img src="data:image/png;base64,#02_img/im54.png" width="658" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## ¿Qué es la inferencia estadística? La estadística inferencial busca elaborar conclusiones de la población a partir de una muestra: <img src="data:image/png;base64,#02_img/im55.png" width="75%" height="75%" style="display: block; margin: auto;" /> > La muestra no es un fiel espejo de la población (hay un error por el hecho de trabajar con muestras). > Las distribuciones muestrales contienen probabilidades de que el estadístico muestral sea diferente al parámetro poblacional. --- class: animated, fadeIn ## Estimación de parámetros + **Estimación puntual**: es la estimación que utiliza el valor del estadístico muestral como indicador del valor del parámetro. **¿Cuál es el problema de la estimación puntual?** La estimación puntual no incorpora la variabilidad del estadístico entre distintas muestras: esta variabilidad es la probabilidad de lo que sucede en mi muestra no sea lo que ocurre en la población. .pull-left[ <img src="data:image/png;base64,#02_img/im56.png" width="254" style="display: block; margin: auto;" /> ] .pull-right[ De todas las muestras posibles, puede ser que la media sea: `\(\bar{x}_1\)` ó `\(\bar{x}_2\)`. Ambas medias son diferentes al parámetro, pero hay una que está más próxima. ] **Para poder estimar qué pasa en la población, se debe incorporar la variabilidad del estadístico muestral.** --- class: animated, fadeIn ## Estimación por intervalo La estimación por intervalo del parámetro poblacional es aquella que identifica un rango de valores entre los que puede situarse el parámetro poblacional. Estos valores se determinan a partir de la muestra. .pull-left[ <img src="data:image/png;base64,#02_img/im57.png" width="267" style="display: block; margin: auto;" /> ] .pull-right[ El estadístico muestral **puede estar en cualquier punto de la distribución muestral**. El intervalo es un rango determinado a partir de valores de la muestra (tamaño, desviación estándar y media) que tiene una **probabilidad conocida de comprender el parámetro**. ] **La probabilidad de que el intervalo contenga el parámetro se calcula por el área bajo la curva.** --- class: animated, fadeIn ## Nivel de confianza y significancia **¿Cómo se determina entre qué rangos de valores está el parámetro?**. La respuesta depende de cuán confiados deseemos estar de que el parámetro está en ese rango. De esta forma: <img src="data:image/png;base64,#02_img/im58.png" width="275" style="display: block; margin: auto;" /> **Nivel de confianza** ( `\(1 - \alpha\)` ): Es la probabilidad de que la muestra elegida produzca un intervalo que incluya el parámetro que se está estimando. **Nivel de significancia** ( `\(\alpha\)` ): Probabilidad de que el intervalo calculado a partir de la muestra no comprenda el parámetro. --- class: animated, fadeIn ## Nivel de confianza y significancia Mientras más grande el nivel de confianza, el rango se amplía y por lo tanto aumenta la certeza (la probabilidad de incluir el parámetro). <img src="data:image/png;base64,#02_img/im59.png" width="670" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Intervalos de confianza Estimador puntual es una valor posible para un parámetro poblacional **¿Y si usamos un rango de valores?** El intervalo de confianza es una estimación intervalar que busca capturar un paramétro poblacional (desconocido) bajo una cierta probabilidad en muestras repetidas o nivel de confianza. Si consideramos un nivel de confianza ( `\(1-\alpha\)` ) del 95% podemos obtener una medida de posibles valores para el parámetro poblacional de la siguiente manera: `$$Estimador \ Puntual \ \pm \ 1.96*EE$$` Donde EP es el estimador puntual y EE el error estándar. En este caso el estimador está a `\(\pm\)` 1.96 desviaciones estándar del parámetro en un 95% de las veces. **SUPUESTO:** 1. Los datos provienen de una muestra aleatoria de la población. 2. Normalidad en la distribución o tamaños muestrales grandes (por Teorema del Límite Central) --- class: animated, fadeIn ## Intervalos de confianza Error estándar nos da una guía del tamaño del intervalo de confianza Podemos tener (aprox.) un 95% de confianza en que hemos encontrado el parámetro poblacional si: `$$Estimador \ Puntual \ \pm \ 1.96*EE$$` **Notas:** > Aproximadamente verdad, se cumple muy bien para distribuciones normales y muestras grandes > El estimador está a menos de 1.96 desviaciones estándar del parámetro poblacional un 95% de las veces --- class: animated, fadeIn ## Intervalos de confianza: Altura a un 95% <img src="data:image/png;base64,#02_img/im60.png" width="787" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Intervalos de confianza: Altura a un 95% <img src="data:image/png;base64,#02_img/im61.png" width="762" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Intervalos de confianza: Días físicamente activo a un 95% <img src="data:image/png;base64,#02_img/im62.png" width="627" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Intervalos de confianza: Días físicamente activo a un 95% <img src="data:image/png;base64,#02_img/im63.png" width="832" style="display: block; margin: auto;" /> --- class: animated, fadeIn ## Referencias Diez D., D Barr C., and Çetinkaya-Rundel M. (2019) Open Intro Statistics, fourth edition. OpenIntro, Inc. > Capítulo 4. "Distribution of random variables". pp. 131-144 > Capítulo 5. "Foundations for inference". pp. 168-189 Moore, D. S. (2005). Estadística aplicada básica. Antoni Bosch editor. > Capítulo 1. "Análisis de distribuciones". Tema 1.4 Distribuciones normales pp. 54-78 > Capítulo 4. "Distribuciones muestrales y probabilidad". Tema 4.4 Distribuciones de la media muestra pp. 298-313 --- name: despedida class: inverse, center, middle background-image: url(data:image/png;base64,#02_img/logo-uc.png) background-position: 50% 10% background-size: 20%, cover <br> <br> <br> <br> <br> <br> <br> <br> ## Clase 2 ### Fundamentos de la estadística para las CSC 09 de junio, 2023 <div class="my-footer"></div>
<b>José D. Conejeros</b> | [
jdconejeros@uc.cl](mailto:jdconejeros@uc.cl) | [
JDConejeros](https://github.com/JDConejeros)