class: front .pull-left-wide[ # Estadística Correlacional] .pull-right-narrow[] ## Asociación, inferencia y reporte ---- .pull-left[ ## Juan Carlos Castillo ## Sociología FACSO - UChile ## 2do Sem 2023 ## [.orange[correlacional.netlify.com]](https://encuestas-sociales.netlify.com) ] .pull-right-narrow[ .center[ .content-block-gray[ ## Sesión 2: # .orange[Bases]] ] ] --- layout: true class: animated, fadeIn --- class: roja # Objetivos de la sesión de hoy <br> ### 1. Recordar y nivelar aprendizajes previos a este curso, fundamentalmente respecto al manejo de datos, medición y varianza ### 2. Introducción a medidas de asociación entre variables --- class: roja right .pull-left-narrow[ # Contenidos ] .pull-right-wide[ ## .yellow[1- Resumen sesión anterior] ## 2- Datos y variables ## 3- Bases: Tendencia central y dispersión ## 4- Midiendo asociación ] --- class: middle .pull-left[ .content-box-red[ .center[ # Imaginación sociológica Relación del individuo con la sociedad y con la historia Individuos en contexto social (C.Wright Mills)] ] ] .pull-right[ .center[ .content-box-green[ # Imaginación estadística Una apreciación de que tan usual o inusual es un evento, circunstancia o comportamiento, en relación con un conjunto mayor de eventos similares (Ritchey, 2008) ] ]] --- class: middle .pull-left[ .content-box-blue[ .center[ # Estadística descriptiva Número de observaciones registradas y frecuencia de esas observaciones (en una muestra o en la población) ] ] ] -- .pull-right[ .center[ .content-box-yellow[ # Estadística inferencial Contraste de hipótesis y teorías científicas en base a datos de investigación ] ]] --- # Sobre el sentido general del curso En este curso vamos a aprender tres cosas principales: 1. **Inferencia**: los resultados que encontramos en nuestra muestra, ¿se encuentran también en la población de la cual proviene la muestra? 2. **Asociación** entre variables: tamaño y significación estadística 3. **Reporte y reproducibilidad** --- class: roja right .pull-left-narrow[ # Contenidos ] .pull-right-wide[ ## 1- Resumen sesión anterior ## 2- .yellow[Datos y variables] ## 3- Bases: Tendencia central y dispersión ## 4- Midiendo asociación ] --- # Datos * Los datos son una expresión numérica de la medición de al menos una .roja[*característica*] de a lo menos una .roja[*unidad*] en a lo menos .roja[*un punto en el tiempo*] -- + Ejemplo: La esperanza de vida en Chile el 2017 fue de 79,9 años - Característica (variable) : esperanza de vida - Unidad: Años - Punto en el tiempo: 2017 --- # Medir .pull-left[ - “asignar números, símbolos o valores a las propiedades de objetos o eventos de acuerdo con reglas” (Stevens, 1951) - Vincula conceptos abstractos con indicadores empíricos ] .pull-right[  ] --- # Medir: requisitos básicos <br> - **Exhaustividad**: el mayor número de categorías significativas. - Ej: ¿Qué categorías se deben considerar para población migrante? - **Exclusividad**: atributos mutuamente excluyentes --- ## Base de Datos * Forma "rectangular" de almacenamiento de datos: .center[] --- ## Base de Datos - cada .blue[fila] representa una unidad o caso (ej: un entrevistad_) - cada .orange[columna] una variable (ej: edad) - cada .purple[variable] posee valores numéricos - los valores numéricos pueden estar asociados a una etiqueta (ej: 1=Mujer) --- ## Ejemplos de estudios / bases de datos 1. [Encuesta Centro de Estudios Públicos](https://www.cepchile.cl/cep/site/edic/base/port/encuestacep.html) 2. [Encuesta CASEN](http://observatorio.ministeriodesarrollosocial.gob.cl/casen-multidimensional/casen/casen_2017.php) 3. [Encuesta Lapop](https://www.vanderbilt.edu/lapop-espanol/) 4. [ELSOC](https://coes.cl/encuesta-panel/) --- # Variables - Una variable representa cualquier cosa o propiedad que varia y a la cuál se le asigna un valor. Es decir: - `\(Variable \neq Constante\)` - Pueden ser visibles o no visibles/latentes. (Ej: peso / inteligencia) --- ## Variables - discretas (Rango finito de valores): - Dicotómicas - Politómicas - continuas: - Rango (teóricamente) infinito de valores. --- ## Escalas de medición de variables - NOIR: Nominal, Ordinal, Intervalar, Razón .small[ | Tipo | Características | Propiedad de números | Ejemplo| |------------ |----------------------------------------------|--------------- |----------- | | *Nominal* | Uso de números en lugar de palabras | Identidad | Nacionalidad | | *Ordinal* | Números se usan para ordenar series | + ranking | Nivel educacional | | *Intervalar* | Intervalos iguales entre números | + igualdad | Temperatura | | *Razón* | Cero real | + aditividad | Distancia | ] ??? - Nominal: Números empleados como etiquetas (ej. sexo, raza) - Ordinales: Distintas categorías puede sen ordenados en serie. Posición, no distancia. (ej. cargos en una empresa) - Intervalares: Escalas de unidades iguales. Diferencia entre dos número consecuntivos refleja diferencia empírica. (ej. Horas del día) - Razón: caracterizados por la presencia de un cero absoluto. (ej. frecuencias de eventos) --- ## Tipos de datos en relación a escalas de medición. * **Datos categóricos**: - pueden ser medidos sólo mediante escalas nominales, u ordinales en caso de orden de rango * **Datos continuos**: - Medidos en escalas intervalares o de razón - Pueden ser transformados a datos categóricos ??? Conversión de continuo a categórico: estatura (cm) a categorías bajo – mediano – alto --- ## Descriptivos según tipo de variable <br> .small[ | | Categórica | Continua | Categ.(y)/Categ.(x) | Cont.(y)/Categ.(x) | |------------- |--------------------------------- |------------------------- |------------------------------------------------ |------------------------------------------ | | **Ejemplo** | **Estatus Ocupacional** | **Ingreso** | **Estatus Ocupacional (Y) / Género (X)** | **Ingreso (Y) / Género (X)** | | Tabla | Frecuencias / porcentajes | `\(\bar{X}\)`/sd ... o recodificar en categorías | Tabla de Contingencia | Clasificar Y | | Gráfico | Barras | Histograma / boxplot | Gráfico de barras condicionado | Histograma, box plot condicionado | ] --- # Tipos de análisis estadístico bivariado - Variable dependiente (y) : lo que quiero explicar - Variable independiente (x): lo que me permite explicar la dependiente .small[ | Variable independiente x | Variable dependiente Categórica | Variable dependiente Continua | |-------------------------- |----------------------------------- |-------------------------------------- | | Categórica | Análisis de tabla de Contigencia, Chi2 | Análisis de Varianza ANOVA, Prueba T | | Continua | Regresión Logística | Correlación / Regresión Lineal | ] ??? Ojo, técnicamente tambien podemos generalizar los modelos de regresión con variables independientes categoricas, pero esto requiere unas consideraciones menores, que veremos más adelante --- class: roja right .pull-left-narrow[ # Contenidos ] .pull-right-wide[ ## 1- Resumen sesión anterior ## 2- Datos y variables ## 3- .yellow[Tendencia central y dispersión] ## 4- Varianza y covarianza ] --- # Tendencia Central * **Moda**: valor que ocurre más frecuentemente * **Mediana**: valor medio de la distribución ordenada. Si N es par, entonces es el promedio de los valores medios * **Media** o promedio aritmético: suma de los valores dividido por el total de casos --- .pull-left-narrow[ # Dispersión: ## Varianza ] .pull-right-wide[  ] --- .pull-left-narrow[ # Dispersión: ## Varianza ] .pull-right-wide[  ] --- .pull-left-narrow[ # Dispersión: ## Varianza ] .pull-right-wide[  ] --- # Dispersión:  --- class: inverse, middle, center #La VARIANZA equivale al promedio de la suma de las diferencias del promedio al cuadrado --- class: middle .pull-left[ # Desviación Estándar <br>  ] .pull-right[ - Raiz Cuadrada de la varianza. - Expresada en la mismas unidades que los puntajes de la escala original ] --- class: middle, center # Más sobre datos, variables y varianza en: ##- [Moore: 1. Comprensión de los datos (1-54)](/docs/lecturas/moore_comprensiondelosdatos.pdf) --- class: roja right .pull-left-narrow[ # Contenidos ] .pull-right-wide[ ## 1- Resumen sesión anterior ## 2- Datos y variables ## 3- Tendencia central y dispersión ## 4- .yellow[Midiendo asociación] ] --- class: inverse, center middle # ¿Cómo puedo saber si una variable se encuentra asociada a otra variable? --- # Ejemplo: educación e ingreso - simulamos datos para - 8 casos - 8 niveles de .red[educación] (ej: desde basica incompleta=1 hasta postgrado=8) - 12 niveles de rangos de .red[ingreso] (ej: desde menos de 100.000=1 hasta más de 10.000.000=12) ---  --- # Generación de datos para el ejemplo .pull-left[ ```r educ <-c(2,3,4,4,5,7,8,8) ing <-c(1,3,3,5,4,7,9,11) data <-data.frame(educ,ing) ``` ] .pull-right[ ```r data ``` ``` ## educ ing ## 1 2 1 ## 2 3 3 ## 3 4 3 ## 4 4 5 ## 5 5 4 ## 6 7 7 ## 7 8 9 ## 8 8 11 ``` ] --- class: inverse middle right # ¿Cómo calcular la relación entre educación e ingreso? --- class: middle # En la (peligrosa) mente de Galton (1822-1911) .pull-left-narrow[ <br>  ] .pull-right-wide[ .right[  ]] ---  ---  ---  ---  --- .pull-left-narrow[ .medium[ ```r plot1 <- ggplot(data, aes(x=educ, y=ing)) + geom_point( colour = "red", size = 5) ``` ]] .pull-right-wide[ <!-- --> ] --- .pull-left-wide[ <!-- --> ] .pull-right-narrow[ <br> <br> <br> <br> .content-box-red[ ¿Cómo expresar matemáticamente este patrón de asociación?] ] --- class: bottom class: roja ## Próxima clase: # Covarianza y correlación <br> - Lectura obligatoria: [.yellow[Moore 97-131, Análisis de relaciones]](https://correlacional.netlify.app/files/textos/Moore.pdf) --- class: middle # Podcast recomendado: .pull-left-wide[  ] .pull-right-narrow[ <br> [Temporada 1, ep.25: Tres generaciones de imbéciles](https://open.spotify.com/episode/7pRcDSoXuKWis0fmHcOcYM) ] --- # ASISTENCIA .pull-left[  ] .pull-right[ <br> <br> <br> <br> <br> bit.ly/correlacional-asistencia ] --- class: front .pull-left-wide[ # Estadística Correlacional] .pull-right-narrow[] ## Asociación, inferencia y reporte ---- .pull-left[ ## Juan Carlos Castillo ## Sociología FACSO - UChile ## 2do Sem 2023 ## [.orange[correlacional.netlify.com]](https://encuestas-sociales.netlify.com) ]