
Diciembre 2021
M. Sc. Liliana Millán Núñez liliana.millan@tec.mx
Herramientas de análisis de datos
Contenido
- R
- Python
- Análisis exploratorio de datos
Sin importar la herramienta que utilices para el análisis de los datos y el modelado, necesitarás tener tus datos en formato tidy.
Recordemos que el formato tidy implica que:
- Cada fila es una observación
- Cada columna es una variable/característica de cada observación
- Se tiene una matriz de observaciones
La estructura de datos que se ocupa tanto en R como en Python/Pandas es el Data Frame que asimila una tabla -matriz- que sigue la filosofía de datos tidy.
R
- Lenguaje de programación estadístico
- OpenSource
- R base
- RStudio
- Tidyverse: La primera vez:
install.packages("tidyverse"), una vez instalado, cargar la librería conlibrary(tidyverse) - Dplyr: La primera vez:
install.packages("dplyr"), una instalado, cargar la librería conlibrary(dplyr). - Librerías de ML: Depende del algoritmo, modelo que quieres utilizar.
Si por algún motivo no puedes instalar R y RStudio en tu máquina, puedes ocupar rdrr.io para correr código de R en tu browser rdrr.io.
Python
- Lenguaje de programación general
- OpenSource
- Pandas: Paquete que habilita a Python para análisis de datos (simil de R).
- Seaborn: Paquete que habilita a Python para realizar gráficas.
- Scikit-learn: Paquete que habilita a Python la parte de machine learning.
- Spark: Paquete que habilita a Python al análisis de datos y machine learning en cluster.
Si no quieres/puedes instalar python y demás paquetes en tu máquina, puedes ocupar google colab para generar y correr notebooks de Python que te permiten analizar tus datos. Se guardan como scripts en Drive. Google Colab
Pandas
En Pandas hay dos tipos básicos de estructuras de datos las Series y los DataFrames. Las Series son las columnas y los DataFrames son las matrices creadas a partir de un conjunto de Series.
Análisis exploratorio de datos (EDA)
Objetivos de un EDA:
- Conocer los datos -nivelar conocimiento con el cliente/socio-
- Identificar errores en los datos
- Responder preguntas de hipótesis que se tienen sobre los datos
- Identificar variables que aportan información para responder una pregunta analítica -generalmente predictiva-
Ejercicio
Ocuparemos los datos de Covid 19 de México para realizar un análisis exploratorio de datos.
Queremos contestar las siguientes preguntas:
- ¿Con qué variables contamos?
- ¿Los datos están en formato
tidy? - ¿Desde cuándo hasta cuándo tenemos datos de casos de Covid 19?
- ¿Tenemos datos de todas las entidades federativas?
- ¿Existen casos en donde la fecha de defunción suceda antes de la fecha de ingreso?
- ¿Cuántos casos hay por año?
Hipótesis
- Personas mayores de 60 años tienen mayor defunción que otros grupos de edad
- Los hombres son más susceptibles a morir por COVID-19
- Una vez que eres intubado es poco probable que sobrevivas
- Personas con comorbilidades tienen mayor probabilidad de morir por COVID-19
- Estados “turísticos” tienen más casos
- Un par de semanas después de fechas “feriadas” -día de las madres, semana santa, navidad, año nuevo- hay más contagios