👋 Hola, soy Nicolas! Analsita de datos de Colombia 🇨🇴. En este escenario vamos a estar revisando un caso de una empresa brasileña que tiene un problema con las entregas! Vamos a averiguar por que?!
Utilizamos las siguietes librerias:
- 🐼 PANDAS
- 📏 MATPLOTLIP
- 🌊 SEABORN
- 💣 PLOTY
- 📝 REPORTLAB
El notebook 📑 https://drive.google.com/file/d/16dNwyTIjXHQv_huVnkGJCt_lvacFNnfW/view?usp=drive_link
La data 📦 https://drive.google.com/file/d/1U4lal8Ztw1lQmukoZN2vDaFgPVc1DWuq/view?usp=drive_link
- La ides es empezar a tener el ritmo de las librerias de python, que ayudan a modelar datos empezando por los mas faciles los CSV
⚠️ La idea era utilizar Jupter desde chorme pero se me dificulto entonces voy a utilizar VSC = Visual Studio Code, estoy mas familiarizado con esta: para colocar la ruta de la carpeta pongo una ‘r’ antes de la ruta para que entienda que es un path, todo se soluciono corrigiendo las rutas del PATH⚠️ Hay otro problema, es que habia una ruta repetida, ademas se soluciono el problema con el motor ‘engine=openpyxl’
📘 La funcion parsel_dates es nueva: asi que investigar un poco, creo que es un parametro del JOIN, otra cosa; el OS facilita mucho lo del PATH que normalemente es un poco engorroso
📘 Otro operador muy util es el .unique() que sirve para saber con que variable categorica podemos nos podemos familiarizar, valor.count() lo mismo y nos dice cuantas vecez esta repetida esa variable categorica
📘 Para seleccionar más de una columna, se necesita usar un doble corchete ([['column1', 'column2']]). si solo se queire una un solo corchete es suficiente o el df.nombre_de_Columna
📘El metodo .query es de los mas utiliz a la hora de hacer un dataframe mas especifico a nuestra necesidad
📘 Percentil vs Porcentaje: el percentil es como se comporta un valor en una lista de valores ejemplo: si un estudiante esta en el percentil 90 de un examen quiere decir que esta sobre el 90% de las calificaciones. ¿como para que me servira esto? Aqui podemos sacar .mean para saber en que posicion esta el promedio.
📘 Historiogramas: sirven para saber cuantas veces se repite un valor dentro de un grupo de valores. bins = cantidad de particiones en los que se agruparan los datos (en uso practico entre menos bins se usen mas agrupada se vera la grafica)
📘 Variable hue :es uno de los parametros mas bellos a la hora de generar graficos ya que separa visualmente las variables categoricas
✅ Ya lo logre lo que hice fue cambiar el ,hue= ‘geolocation_state’
🌐3_e_map_long_delays_by_state.html,
🌐3_d_evolution_delayed_orders_by_region.html,
📒 3_e_map_long_delays_by_state.py
🌐3_d_evolution_delayed_orders_by_quarter.html
📒3_d_evolution_delayed_orders_by_region.py
📘 Ploty es una herramienta que viene de un API que tiene una forma de escritura parecida a 🌊seaborn🌊
📘 siempre que utilices un groupby tienes que ponerle una operaciones sino el resultado sera <pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000024FE56C5120>
📘 Para lograr hacer la escala de color hay que darse cuenta de que el tipo de dato de la columna color = ‘delay_status’ debe ser un “int”
👨🏻💻
https://drive.google.com/uc?id=1VSubyPUWjCd05sg9cItFbVrtqli7yR90&export=download
✅ Se soluciono instalando el paquete kaleido globalmente
✅ Lo solucionamos con el posicionamiento del eje Y (y_position = 100) por que este es un gran tema, intentamos de todo mas de 2 horas intentando colocar un link 🫠🫠 la Y position es una variable muy importante.
🚨 Dependiendo de que tanto porcentaje del reporte se quiere automatizar, se debe tener en cuenta varios aspectos:
1️⃣ Formato el reporte
2️⃣Tienes todo lo que quieres agregar en el reportes ya programado?
3️⃣ Estan dentro del mismor documento python? (que ya veremos si es lo mejor)
4️⃣En que formato estan las imagenes
5️⃣ DONDE ESTA LA INFORMACIÓN: se me complico mucho
📓 Prototipos:
📘 LAS HOJAS DE PDF TIENES QUE VERLAS COMO UN PLANO DONDE SE MUEVE TODO POR EJE_X Y EJE_Y, si contralos eso puedes poner cada cosa en su lugar para que se vea bien
📘 Usa barras diagonales inversas o dobles: Dependiendo del sistema operativo que estés usando, es posible que necesites usar barras diagonales inversas (\
) o barras diagonales dobles (\\
) en lugar de barras diagonales normales (/
) en la ruta de la imagen.
😊 Con esto terminamos la plantilla que queremos del informe 😊
La creación de un modelo de reporte es importante pero la interpretación de la información esta relaciónada con un ser vivo en este caso un humano 🫀
5_reporte_brasil_ia_consulting.pdf
Agrego el codigo de la automatización espero seguir trabajando para automatizar mas los reportes!!!