Skip to content

nicojsuarez/oilst

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

👋 Hola, soy Nicolas! Analsita de datos de Colombia 🇨🇴.

¡Bienvenido a mi proyecto! ¿Mucha lectura? Aqui te dejo los resultados:

Video de resultados

Bibliotecas Phython y herramientas de visualización de datos

👋 Hola, soy Nicolas! Analsita de datos de Colombia 🇨🇴. En este escenario vamos a estar revisando un caso de una empresa brasileña que tiene un problema con las entregas! Vamos a averiguar por que?!

Utilizamos las siguietes librerias:

  • 🐼 PANDAS
  • 📏 MATPLOTLIP
  • 🌊 SEABORN
  • 💣 PLOTY
  • 📝 REPORTLAB

📨 Envíame un mail →

📝 My CV →

PANDAS 🐼

El notebook 📑 https://drive.google.com/file/d/16dNwyTIjXHQv_huVnkGJCt_lvacFNnfW/view?usp=drive_link

La data 📦 https://drive.google.com/file/d/1U4lal8Ztw1lQmukoZN2vDaFgPVc1DWuq/view?usp=drive_link

La idea


  • La ides es empezar a tener el ritmo de las librerias de python, que ayudan a modelar datos empezando por los mas faciles los CSV

Problemas


  • ⚠️ La idea era utilizar Jupter desde chorme pero se me dificulto entonces voy a utilizar VSC = Visual Studio Code, estoy mas familiarizado con esta: para colocar la ruta de la carpeta pongo una ‘r’ antes de la ruta para que entienda que es un path, todo se soluciono corrigiendo las rutas del PATH ⚠️ Hay otro problema, es que habia una ruta repetida, ademas se soluciono el problema con el motor ‘engine=openpyxl’

Aprendizajes


📘 La funcion parsel_dates es nueva: asi que investigar un poco, creo que es un parametro del JOIN, otra cosa; el OS facilita mucho lo del PATH que normalemente es un poco engorroso

📘 Otro operador muy util es el .unique() que sirve para saber con que variable categorica podemos nos podemos familiarizar, valor.count() lo mismo y nos dice cuantas vecez esta repetida esa variable categorica

📘 Para seleccionar más de una columna, se necesita usar un doble corchete ([['column1', 'column2']]). si solo se queire una un solo corchete es suficiente o el df.nombre_de_Columna

📘El metodo .query es de los mas utiliz a la hora de hacer un dataframe mas especifico a nuestra necesidad

SEABORN 🚢

Aprendizajes:


📘 Percentil vs Porcentaje: el percentil es como se comporta un valor en una lista de valores ejemplo: si un estudiante esta en el percentil 90 de un examen quiere decir que esta sobre el 90% de las calificaciones. ¿como para que me servira esto? Aqui podemos sacar .mean para saber en que posicion esta el promedio.

📘 Historiogramas: sirven para saber cuantas veces se repite un valor dentro de un grupo de valores. bins = cantidad de particiones en los que se agruparan los datos (en uso practico entre menos bins se usen mas agrupada se vera la grafica)

📘 Variable hue :es uno de los parametros mas bellos a la hora de generar graficos ya que separa visualmente las variables categoricas

RETOS

⚠️ No logre hacer el ultimo grafico ya que queda muy pegado los estados y no es apreciable :’(

✅ Ya lo logre lo que hice fue cambiar el ,hue= ‘geolocation_state’ ☺️

EX - PLOTY 💥

Descargas

🌐3_e_map_long_delays_by_state.html,

🌐3_d_evolution_delayed_orders_by_region.html,

📒 3_e_map_long_delays_by_state.py

🌐3_d_evolution_delayed_orders_by_quarter.html

📒3_d_evolution_delayed_orders_by_region.py

Problemas

⚠️ EL .iloc[cordenadas de los datos] Siempre me salva a la hora de hacer un print de un dato especifico, aunque, creo que se podria mejorar por medio de una función para no tener que buscar la coordenada del dato especifico

⚠️ En el entregable 3_d, el nombre dice que es por .region, pero en la descripcion del scrip no menciona hacerlo con la region… ⁉️

Aprendizajes

📘 Ploty es una herramienta que viene de un API que tiene una forma de escritura parecida a 🌊seaborn🌊

📘 siempre que utilices un groupby tienes que ponerle una operaciones sino el resultado sera <pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000024FE56C5120>

📘 Para lograr hacer la escala de color hay que darse cuenta de que el tipo de dato de la columna color = ‘delay_status’ debe ser un “int”

Automatización del informe 🤖

Descarga el informe:

👨🏻‍💻 https://drive.google.com/uc?id=1VSubyPUWjCd05sg9cItFbVrtqli7yR90&export=download

⚠️ Alertas ⚠️

⚠️Creo que este es el modulo que mas aprendizajes me va aportar ya que nunca he automatizado reportes

⚠️ No se como agregar imagenes a las dispostivas, por que no quiero exportarlas quiero traerlas directamente de python, utilizando ploty no me deja integrarlas:

✅ Se soluciono instalando el paquete kaleido globalmente

⚠️ Uno gran problema es que la unica manera de ver archivos en htlm es en el navegador, como no se mueven en el pdf, voy a agregar un enlace donde se puedan ver en HTLM la situación es que tengo problemas por que no se ve el enlace.

✅ Lo solucionamos con el posicionamiento del eje Y (y_position = 100) por que este es un gran tema, intentamos de todo mas de 2 horas intentando colocar un link 🫠🫠 la Y position es una variable muy importante.

🚨 Cosas que debes prestar atención 🚨

🚨 Dependiendo de que tanto porcentaje del reporte se quiere automatizar, se debe tener en cuenta varios aspectos:

1️⃣ Formato el reporte

2️⃣Tienes todo lo que quieres agregar en el reportes ya programado?

3️⃣ Estan dentro del mismor documento python? (que ya veremos si es lo mejor)

4️⃣En que formato estan las imagenes

5️⃣ DONDE ESTA LA INFORMACIÓN: se me complico mucho

📘 Aprendizajes 📘

📓 Prototipos:

🐛 Chequea los prototipos →

📘 LAS HOJAS DE PDF TIENES QUE VERLAS COMO UN PLANO DONDE SE MUEVE TODO POR EJE_X Y EJE_Y, si contralos eso puedes poner cada cosa en su lugar para que se vea bien

📘 Usa barras diagonales inversas o dobles: Dependiendo del sistema operativo que estés usando, es posible que necesites usar barras diagonales inversas (\) o barras diagonales dobles (\\) en lugar de barras diagonales normales (/) en la ruta de la imagen.

😊 Con esto terminamos la plantilla que queremos del informe 😊

🚧Conclusion de reporte

La creación de un modelo de reporte es importante pero la interpretación de la información esta relaciónada con un ser vivo en este caso un humano 🫀

5_reporte_brasil_ia_consulting.pdf

Agrego el codigo de la automatización espero seguir trabajando para automatizar mas los reportes!!!

About

Hello world! Here we are going to find out why the company has a problem with deliveries! I leave all the links in the doc!

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages