En qualité d'analyste collaborant avec une compagnie aérienne, notre mission est d'analyser attentivement les données relatives aux vols existants et de concevoir un modèle de données performant, capable de prédire si un vol sera ponctuel ou s'il connaîtra des retards.
Ce projet a pour but de mettre en place un flux de travail visant à prédire les retards de vols en utilisant PySpark, un framework de traitement de données en mémoire, ainsi qu'Apache Airflow, un outil de gestion des workflows. L'objectif principal est d'établir des prévisions précises des retards au départ et à l'arrivée des vols en se basant sur les données historiques des compagnies aériennes.
|-- airline_project
|-- README.md
|-- airflow
| |-- dags
| |-- airline_data_dag.py
|-- scripts
| |-- data_preparation.py
| |-- ml_model.py
| |--visualisation.py
|-- data
| |-- flights.csv
|-- spark
|-- (installation de Spark - ne pas sauvegarder sur git)
Python , Spark/Pyspark, RDD, DataFrame, spark_MLlib, Airflow