Skip to content

Invivoo/guide-de-survie-big-data

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 

Repository files navigation

Guide de survie du Big Data

  1. Comprendre les limites des SGBDR
  2. Quand passer du SGBDR à un système NoSQL
  3. Systèmes NoSQL
    1. Théorème du CAP
    2. Différentes approches à la persistance
  4. Paradigmes du Big Data
  5. Architectures
  6. Solutions Hadoop
  7. Visualisation et exploration de la data
  8. Contribuer à ce guide

Comprendre les limites des SGBDR

  • les coûts de la montée en charge verticale
  • les coûts en ressources humaines pour mettre en place un tel matériel et assurer son bon fonctionnement, ce qui implique plus de coûts pour héberger plus de données
  • les bases de données relationnelles ne sont pas adaptées pour les traitements temps réel
  • les prix des licences de logiciels comme Oracle s'ajoutant au prix des machines spécifiques

Quand passer du SGBDR à un système NoSQL

TODO

Systèmes NoSQL

Théorème du CAP

  • Cohérence
  • Disponibilité
  • Tolérance au Partitionnement

Différentes approches à la persistance

Clef / Valeur

  • Voldemort
  • Riak
  • DynamoDB
  • memcached
  • Redis
  • OrientDB

Orienté document

Orienté colonnes

Graph

  • neo4j

Timeseries

  • Druid

Grille de comparaisons des différent sysyèmes de stockage par rapport au CAP

TODO

Paradigmes du Big Data

MapReduce

Inspiré de la programmation fonctionnelle. Séparation des données et des traitements

Référence : https://blog.matthewrathbone.com/2013/04/17/what-is-hadoop.html

Traitements en batch

  • Job MapReduce Hadoop

Traitements temps réels

  • Spark
  • Storm

Architectures

Architecture Lambda

Architecture Kappa

Solutions Hadoop

Hadoop

HDFS

Objectifs

  • tolérant aux pannes
  • scalable
  • modèle d'accès immuable
  • Déplacer les calculs vers les données
  • simple à mettre en place

Features

  • gestion des fichiers par blocs
  • réplication et distribution
  • gestion des droits
  • accès aux données en continu
  • stockage des grands jeux de données

API

  • Bash
  • Librairies pour chaque langages.
  • Rest avec HttpFS et WebHDFS

HBase

Hive

Pig

Zookeeper

Sqoop

Oozie

Flume

Kafka

Spark

Distributions Hadoop

TODO

Hortonworks

TODO

MapR

TODO

Cloudera

TODO

Retours d'expérience sur Hadoop

TODO

Visualisation et exploration de la data

Contribuer à ce guide

Ce guide est rédigé au format Markdown. N'hésiter pas à le corriger / complémenter par Pull Request.

About

Guide de survie pour le monde impitoyable du Big Data

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages