Big data

Oque e Big data ?

Big data é a área do conhecimento que estuda como tratar, analisar e obter informações a partir de conjuntos de dados grandes demais para serem analisados por sistemas tradicionais

Os 4 V's do big data

Os 4 V's do big data sao a base para qualquer projeto na area de dados abaixo eles estão explicados com mais detalhes

Velocidade

Hoje em dia a velocidade de coleta e de analises desses dados e imprevisível pois as decisões sao tomadas em questão de momentos pelos gestores
Variedades

A variedade também e muito importante pois nao so de um banco nao relacional vai vir os dados hj em dia tudo e considerado um indicativo para avaliar e tomar decisões
Volume

Conforme vai passando o tempo o volume aumenta de forma considerável e escalonável com todas as formas de coleta e formas de analises
Veracidade

E imprescindível que os dados passem uma verdade ao gestor para ele tomar a descidões precisas com um fundamento base muito forte por isso a importância de testes antes de implementar qualquer dashboard ou modelo de analise

Tipo de banco de dados

Banco de dados RELACIONAIS

bancos de dados relacionais sao compostos por esquemas e sao muito bem estruturados
Sao a base dos DW Tradicionais que comportam a maior parte dos sistemas internos da empresa como CRM

Exemplos desses bancos sao:

Postgres
mysql
oracle

Banco de dados NAO RELACIONAIS

Um banco de dados não relacional é um banco de dados que não usa o esquema de tabela de linhas e colunas encontrado na maioria dos sistemas de banco de dados tradicionais.E armazena qualquer tipo de arquivo em varios formatos diferentas
Com eles sao formados os modelos de DL,DS,DM,DH

Examplos desses bancos sao:

firebase
cassandra
mongodb

Armazenamento Hibrido

Modelos de arquitetura de dados

data lake

data hub

data lakehause

data layer

data storage

Armazenamento e Processamento (Cluster)

Um cluster consiste em computadores fracamente ou fortemente ligados que trabalham em conjunto, de modo que, em muitos aspectos, podem ser considerados como um único sistema.

Processamento

Processamento paralelo é uma forma mais eficiente de trabalhar informações, ele tem ênfase na exploração de eventos simultâneos na execução de um programa. Na prática, consiste no uso simultâneo de várias unidades de processamento (CPUs) para realizar trabalhos computacionais.

Armazenamento

processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes.

Ferramentas

Em resumo processamento paralelo é um método da área da computação que permite que dois (ou mais) processadores de um computador sejam usados para trabalhar em partes separadas de uma tarefa. Dessa forma, é possível diminuir o tempo gasto na resolução do problema.

As ferramentas mais recomendadas sao a do ecossistema Hadoop e a que que tera como foco

Hadoop
spark
Airflow

Roadmap Hadoop

Ecossistema Hadoop

Cloud computing

Computação em nuvem é um termo coloquial para a disponibilidade sob demanda de recursos do sistema de computador, especialmente armazenamento de dados e capacidade de computação, sem o gerenciamento ativo direto do utilizador
Arquitetura de nuvem é a forma como os componentes de tecnologia se combinam para criar uma nuvem, na qual os recursos são agrupados pela tecnologia de virtualização e compartilhados em uma rede.

MlOps E DataOps

O Conceito de MlOps E DataOps é a combinação de filosofias culturais, práticas e ferramentas que aumentam a capacidade de uma empresa de distribuir aplicativos e serviços em alta velocidade: otimizando e aperfeiçoando produtos em um ritmo mais rápido do que o das empresas que usam processos tradicionais de desenvolvimento de software e analise de dados big data

MLOps

MLOps ou ML Ops é um conjunto de práticas que visa implantar e manter modelos de machine learning em produção de forma confiável e eficiente. A palavra é um composto de "machine learning" e a prática de desenvolvimento contínuo de DevOps na área de software

DataOps

DataOps é um conjunto de práticas, processos e tecnologias que combina uma perspectiva integrada e orientada a processos sobre dados com automação e métodos de engenharia de software ágil para melhorar a qualidade, velocidade e colaboração e promover uma cultura de melhoria contínua na área de análise de dados

Cargos e funções de cada um nos modelos

Arquiteto de dados
Engenheiro de dados
Engenheiro Machine learning
Cientista de dados
Analista de dados

Arquitetura de dados principio basico

Introdução à Arquitetura de Dados:
- Definição de arquitetura de dados e sua importância.
- Breve histórico e evolução da arquitetura de dados.
Principais Paradigmas e Conceitos em Arquitetura de Dados:
- Modelagem de Dados: Discutir sobre modelos relacionais, NoSQL, e NewSQL.
- Data Warehousing e Data Lakes: Explicar a diferença entre armazenamento de dados estruturados (data warehouses) e não estruturados (data lakes).
- Processamento de Dados em Tempo Real vs. Batch: Comparar o processamento em tempo real e o processamento em lotes (batch processing).
- Governança de Dados: Importância da qualidade, segurança, e conformidade dos dados.
- Integração de Dados: Abordar ETL (Extract, Transform, Load) e ELT (Extract, Load, Transform), bem como integração de dados via APIs.
Tecnologias Atuais em Arquitetura de Dados:
- Bancos de Dados: MySQL, PostgreSQL, MongoDB, Cassandra.
- Plataformas de Big Data: Apache Hadoop, Apache Spark.
- Ferramentas de ETL e ELT: Talend, Apache NiFi, Informatica.
- Soluções de Cloud: AWS (Amazon Web Services), Azure, Google Cloud Platform – como elas facilitam a arquitetura de dados moderna.
- Ferramentas de Visualização e BI: Tableau, Power BI, Looker.
Desafios e Tendências Futuras:
- Discussão sobre os desafios atuais, como segurança de dados, escalabilidade e complexidade.
- Tendências futuras, incluindo IA (Inteligência Artificial) na gestão de dados, computação em nuvem híbrida, e edge computing.
Conclusão:
- Recapitulação dos pontos chave.
- A importância da arquitetura de dados no cenário tecnológico atual e futuro.

Daas (Data service para o futuro)

DaaS, oferece acesso on-line às bases de dados via interfaces JDBC ou ODBC, com controle de acesso e auditoria de uso. Nele estão disponíveis bases de governo hospedadas no Serpro - com a devida autorização do gestor, bem como bases de domínio público ou ainda outras sob demanda.

A melhor forma de implementar um DaaS e por um Data layer que e um canal de saída centralizada para os dados
API software de Integração

ETL e ELT

ETL

ETL é um tipo de data integration em três etapas (extração, transformação, carregamento) usado para combinar dados de diversas fontes. Ele é comumente utilizado para construir um data warehouse

ELT

Extrair, carregar, transformar é uma alternativa para extrair, transformar, carregar usado com implementações de data lake. Ao contrário do ETL, nos modelos ELT, os dados não são transformados na entrada no data lake, mas armazenados em seu formato bruto original. Isso permite tempos de carregamento mais rápidos

Alternativas em nuvem

AWS glue

Inteligencia artificial

Oque e machine learning

O aprendizado automático ou a aprendizagem automática ou também aprendizado de máquina ou aprendizagem de máquina é um subcampo da Engenharia e da ciência da computação que evoluiu do estudo de reconhecimento de padrões e da teoria do aprendizado computacional em inteligência artificial.

Modelos de pipeline

O Amazon ML aceita três tipos de modelos de ML: classificação binária, classificação multiclasse e regressão. O tipo de modelo que você deve escolher depende do tipo de destino que deseja prever.

Etapas

1.Coleta de dados. Depois de determinar exatamente o que se deseja e quais serão os equipamentos utilizados, a primeira etapa do machine learning é a coleta de dados.

2.Preparação dos dados.

3.Escolha do modelo.

4.Treinamento.

5.Avaliação.

6.Aprimoramento dos parâmetros.

7.Predição.

Pipeline

O foco de um pipeline de machine learning é dividir uma tarefa completa de machine learning em um fluxo de trabalho de várias etapas. Cada etapa é um componente gerenciável que pode ser desenvolvido, otimizado, configurado e automatizado individualmente. As etapas são conectadas por meio de interfaces bem definidas.

Iniciar um projeto big data

definição do business case
planejamento odo projeto
definição dod requisitos técnicos
criação de um total business value assessment

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
Images		Images
.gitattributes		.gitattributes
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Big data

Oque e Big data ?

Os 4 V's do big data

Tipo de banco de dados

Banco de dados RELACIONAIS

Banco de dados NAO RELACIONAIS

Armazenamento Hibrido

Modelos de arquitetura de dados

Armazenamento e Processamento (Cluster)

Cloud computing

MlOps E DataOps

MLOps

DataOps

Cargos e funções de cada um nos modelos

Arquitetura de dados principio basico

Daas (Data service para o futuro)

ETL e ELT

Alternativas em nuvem

Inteligencia artificial

Oque e machine learning

Modelos de pipeline

Etapas

Pipeline

Iniciar um projeto big data

About

Releases

Packages

TASIO852/Big-data

Folders and files

Latest commit

History

Repository files navigation

Big data

Oque e Big data ?

Os 4 V's do big data

Tipo de banco de dados

Banco de dados RELACIONAIS

Banco de dados NAO RELACIONAIS

Armazenamento Hibrido

Modelos de arquitetura de dados

Armazenamento e Processamento (Cluster)

Cloud computing

MlOps E DataOps

MLOps

DataOps

Cargos e funções de cada um nos modelos

Arquitetura de dados principio basico

Daas (Data service para o futuro)

ETL e ELT

Alternativas em nuvem

Inteligencia artificial

Oque e machine learning

Modelos de pipeline

Etapas

Pipeline

Iniciar um projeto big data

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages