top of page

Hadoop é um Banco de dados? O que é Hadoop?

  • Foto do escritor: ETL PowerCenter
    ETL PowerCenter
  • 26 de jul. de 2018
  • 2 min de leitura

Atualizado: 27 de jul. de 2018



Então, o que é Hadoop? Hadoop é um banco de dados? Já ouvi muitas vezes "aquela empresa usa o banco de dados Hadoop". Mas não é bem isso, veja!

Hadoop é um ecossistema para computação distribuida, ou seja, criado para comportar o processamento de grandes quantidades de dados (petabytes) com alta velocidade. Esse ecossistema é composto de vários sistemas/tecnologias.


A idéia do Hadoop é realizar um processamento pesado dividindo a tarefa em vários nós (cluster), de forma a aumentar o poder computacional. Para isso acontecer, é utilizado um sistema de arquivos nos nós de cada cluster chamado de HDFS(Hadoop distributed file system), que comporta arquivos com grandes quantidades de dados e o processamento é realizado utilizando uma técnica de programação chamada MapReduce.

A seguir um exemplo de sistemas que podem fazer parte desse ecossistema e uma breve explicação sobre cada um.


HDFS -Sistema de arquivos do Hadoop, este sistema de arquivos trabalha de forma distribuída, utilizando grandes blocos de memória.


Map Reduce -Modelo de programação para processamento em larga escala. Tendo como fundamentos o mapeamento(map) e a redução (reduce).


Yarn -Trata-se de uma plataforma de gerenciamento de recursos responsável pelo gerenciamento dos recursos computacionais em cluster, assim como pelo agendamento dos recursos.


Hive -Converte queries SQL em MapReduces.


Pig -Linguagem para criação de MapReduces


Hbase -Um banco da dados NoSQL orientado a colunas (colunar), que pode ser usado sobre o HDFS. Provê acesso a grandes quantidades de dados com alta velocidade.


Flume -Sistema de exportação de logs, contendo grande quantidade de dados para o HDFS


Anbari -Monitoramento de clusters Hadoop


Sqoop -Ferramente de exportação de dados de SGBDS para o Hadoop. Usa JDBC, gera uma classe Java de exportação de dados para cada tabela no esquema relacional


Oozie / Control-M -Agendador/gerenciador de tarefas e Workflows para hadoop.

Hoje o Hadoop é mantido pela fundação Apache. E tem como distribuições Enterprise mais conhecidas a da Cloudera e da Hortonworks.


 

ETL PowerCenter - by Diogo Vidal

São Paulo-SP
 
 
 

Comments


bottom of page