em Geral

Entendo o que é Big Data

Big Data

A importância da análise de dados comportamentais dos usuários online a favor dos negócios.

A cada minuto milhões de mensagens, vídeos, imagens, áudios são publicados não mais diversificadas plataformas e redes sociais. A verdade é que hoje em dia
temos condições de entender, conhecer e as vezes prever o que um usuário precisa ou deseja. Este tipo de dados temos a tão falada BIG DATA para nos ajudar.
A tecnologia das APIs possibilitaram que softwares de análise destas massas de dados transformando a forma que compramos, vendemos, consumimos, contratamos, nos divertimos,
nos comunicamos, nos engajamos.

Para quem se destina este tipo de informação ?
O grande interesse da indústria e do mercado de serviços em aproveitar todos esses dados provam que há uma grande procura por especialistas em análise destes dados os profissionais conhecidos como Data Scientist. Uma pesquisa feita pelo Gartner estima que pelo menos quatro milhões de vagas em BIG DATA serão abertas nos próximos quatro anos em todo o mundo. A possibilidade de correlação de dados e comportamentos, tendências de negócios, prevenção de doenças o torna indispensavél a grandes corporações ou empresas altamente competitivas. Podemos entender que esta é uma das profissões em tecnologia da informação que estará em evidência e na contra mão
em outras áreas de atuação.
Levando em consideração que a curva de aprendizado em BIG DATA é alta, fica a dica para os profissionais que estão se formando ou que pretendem seguir em alguma área específica em TI. Mas um estudo diz que até 2018 haverá uma escassez de profissionais na área de Big Data, então fica ai a dica.

BIG DATA é a mesma coisa que Data Warehouse ?
Não. Data Warehouse é um conjunto de dados baseados em assuntos integrados e não voláteis exclusivamente destinado a auxiliar decisões de negócios. O BIG DATA se baseia em um enorme volume de dados que podem ser voláteis ou não com maior velocidade. A grande diferença é a escalabilidade.

Privacidade e a massificação dos dados
Sem dúvida o problema maior na análise da grande massificação dos dados ainda é a questão da privacidade. Para muitos os anúncios do Adwords ou mesmo os anúncios no Facebook já soam de forma invasiva para muitos quem dirá um estudo
comportamental mais completo. Ainda não há legislação preparada para a utilização para este tipo de análise.

Softwares e plataformas

Se você está estudando sobre BIG DATA algum link deve ter levado você ao projeto da Apache foundation chamado Hadoop. Esta plataforma open source é voltada a clusters para processamento de grandes volumes de dados e possui inúmeros projetos relacionados que possibilitam as mais diversificadas utilizações.
O projeto é composto pelo Hadoop Distributed File System ( HDFS ), Hadoop Yarn e Hadoop MapReduce. Para facilitar o negócio algumas empresas empacotam o Hadoop e seus componentes para facilitar o trabalho. Estas distribuições oferecem um ambiente pronto do tipo easy to install easy to use.

Uma das principais plataformas baseadas no Hadoop é a HortonWorks. Ela é sem sombra de dúvidas a mais simples e a curva de aprendizado é moderada. O HortonWorks possibilita o download de uma Virtual Machine em VirtualBox já pronta para utilização. O ambiente possibilita a utilização de problemas que podem ser resolvidos pelo Hadoop desde um simples Hello World até grandes volumes de dados com utilização do Pig, Hive, HBase entre outros.

Eu preparei um ebook com a instalação do Hadoop e seus componentes que podem ser baixado gratuitamente. Os interessados enviem um e-mail via Inbox para que eu possa enviar o link para download.