Você já ouviu falar de big data?
Somos mais de 800 milhões de usuários ativos no Facebook e cada um de nós tem uma experiência totalmente personalizada. E esta experiência é continua e, exaustivamente, otimizada para garantir o maior engajamento possível através de estímulos cada vez mais relevantes para cada usuário. Isto é apenas um exemplo de aplicação de uma das mais quentes tendências no mundo dos negócios suportados por tecnologia. Estamos falando dos negócios que são guiados pelo uso intensivo de dados.
Esta onda está aumentando de maneira exponencial graças ao encontro de três outras macro-tendências: a abundância de capacidade computacional e de armazenamento disponível na nuvem, a geração e coleta de dados de todos os tipos através da rede e a evolução e popularização de modernas técnicas de processamento de dados em grande escala.
Com isto, negócios dos mais diversos tipos estão se especializando em coletar,
armazenar e processar dados de uma maneira bem diferente da que vimos nas
décadas passadas com a explosão das técnicas e ferramentas de data warehousing e business intelligence. Estamos falando do mais novo buzzword tecnológico no mundo dos negócios: big data. Mas o que faz big data ser tão diferente do que fazíamos antes? Podemos resumir isto em três pontos: forma, velocidade e tamanho.
O primeiro deles, a forma, é talvez a maior novidade. Quando falamos de big data estamos falando de dados nas mais variadas formas e não, necessariamente, bem estruturados. Ao contrário de dados em registros bem organizados de uma tabela de um banco de dados, estamos falando de dados como imagens coletadas por câmeras de vigilância numa grande metrópole, vídeos submetidos por usuários num site de compartilhamento de arquivos ou comentários de usuários em uma rede social. Nem sempre o dado é limpo ou fácil de ser tratado e, na maioria das vezes, a maior parte do trabalho é limpar o dado. E a coisa fica ainda mais interessante quando misturamos diferentes tipos de dados para conseguir construir uma aplicação.
O segundo, a velocidade, é mais natural de entendermos. A web em tempo-real chegou para ficar. Queremos tudo ao mesmo tempo e agora. Em big data a questão é como ter as informações em tempo hábil para que elas tenham o maior valor possível para os negócios. Ao visitar um site de comércio eletrônico queremos encontrar os produtos que estamos interessados naquele momento e não o que estávamos procurando a semanas atrás. Ao entrarmos numa sala de jogo para encontrar parceiros para uma partida on-line de Call of Duty esperamos que a sugestão de jogadores proporcione as partidas mais emocionantes e precisamos que os jogadores estejam disponíveis para jogar naquele minuto. A diferença é que precisamos dos dados sendo processados de maneira contínua e não podemos esperar pelos resultados no minuto seguinte.
E claro, o terceiro é o mais óbvio de todos, o tamanho. Em big data, tudo é grande mesmo. Os datasets são gigantescos e podem facilmente atingir tera e petabytes. O Google, por exemplo, processa mais de 24 petabytes de dados por dia e o YouTube recebe e processa mais de 60 horas de vídeos por minuto.
Graças a técnicas e tecnologias que nasceram nas garagens que deram origem a empresas como o Google e o Facebook e a capacidade computacional acessível a todos através da computação na nuvem, atacar este problema é algo que está virtualmente acessível a todas as empresas. Porém, o grande desafio fica em encontrar profissionais capacitados a trabalhar com dados desta maneira e em incorporar a tomada de decisões baseada em dados na cultura da empresa. No lado profissional, as carreiras que suportam estas operações tornam-se cada vez mais quentes. De analistas a cientistas de dados, as empresas que entenderam o poder do big data disputam estes profissionais de maneira bastante agressiva e colhem os frutos de seu trabalho otimizando suas operações ao extremo.
Apesar de big data estar presente nos mais diferentes segmentos da indústria, é na Internet que seu uso é mais patente. Se olharmos com atenção para alguns dos serviços que utilizamos diariamente na rede, poderemos perceber vários momentos onde nossa experiência é resultado da análise de dados sobre como utilizamos o serviço em questão. E isto traz para a mesa uma nova discussão. De quem são estes dados e como eles podem ser utilizados? Mas isto já é assunto para nossa próxima conversa.
Artigo publicado originalmente na edição de Março de 2012 da Revista INFO e republicado aqui com a permissão da Editora Abril.