Blog

Digerindo dados com Apache NiFi

Eliezer apresentando sobre Apache NiFi

Ontem tivemos um dos melhores conteúdos em língua portuguesa sobre o Apache NiFi!

Ferramenta fantástica, que junta a facilidade do trabalho em interface visual com a capacidade de escalar e distribuir carga, tão necessária no mundo de Big Data.

Obrigado Eliézer Zarpelão por compartilhar este conhecimento conosco!

Pra quem perdeu, pode assistir no nosso canal do YT:

Análise de Sentimentos em App Stores

Graficos mostrando análise de sentimentos dos comentários

Os diversos comentários e notas dados em App Stores formam uma grande base de dados, com a opinião dos consumidores.

Neste meetup, seremos guidados por Fabio Brolesi, Tech Lead na ci&t, que irá nos mostrar como utilizar técnicas de Ciência de Dados para analisar este dataset textual.

Vejam o webinar no link do nosso canal do Youtube:
https://youtu.be/g_lLmZXKpFk

Produtos de Dados

Felipe apresentando sobre Produtos de Dados

Você sabe o que são produtos de dados?

Aprenda com nosso conteúdo!

Neste vídeo, você poderá assistir à gravação do nosso meetup sobre Gestão de Produtos de Dados, com a resposta para a nossa pergunta e também com muitas outras informações!

neste link, você pode baixar a nossa apresentação, onde você poderá estudar o assunto com mais detalhes, lendo os artigos referenciados durante a apresentação.

Bons estudos!

Data News – Outubro/2020

Felipe palestrando em um evento antes da pandemia

O que aconteceu de melhor no mundo de Data em Outubro?
Descubra abaixo!

[Postgres]  
– Nova versão do pg_activity lançada. Link.
– pgCenter: Command Line Tool para Postgres. Link.  

[MySQL]  
– Gravações do MySQL Day disponibilizadas. Link.   

[MongoDB]  
– Novo cliclo de release trimestral divulgado. Link.  
– Lançamento do Azure Private Link. Link.   

[Amazon Web Services]  
– AWS SNS agora conta com fila FIFO. Link.   
– Sagemaker diminui preço de GPUs. Link.   
– Novas features de controle de acesso no S3. Link.   
– AWS Timestream agora está disponível. Link.   
– Kinesis Data Steam agora tem retenção de 12 meses. Link.   

[Microsoft Azure]  
– Novo curso da Azure sobre Machine Learning lançado com a Udacity. Link.
– Quick start para o Azure Synapse Analytics. Link.

[Google Cloud Platform]  
– Introduzindo o DocumentAI Platform. Link.   
– CloudSQL agora com suporte ao Postgres 13. Link.   
– Preparing for serverless Big Data. Link.   
– Novidades no Cloud Functions. Link.

[Data Science & Data Engineering]   
– Interpretabilidade e Explicabilidade. Link.   
– Cientista de Dados ou Machine Learning Engineer?. Link.   
– Migrando dados sensíveis para a nuvem. Link.   
– Trabalhando com datasets desbalanceados. Link.   

Data Lake e Arquitetura Lambda

Armazenar, catalogar e processar grandes quantidades de dados exigem novas ferramentas e novos processos.

Nesta apresentação, mostraremos o conceito (e a prática) de como realizar estas ações de maneira moderna, modular e escalável, utilizando um Data Lake e a Arquitetura Lambda.

Palestra realizada no:
-GDG Datafest (Campinas-SP) 2019

Link: https://www.youtube.com/watch?v=vt6_8cWpdaE&t=72s

Arquitetura de Big Data

Uma arquitetura de Big Data costuma possuir várias camadas específicas, cada uma com uma função diferente.

De maneira geral, as camadas são:
– Entrada do pedido
– Orquestração
– Processamento
– Predição
– Retorno da informação

Nesta apresentação, trazemos uma jornada de análise de arquiteturas serverless para se utilizar com um micro-serviço de machine learning.

Analisamos vários pontos, mostrando os prós e contras de cada solução.

Link: https://www.youtube.com/watch?v=WhR4BXb3Ja0&t=1144s

Big Data em Multi-Cloud

Como operar um ambiente de Big Data em Multi-Cloud? E como fazer este ambiente servir a diversos propósitos, seja para um BI, para um trabalho de Análise e Mineração de Dados ou para alimentar a criação de Modelos de Machine Learning?

Aprenda como a AME Digital resolveu este problema neste webinar da campdata: https://www.youtube.com/channel/UCePbMP6CDVtRVkTon3USpRg

Aproveite!

DataOps

Você sabe o que é DataOps?

Acredito que ainda não exista uma definição formal.

Mas a comunidade de Data tem sedimentado este conceito com competências que envolvem:

-DevOps (version control, CI, CD, etc)
-Data Governance (data lineage, reproducibilidade, LGPD, etc)
-Data Quality (monitoramento, tratamento, etc)
-Data Pipeline (monitoramento, evolução, testes, etc)
-Dentre outros

Para me aprofundar no assunto, recebi a indicação do “The DataOps Cookbook”. Recomendo a leitura!

Link: https://datakitchen.io/content/DataKitchen_dataops_cookbook.pdf

Data News – Setembro/2020

O que aconteceu de melhor no mundo de Data em Setembro?

Veja abaixo!

[Postgres]  
-Lançamento do Postgres 13! Link.
– pgBackRest: Ferramenta para gerenciar backup e restore. Link.  
– pgFormatter: Ferramenta para formatar queries. Link.   
– pgBitmap: Extensão para criação de formato bitmap. Link.


[MySQL]  
– Novo MySQL Database Service. Link.   
– MySQL Performance: InnoDB internals. Link.   
– Query performance. Link.   

[MongoDB]  
– MongoDB Atlas: Agora presente em 24 regiões da Google Cloud. Link.  
– Otimizando Dataops. Link.   
– Ops Manager rodando com Kubernetes e S3. Link.

[Amazon Web Services]  
– Glue agora possui interface gráfica para criação de ETL e Monitoramento de Jobs. Link.   
– Redshift agora possui leitura com Apache Hudi e Delta Lake. Link.   
– Lançada interface de API para consumir dados do Redshift. Link.   
– Elasticsearch agora possui integração com Tableau e Excel. Link.   
– Adicionada a função de “Categorias” no Billing. Link.   
– Introduzindo as dicas de otimização de uso do EC2. Link.   
– Agora é possível agendar e enviar relatórios de Budget. Link.
– Lançado o AWS Perspective para documentação e compartilhamento de desenhos de arquitetura atualmente em produção. Link.
– Introduzindo o AWS Cost Anomaly Detection. Link.

[Microsoft Azure]  
– Qualidade de serviço com AIOps. Link.
– Novidades anunciadas no evento Build 2020. Link.
– Compartilhando dados com o Azure Data Share. Link.
– Contribuições da Microsoft com as comunidades Hadoop e Postgres. Link.


[Google Cloud Platform]  
– AI Platform Prediction entra em modo GA. Link.   
– Migrando modelos para a GCP. Link.   
– 3 razões para usar o Spanner. Link.   
– O melhor do Google Cloud Next 2020. Link.

[Data Science & Data Engineering]   
– Lançado o livro Data Teams de Jesse Anderson. Link.   
– Python: Versão 3.9 lançada. Link.   
– Construindo aplicações com Flask. Link.   
– Introdução a Time Series em Python. Link.   
– Guia completo de PyTorch. Link.   
– Dicas de melhoria de performance de modelos. Link
– Automatizando aspectos de projetos em python. Link.