Data News – Outubro/2020

Felipe palestrando em um evento antes da pandemia

O que aconteceu de melhor no mundo de Data em Outubro?
Descubra abaixo!

[Postgres]  
– Nova versão do pg_activity lançada. Link.
– pgCenter: Command Line Tool para Postgres. Link.  

[MySQL]  
– Gravações do MySQL Day disponibilizadas. Link.   

[MongoDB]  
– Novo cliclo de release trimestral divulgado. Link.  
– Lançamento do Azure Private Link. Link.   

[Amazon Web Services]  
– AWS SNS agora conta com fila FIFO. Link.   
– Sagemaker diminui preço de GPUs. Link.   
– Novas features de controle de acesso no S3. Link.   
– AWS Timestream agora está disponível. Link.   
– Kinesis Data Steam agora tem retenção de 12 meses. Link.   

[Microsoft Azure]  
– Novo curso da Azure sobre Machine Learning lançado com a Udacity. Link.
– Quick start para o Azure Synapse Analytics. Link.

[Google Cloud Platform]  
– Introduzindo o DocumentAI Platform. Link.   
– CloudSQL agora com suporte ao Postgres 13. Link.   
– Preparing for serverless Big Data. Link.   
– Novidades no Cloud Functions. Link.

[Data Science & Data Engineering]   
– Interpretabilidade e Explicabilidade. Link.   
– Cientista de Dados ou Machine Learning Engineer?. Link.   
– Migrando dados sensíveis para a nuvem. Link.   
– Trabalhando com datasets desbalanceados. Link.   

Data Lake e Arquitetura Lambda

Armazenar, catalogar e processar grandes quantidades de dados exigem novas ferramentas e novos processos.

Nesta apresentação, mostraremos o conceito (e a prática) de como realizar estas ações de maneira moderna, modular e escalável, utilizando um Data Lake e a Arquitetura Lambda.

Palestra realizada no:
-GDG Datafest (Campinas-SP) 2019

Link: https://www.youtube.com/watch?v=vt6_8cWpdaE&t=72s

Arquitetura de Big Data

Uma arquitetura de Big Data costuma possuir várias camadas específicas, cada uma com uma função diferente.

De maneira geral, as camadas são:
– Entrada do pedido
– Orquestração
– Processamento
– Predição
– Retorno da informação

Nesta apresentação, trazemos uma jornada de análise de arquiteturas serverless para se utilizar com um micro-serviço de machine learning.

Analisamos vários pontos, mostrando os prós e contras de cada solução.

Link: https://www.youtube.com/watch?v=WhR4BXb3Ja0&t=1144s

Data News – Setembro/2020

O que aconteceu de melhor no mundo de Data em Setembro?

Veja abaixo!

[Postgres]  
-Lançamento do Postgres 13! Link.
– pgBackRest: Ferramenta para gerenciar backup e restore. Link.  
– pgFormatter: Ferramenta para formatar queries. Link.   
– pgBitmap: Extensão para criação de formato bitmap. Link.


[MySQL]  
– Novo MySQL Database Service. Link.   
– MySQL Performance: InnoDB internals. Link.   
– Query performance. Link.   

[MongoDB]  
– MongoDB Atlas: Agora presente em 24 regiões da Google Cloud. Link.  
– Otimizando Dataops. Link.   
– Ops Manager rodando com Kubernetes e S3. Link.

[Amazon Web Services]  
– Glue agora possui interface gráfica para criação de ETL e Monitoramento de Jobs. Link.   
– Redshift agora possui leitura com Apache Hudi e Delta Lake. Link.   
– Lançada interface de API para consumir dados do Redshift. Link.   
– Elasticsearch agora possui integração com Tableau e Excel. Link.   
– Adicionada a função de “Categorias” no Billing. Link.   
– Introduzindo as dicas de otimização de uso do EC2. Link.   
– Agora é possível agendar e enviar relatórios de Budget. Link.
– Lançado o AWS Perspective para documentação e compartilhamento de desenhos de arquitetura atualmente em produção. Link.
– Introduzindo o AWS Cost Anomaly Detection. Link.

[Microsoft Azure]  
– Qualidade de serviço com AIOps. Link.
– Novidades anunciadas no evento Build 2020. Link.
– Compartilhando dados com o Azure Data Share. Link.
– Contribuições da Microsoft com as comunidades Hadoop e Postgres. Link.


[Google Cloud Platform]  
– AI Platform Prediction entra em modo GA. Link.   
– Migrando modelos para a GCP. Link.   
– 3 razões para usar o Spanner. Link.   
– O melhor do Google Cloud Next 2020. Link.

[Data Science & Data Engineering]   
– Lançado o livro Data Teams de Jesse Anderson. Link.   
– Python: Versão 3.9 lançada. Link.   
– Construindo aplicações com Flask. Link.   
– Introdução a Time Series em Python. Link.   
– Guia completo de PyTorch. Link.   
– Dicas de melhoria de performance de modelos. Link
– Automatizando aspectos de projetos em python. Link.   

Arquitetura Lambda na Prática

Tower Bridge

Existem diversos padrões de de arquitetura para Big Data e Data Pipelines.

Uma delas é a Arquitetura Lambda. Ela permite que um mesmo dado seja processado em real time para visualização rápida, ao mesmo tempo em que este dado vai para uma área de dados históricos, onde será processado de outras maneiras.

Nesta palestra demonstramos como construir uma Arquitetura Lambda na prática na Amazon Web Services (AWS).

Link: https://www.youtube.com/watch?v=z_jJH57rM-o

Arquitetura Serverless para Machine Learning

machine learning

Construir um modelo de Machine Learning é um desafio. Porém, apenas a existência de um modelo, não é o suficiente para criar um produto de dados.

Este modelo precisa ser alocado dentro de uma Arquitetura que conterá um Data Pipeline (responsável por obter e transformar os dados) que por sua vez irá entregar os dados transformados para o modelo de Machine Learning.

Este Data Pipeline envolve uma arquitetura razoavelmente complexa, com diversas tecnologias.

Nesta palestra, focamos em como construir um arquitetura de Data Pipeline na Nuvem, analisando opções concorrentes, com os prós e contras de cada ferramenta presente na Arquitetura.

Link: https://www.youtube.com/watch?v=duOHXhRE9vs

Princípios de Cloud Computing

Clouds

O que é Cloud Computing?

Cloud Computing, ou Computação em Nuvem, é o nome dado para os recursos computacionais oferecidos como serviço, por algum fornecedor de tecnologia, através da Internet.

Existem três tipos de ofertas principais:

   Infrastructure as a Service (IaaS): É quando o fornecedor oferece máquinas (servidores), discos, redes virtuais, armazenamento de dados ou qualquer outro recurso de infraestrutura como um serviço através da Internet. Isto significa que estes recursos ficarão fisicamente nos Data Centers do fornecedor e você terá acesso exclusivo aos mesmos, como se fossem seus (o que de fato são).

   Platform as a Service (PaaS): É um nível acima do IaaS. Aqui temos uma infraestrutura por baixo, mas além dela temos algum tipo de serviço configurado. São exemplos de PaaS: bancos de dados, DNS, FTP, Single Sign On, etc. Neste nível de serviço você adquire uma plataforma pré-configurada e pronta para o uso (por exemplo: você pode adquirir um banco de dados rodando normalmente e pronto para receber conexões). Mais uma vez, os recursos são exclusivos e outros usuários não terão acesso aos seus dados.

   Software as a Service (SaaS): Esta é talvez a sigla mais famosa das atuais ofertas de Cloud. Ela significa adquirir toda uma solução como serviço, ou seja, ao invés de você comprar máquinas e adquirir licenças para rodar um sistema ERP, por exemplo, você pode simplesmente “assinar” um sistema como serviço e utilizá-lo via Web. Este sistema provavelmente utilizará, em sua infraestrutura, os conceitos de IaaS e PaaS que vimos anteriormente.