Category Machine Learning

Análise de Sentimentos em App Stores

Graficos mostrando análise de sentimentos dos comentários

Os diversos comentários e notas dados em App Stores formam uma grande base de dados, com a opinião dos consumidores.

Neste meetup, seremos guidados por Fabio Brolesi, Tech Lead na ci&t, que irá nos mostrar como utilizar técnicas de Ciência de Dados para analisar este dataset textual.

Vejam o webinar no link do nosso canal do Youtube:
https://youtu.be/g_lLmZXKpFk

Arquitetura de Big Data

Uma arquitetura de Big Data costuma possuir várias camadas específicas, cada uma com uma função diferente.

De maneira geral, as camadas são:
– Entrada do pedido
– Orquestração
– Processamento
– Predição
– Retorno da informação

Nesta apresentação, trazemos uma jornada de análise de arquiteturas serverless para se utilizar com um micro-serviço de machine learning.

Analisamos vários pontos, mostrando os prós e contras de cada solução.

Link: https://www.youtube.com/watch?v=WhR4BXb3Ja0&t=1144s

DataOps

Você sabe o que é DataOps?

Acredito que ainda não exista uma definição formal.

Mas a comunidade de Data tem sedimentado este conceito com competências que envolvem:

-DevOps (version control, CI, CD, etc)
-Data Governance (data lineage, reproducibilidade, LGPD, etc)
-Data Quality (monitoramento, tratamento, etc)
-Data Pipeline (monitoramento, evolução, testes, etc)
-Dentre outros

Para me aprofundar no assunto, recebi a indicação do “The DataOps Cookbook”. Recomendo a leitura!

Link: https://datakitchen.io/content/DataKitchen_dataops_cookbook.pdf

Data News – Setembro/2020

O que aconteceu de melhor no mundo de Data em Setembro?

Veja abaixo!

[Postgres]  
-Lançamento do Postgres 13! Link.
– pgBackRest: Ferramenta para gerenciar backup e restore. Link.  
– pgFormatter: Ferramenta para formatar queries. Link.   
– pgBitmap: Extensão para criação de formato bitmap. Link.


[MySQL]  
– Novo MySQL Database Service. Link.   
– MySQL Performance: InnoDB internals. Link.   
– Query performance. Link.   

[MongoDB]  
– MongoDB Atlas: Agora presente em 24 regiões da Google Cloud. Link.  
– Otimizando Dataops. Link.   
– Ops Manager rodando com Kubernetes e S3. Link.

[Amazon Web Services]  
– Glue agora possui interface gráfica para criação de ETL e Monitoramento de Jobs. Link.   
– Redshift agora possui leitura com Apache Hudi e Delta Lake. Link.   
– Lançada interface de API para consumir dados do Redshift. Link.   
– Elasticsearch agora possui integração com Tableau e Excel. Link.   
– Adicionada a função de “Categorias” no Billing. Link.   
– Introduzindo as dicas de otimização de uso do EC2. Link.   
– Agora é possível agendar e enviar relatórios de Budget. Link.
– Lançado o AWS Perspective para documentação e compartilhamento de desenhos de arquitetura atualmente em produção. Link.
– Introduzindo o AWS Cost Anomaly Detection. Link.

[Microsoft Azure]  
– Qualidade de serviço com AIOps. Link.
– Novidades anunciadas no evento Build 2020. Link.
– Compartilhando dados com o Azure Data Share. Link.
– Contribuições da Microsoft com as comunidades Hadoop e Postgres. Link.


[Google Cloud Platform]  
– AI Platform Prediction entra em modo GA. Link.   
– Migrando modelos para a GCP. Link.   
– 3 razões para usar o Spanner. Link.   
– O melhor do Google Cloud Next 2020. Link.

[Data Science & Data Engineering]   
– Lançado o livro Data Teams de Jesse Anderson. Link.   
– Python: Versão 3.9 lançada. Link.   
– Construindo aplicações com Flask. Link.   
– Introdução a Time Series em Python. Link.   
– Guia completo de PyTorch. Link.   
– Dicas de melhoria de performance de modelos. Link
– Automatizando aspectos de projetos em python. Link.   

Arquitetura Lambda na Prática

Tower Bridge

Existem diversos padrões de de arquitetura para Big Data e Data Pipelines.

Uma delas é a Arquitetura Lambda. Ela permite que um mesmo dado seja processado em real time para visualização rápida, ao mesmo tempo em que este dado vai para uma área de dados históricos, onde será processado de outras maneiras.

Nesta palestra demonstramos como construir uma Arquitetura Lambda na prática na Amazon Web Services (AWS).

Link: https://www.youtube.com/watch?v=z_jJH57rM-o

Arquitetura Serverless para Machine Learning

machine learning

Construir um modelo de Machine Learning é um desafio. Porém, apenas a existência de um modelo, não é o suficiente para criar um produto de dados.

Este modelo precisa ser alocado dentro de uma Arquitetura que conterá um Data Pipeline (responsável por obter e transformar os dados) que por sua vez irá entregar os dados transformados para o modelo de Machine Learning.

Este Data Pipeline envolve uma arquitetura razoavelmente complexa, com diversas tecnologias.

Nesta palestra, focamos em como construir um arquitetura de Data Pipeline na Nuvem, analisando opções concorrentes, com os prós e contras de cada ferramenta presente na Arquitetura.

Link: https://www.youtube.com/watch?v=duOHXhRE9vs