R

Gradiente descendente

Nesse post farei uma breve introdução sobre o método do gradiente descendente (gradient descent ou steepest descent) e algumas variações importantes para o contexto de aprendizado de máquina. Esse método é utilizado para otimizar (maximizar/minimizar) algumas funções de modo que, a partir de um ponto inicial, caminha-se em direção ao ponto ótimo controlando o tamanho do passo. Ao decorrer do post ficará mais claro como isso é feito.

Introdução e aplicações da família map

O objetivo deste post é apresentar aplicações relevantes das funções da família mapdo pacote purrr. Essas funções são implementadas sob o paradigma de programação funcional. Saber utilizar esse tipo de programação facilita muito o processamento de dados e modelagem. É recomendável fazer o download da cheatsheet a seguir e consultar a documentação em https://purrr.tidyverse.org/. Além da documentação, para quem prefere acompanhar por vídeo, o Caio Lente gravou um vídeo bem detalhado sobre o assunto (para assistir, clique aqui).

Como votaram os senadores em 2019

Nesse post faremos uma análise dos dados de votações do Senado Federal no ano de 2019. Anteriormente a análise foi feita realizando o download automático de arquivos pdf´s e extraindo as informações das votações diretamente desses arquivos. Como a estrutura de dados foi alterada, aproveitamos a oportunidade para refazer essa análise considerando R e Python. Um ponto de destaque nessa análise é que podemos alternar o mesmo objeto entre as duas linguagens.

covid-19: uma primeira abordagem

Esse post é uma análise em conjunto dos seguintes colaboradores: Paulo C. Marques F. Hedibert F. Lopes (site) Tiago Mendonça dos Santos ( tiagoms1@insper.edu.br) Nesse post apresentamos um classificador baseado nos dados que o Hospital Israelita Albert Einstein publicou no Kaggle. Após uma longa análise exploratória, chegamos a um conjuto de dados com apenas 6 preditoras (faça o download dos dados clicando aqui). A partir dessa seleção, utilizamos os modelos de Floresta Aleatória com o pacote ranger e boosting com o pacote xgboost.

Descartes e rsample

Um etapa fundamental no processo de avaliação do desempenho de modelos preditivos se dá a partir de métodos de reamostragem, separação dos dados em conjunto de treinamento/teste ou treinamento/teste/validação. Com base nesses métodos, tomamos a decisão de escolha ou rejeição dos modelos em avaliação. Muitas vezes esses processos passam batidos, porque já são internalizados nas bibliotecas ( ver introdução sobre tidymodels) e não se faz uma reflexão do que está acontecendo nessa etapa.

Introdução ao tidymodels

Introdução ao tidymodels Escrevi esse post como parte de um processo para entender as possibilidades de modelagem com a abordagem utilizada no tidymodels. As principais referências para esse post são dadas pelo vídeo da Julia Silge e uma apresentação do Max Kuhn. Vamos comparar os desempenhos preditivos dos modelos KNN e regressão logística utilizando os dados Wine Quality Data Set. Esses dados apresentam diversas medidas obtidas para os vinhos além de escores de qualidade.

Regressão Linear Simples

Simulador de regressão linear simples

Classificação e curva ROC

Medidas de desempenho para classificação e curva ROC