R

Como votaram os senadores em 2019

Nesse post faremos uma análise dos dados de votações do Senado Federal no ano de 2019. Anteriormente a análise foi feita realizando o download automático de arquivos pdf´s e extraindo as informações das votações diretamente desses arquivos. Como a estrutura de dados foi alterada, aproveitamos a oportunidade para refazer essa análise considerando R e Python. Um ponto de destaque nessa análise é que podemos alternar o mesmo objeto entre as duas linguagens.

covid-19: uma primeira abordagem

Esse post é uma análise em conjunto dos seguintes colaboradores: Paulo C. Marques F. Hedibert F. Lopes (site) Tiago Mendonça dos Santos ( tiagoms1@insper.edu.br) Nesse post apresentamos um classificador baseado nos dados que o Hospital Israelita Albert Einstein publicou no Kaggle. Após uma longa análise exploratória, chegamos a um conjuto de dados com apenas 6 preditoras (faça o download dos dados clicando aqui). A partir dessa seleção, utilizamos os modelos de Floresta Aleatória com o pacote ranger e boosting com o pacote xgboost.

Descartes e rsample

Um etapa fundamental no processo de avaliação do desempenho de modelos preditivos se dá a partir de métodos de reamostragem, separação dos dados em conjunto de treinamento/teste ou treinamento/teste/validação. Com base nesses métodos, tomamos a decisão de escolha ou rejeição dos modelos em avaliação. Muitas vezes esses processos passam batidos, porque já são internalizados nas bibliotecas ( ver introdução sobre tidymodels) e não se faz uma reflexão do que está acontecendo nessa etapa.

Introdução ao tidymodels

Introdução ao tidymodels Escrevi esse post como parte de um processo para entender as possibilidades de modelagem com a abordagem utilizada no tidymodels. As principais referências para esse post são dadas pelo vídeo da Julia Silge e uma apresentação do Max Kuhn. Vamos comparar os desempenhos preditivos dos modelos KNN e regressão logística utilizando os dados Wine Quality Data Set. Esses dados apresentam diversas medidas obtidas para os vinhos além de escores de qualidade.

Regressão Linear Simples

Simulador de regressão linear simples

Classificação e curva ROC

Medidas de desempenho para classificação e curva ROC