A medicina diagnóstica é essencial na prestação de cuidados de saúde em todo o mundo e representa um mercado significativo, especialmente nos Estados Unidos, onde tem um valor estimado de 106 bilhões de dólares e mais de 40 mil laboratórios, com uma força de trabalho de mais de 680 mil funcionários de acordo com a ACLA. O objetivo deste estudo é apoiar uma empresa especializada em medicina diagnóstica nos EUA em seu plano de expansão da rede de laboratórios.
Obs: É recomendada a observação deste projeto através do Google Colab para uma experiência completa. Devido às limitações do GitHub, alguns gráficos e mapas podem não ser exibidos corretamente aqui.
O projeto foi realizado a partir de 5 bases de dados (3 sobre a rede de laboratórios e 2 sobre a população dos EUA). Inicialmente foi feita a parte de pré-processamento dos dados, incluindo a limpeza, normalização, tratamento e as demais etapas prévias à análise. Posteriormente, formulei algumas perguntas a serem respondidas durante a análise, sendo elas:
- Qual é o perfil do principal público alvo? (idade, gênero)
- Quais são as características em comum de áreas que tem laboratórios que performam bem? (demografia, economia)
- O que define laboratórios que performam bem? (lucro, exames realizados, retenção de pacientes)
- Quais os principais atributos de clientes que voltaram mais vezes para o mesmo lab? (fidelização)
Definidas as perguntas norteadoras, foi feita uma Análise Exploratória dos dados, explorando conceitos como a distribuição das variáveis, cardinalidade de features categóricas, estatísticas descritivas dos principais indicadores, parâmetrização para construção de métricas, visualizações gráficas e muito mais.
Apontar os 3 melhores lugares para a construção de novos laboratórios.
O projeto em questão foi feito no Google Colab utilizando python e as seguintes bibliotecas: Pandas, Numpy, Matplotlib, Seaborn, Sklearn, Datetime, Geopandas e Folium.