PORTFÓLIO - CDAC - IMERSÃO PROFISSIONAL: APLICAÇÃO DE ANÁLISE PREDITIVA - 51_2026
Caro estudante,
Temos por certo que os desafios sempre contribuem para a aquisição de conhecimentos e competências desejadas. Assim, torna-se efetivo relacionar o que se aprende com situações reais. Nessa atividade, você é convidado a verificar como a disciplina em questão pode contribuir para a sua experiência e formação profissional. Para isso, atente-se para as orientações dessa atividade MAPA e realize um ótimo trabalho!
Você trabalha em uma farmácia que frequentemente precisa estar atualizada sobre os novos medicamentos homologados pela ANVISA. Nos últimos anos, houve um grande aumento no número de novos medicamentos lançados, o que exigiu uma ferramenta eficiente para a análise dessas informações. Você foi envolvido para propor um modelo que fosse capaz de ser eficiente na identificação desses novos medicamentos. Este modelo receberá mensalmente alguns catálogos das indústrias farmacêuticas para buscar novos medicamentos.
No MAPA de Imersão Profissional, você explorará os dados utilizados no dataset de medicamentos, disponível em: https://www.kaggle.com/code/manvendra7/drugs-sentiment-analysis/input?select=drugsComTrain_raw.csv como base para entender as características dos medicamentos existentes para a obtenção de insights relevantes.
Etapa 1: Análise descritiva
Importe o dataset:
Carregue o dataset drugsComTrain_raw.csv no seu ambiente de análise de dados, como o Anaconda >> Jupyter Notebook.
Verificação de dados faltantes:
Identifique se há dados faltantes no dataset. Caso existam, descreva quais colunas contêm valores ausentes e como você planeja lidar com eles.
Transformação da coluna date (data):
A coluna date (data) contém o dia, mês e ano no qual a revisão foi realizada. Extraia apenas o valor do “ano” da coluna date e crie uma nova coluna chamada ano_revisao.
Transformação da coluna rating (avaliação):
A coluna rating contém a média da avaliação do medicamento. A partir dessa coluna, crie uma nova coluna chamada rating_descricao onde:
os valores de 0 a 1 da coluna rating ficarão com o valor “Muito Ruim” na coluna rating_descricao
os valores de 2 a 4 da coluna rating ficarão com o valor “Ruim” na coluna rating_descricao
os valores de 5 a 6 da coluna rating ficarão com o valor “Mediano” na coluna rating_descricao
os valores de 7 a 8 da coluna rating ficarão com o valor “Bom” na coluna rating_descricao
os valores de 9 a 10 da coluna rating ficarão com o valor “Muito Bom” na coluna rating_descricao
Parte 2: Análise Exploratória de Dados
Análise de avaliação:
Qual é o valor da média, desvio padrão, valor máximo e mínimo das avaliações feitas para cada medicação (rating)? Qual é o medicamento com maior nota? Crie um histograma para visualizar a distribuição das avaliações.
Revisão das medicações:
Qual é o medicamento que foi avaliado há mais tempo? E o mais recente? Crie um gráfico de linha ou histograma que mostre a distribuição do ano de revisão do medicamento (ano_revisao).
Distribuição por condição de tratamento:
Crie um gráfico de barras que mostre a distribuição dos medicamentos por condição que trata (condition - condição). Quantos medicamentos existem em cada condição de tratamento?
Correlação entre as variáveis numéricas:
Gere um heatmap de correlação entre as variáveis numéricas do dataframe, incluindo (rating, usefulCount). Qual do conjunto de variáveis apresenta a maior correlação?
Parte 3: Conclusão
Insights:
A partir dos gráficos e análises realizadas, descreva pelo menos três insights interessantes que você conseguiu obter do dataset.
Atenção:
O envio da atividade MAPA deverá conter o código e as imagens dos gráficos. Deve-se utilizar o TEMPLATE anexado no MATERIAL DA DISCIPLINA, disponibilizado no Studeo, e DEVE ser entregue com a extensão (.pdf) ou (.docx). Depois, deve ser anexado no ambiente da Atividade no STUDEO.