Assista ao vídeo de apresentação do módulo 2
Conceitos básicos para análise de dados na vigilância em saúde
Cada vez mais na realidade dos serviços de vigilância em saúde nos deparamos com o aumento do volume de dados e sua crescente complexidade. Hoje, existe um conjunto de softwares disponíveis, que são muito utilizados e apoiam nossas análises, como o Stata, o SPSS e o Epi Info.
Mas, os softwares tradicionais de processamento de dados simplesmente não conseguem gerenciar de forma adequada alguns bancos de dados ou mesmo integrá-los, o que requer ferramentas específicas de análise. No seu dia a dia, provavelmente você já deve ter se deparado com momentos em que o Excel, por exemplo, interrompe a leitura de banco de dados por ausência de memória, ou até mesmo essas análises se tornarem extremamente lentas, penosas e repetitivas.
Porém, com o software R
você será capaz de manipular
dados complexos e produzir análises poderosas, já que é uma linguagem de
programação voltada à manejo e análise estatística avançada de dados,
que pode ser facilmente aplicada por meio de funções e pacotes algumas
vezes criados pelo próprio usuário, a partir de necessidades locais, por
exemplo.
Na atualidade há um contínuo aumento da coleta automática de grandes bancos de dados na saúde (o famoso Big Data) e a Vigilância em Saúde está inserida neste contexto. O profissional de vigilância necessita utilizar seus dados na saúde compreendendo o passo a passo da coleta, organização e interpretação dos dados obtidos. Extrair informações significativas desses bancos de dados requer um esforço e ferramentas adequadas, e saber lidar com os dados de forma estruturada, segura, com precisão e transparência.
Para seguir com este módulo do curso você deve já ter instalado o
software R
e a interface gráfica
RStudio
, que torna o uso e aprendizado do R
ainda melhor, esses passos estão disponíveis no “Módulo de Introdução à
análise de dados com R
- Parte I”.
Neste módulo 2 serão apresentados alguns conceitos básicos para
iniciar a manipulação de dados secundários com
R
utilizando-se dos bancos de dados de diversas
fontes!
Ao final deste módulo, você será capaz de:
- conceituar a estrutura de um banco de dados;
- importar banco de dados para o
RStudio
e criar tabelas para análise de dados; - reconhecer e manipular objetos no
R
para analisar dados; - conhecer os tipos de variáveis presentes em um banco de dados;
- buscar ajuda quando necessário para o uso
R
.
1. Analisando seus dados com o
R
A análise de dados é uma das mais antigas práticas na vigilância em saúde. Conhecer e acompanhar o estado de saúde da população é uma das atividades mais importantes para elaborar um “diagnóstico de saúde”. Por meio da análise de situação de saúde de uma região é possível fazer o conhecimento de perfis, padrões e tendências que fomentem ações de proteção e promoção da saúde, bem como a prevenção e controle de doenças e agravos à saúde da população. A análise de dados envolve, portanto, um processo de descrição e comparação de dados de diferentes fontes, em momentos e locais distintos, buscando apresentar as características de tempo, pessoa e lugar.
Na rotina da vigilância em saúde os dados que subsidiam essas análises são exportados dos Sistemas de Informação em Saúde, como o Sistema de Informação de Mortalidade (SIM); o Sistema de Informação de Nascidos Vivos (SINASC), o Sistema de Informação de Agravos de Notificação (SINAN); o Sistema de Informação do Programa Nacional de Imunização (SIPNI); o Sistema de Informação e-SUS Notifica (e-SUS), dentre outros tantos. A partir desses sistemas, chegamos em tabelas visualizadas no formato da Figura 1.
Figura 1: Tabela de visualização do e-SUS Notifica com seus dados organizados em Colunas e Linhas.
Na Figura 1, vemos uma base fictícia do Sistema de Informação e-SUS
Notifica, simulando dados de casos leves de Covid-19 (Notificações de
Síndrome Gripal). Abrimos esta tabela utilizando o Microsoft Excel. Este
formato de tabela é o que será utilizado neste módulo para introduzir
conceitos e alguns elementos essenciais em uma análise de dados com a
linguagem R
.
Para iniciar, serão necessários a escrita de roteiros
(scripts) e os comandos no R
de maneira a
construirmos uma rotina de trabalho automatizada com esses dados, ou
seja, vamos construir linhas de códigos que indicarão as ações que
precisam ser realizadas.
Figura 2: Tabela com conceitos utilizados na análise de dados com R
.
Agora, vamos ver como esses elementos podem ser organizados em um script.
1.1 Bancos de dados ou Dataframes
Neste curso, utilizaremos dados organizados em duas dimensões, linhas
e colunas, formando os chamados bancos de dados ou dataframes.
Em um dataframe
cada coluna representa uma variável e cada
linha uma observação. Este é um formato comum em quase todos os sistemas
de informações de vigilância em saúde.
Vamos retornar à planilha do e-SUS Notifica apresentada, agora destacando um pouco mais a estrutura dessa tabela na Figura 3:
Figura 3: Planilha aberto com dados e-SUS Notifica organizados em Colunas e Linhas.
Perceba que foi possível visualizar na Figura 3, na cor azul a variável “Município da Notificação” disposta na coluna (column, em inglês) da tabela. As colunas têm algumas características importantes:
- são visualizadas verticalmente na tela;
- cada coluna é única;
- contêm dados do mesmo tipo (texto, número);
- são mencionados pelos nomes, que aparecem na parte superior como títulos, os cabeçalhos.
Já na cor verde, a Figura 3 destaca as Linhas (row, em inglês), também chamadas de observações, valores ou registros. Suas características são:
- são visualizadas horizontalmente na tela;
- podem conter um conjunto de tipos diferentes de dados (números, textos, telefones) para cada registro.
O primeiro passo para iniciar a sua análise de dados é a importação
dos bancos de dados. Nas próximas subseções você terá o passo a passo de
como importar dados oriundos dos sistemas de informação em saúde do tipo
.csv
e .dbf
. Também vamos importar arquivos no
formato do Microsoft Excel (.xls
e .xlsx
), os
quais são frequentemente utilizados pelas equipes das vigilâncias.