Assista ao vídeo de apresentação do módulo 2




Conceitos básicos para análise de dados na vigilância em saúde

Cada vez mais na realidade dos serviços de vigilância em saúde nos deparamos com o aumento do volume de dados e sua crescente complexidade. Hoje, existe um conjunto de softwares disponíveis, que são muito utilizados e apoiam nossas análises, como o Stata, o SPSS e o Epi Info.

Mas, os softwares tradicionais de processamento de dados simplesmente não conseguem gerenciar de forma adequada alguns bancos de dados ou mesmo integrá-los, o que requer ferramentas específicas de análise. No seu dia a dia, provavelmente você já deve ter se deparado com momentos em que o Excel, por exemplo, interrompe a leitura de banco de dados por ausência de memória, ou até mesmo essas análises se tornarem extremamente lentas, penosas e repetitivas.

Porém, com o software R você será capaz de manipular dados complexos e produzir análises poderosas, já que é uma linguagem de programação voltada à manejo e análise estatística avançada de dados, que pode ser facilmente aplicada por meio de funções e pacotes algumas vezes criados pelo próprio usuário, a partir de necessidades locais, por exemplo.

Na atualidade há um contínuo aumento da coleta automática de grandes bancos de dados na saúde (o famoso Big Data) e a Vigilância em Saúde está inserida neste contexto. O profissional de vigilância necessita utilizar seus dados na saúde compreendendo o passo a passo da coleta, organização e interpretação dos dados obtidos. Extrair informações significativas desses bancos de dados requer um esforço e ferramentas adequadas, e saber lidar com os dados de forma estruturada, segura, com precisão e transparência.

Para seguir com este módulo do curso você deve já ter instalado o software R e a interface gráfica RStudio, que torna o uso e aprendizado do R ainda melhor, esses passos estão disponíveis no “Módulo de Introdução à análise de dados com R - Parte I”.

Neste módulo 2 serão apresentados alguns conceitos básicos para iniciar a manipulação de dados secundários com R utilizando-se dos bancos de dados de diversas fontes!


Ao final deste módulo, você será capaz de:

  1. conceituar a estrutura de um banco de dados;
  2. importar banco de dados para o RStudio e criar tabelas para análise de dados;
  3. reconhecer e manipular objetos no R para analisar dados;
  4. conhecer os tipos de variáveis presentes em um banco de dados;
  5. buscar ajuda quando necessário para o uso R.


1. Analisando seus dados com o R

A análise de dados é uma das mais antigas práticas na vigilância em saúde. Conhecer e acompanhar o estado de saúde da população é uma das atividades mais importantes para elaborar um “diagnóstico de saúde”. Por meio da análise de situação de saúde de uma região é possível fazer o conhecimento de perfis, padrões e tendências que fomentem ações de proteção e promoção da saúde, bem como a prevenção e controle de doenças e agravos à saúde da população. A análise de dados envolve, portanto, um processo de descrição e comparação de dados de diferentes fontes, em momentos e locais distintos, buscando apresentar as características de tempo, pessoa e lugar.

Na rotina da vigilância em saúde os dados que subsidiam essas análises são exportados dos Sistemas de Informação em Saúde, como o Sistema de Informação de Mortalidade (SIM); o Sistema de Informação de Nascidos Vivos (SINASC), o Sistema de Informação de Agravos de Notificação (SINAN); o Sistema de Informação do Programa Nacional de Imunização (SIPNI); o Sistema de Informação e-SUS Notifica (e-SUS), dentre outros tantos. A partir desses sistemas, chegamos em tabelas visualizadas no formato da Figura 1.


Figura 1: Tabela de visualização do e-SUS Notifica com seus dados organizados em Colunas e Linhas.


Na Figura 1, vemos uma base fictícia do Sistema de Informação e-SUS Notifica, simulando dados de casos leves de Covid-19 (Notificações de Síndrome Gripal). Abrimos esta tabela utilizando o Microsoft Excel. Este formato de tabela é o que será utilizado neste módulo para introduzir conceitos e alguns elementos essenciais em uma análise de dados com a linguagem R.

Para iniciar, serão necessários a escrita de roteiros (scripts) e os comandos no R de maneira a construirmos uma rotina de trabalho automatizada com esses dados, ou seja, vamos construir linhas de códigos que indicarão as ações que precisam ser realizadas.

Estas linhas de código irão conter os seguintes elementos definidos na Figura 2 abaixo:


Figura 2: Tabela com conceitos utilizados na análise de dados com R.


Agora, vamos ver como esses elementos podem ser organizados em um script.

1.1 Bancos de dados ou Dataframes

Neste curso, utilizaremos dados organizados em duas dimensões, linhas e colunas, formando os chamados bancos de dados ou dataframes. Em um dataframe cada coluna representa uma variável e cada linha uma observação. Este é um formato comum em quase todos os sistemas de informações de vigilância em saúde.

Vamos retornar à planilha do e-SUS Notifica apresentada, agora destacando um pouco mais a estrutura dessa tabela na Figura 3:


Figura 3: Planilha aberto com dados e-SUS Notifica organizados em Colunas e Linhas.


Perceba que foi possível visualizar na Figura 3, na cor azul a variável “Município da Notificação” disposta na coluna (column, em inglês) da tabela. As colunas têm algumas características importantes:

  • são visualizadas verticalmente na tela;
  • cada coluna é única;
  • contêm dados do mesmo tipo (texto, número);
  • são mencionados pelos nomes, que aparecem na parte superior como títulos, os cabeçalhos.

Já na cor verde, a Figura 3 destaca as Linhas (row, em inglês), também chamadas de observações, valores ou registros. Suas características são:

  • são visualizadas horizontalmente na tela;
  • podem conter um conjunto de tipos diferentes de dados (números, textos, telefones) para cada registro.

O primeiro passo para iniciar a sua análise de dados é a importação dos bancos de dados. Nas próximas subseções você terá o passo a passo de como importar dados oriundos dos sistemas de informação em saúde do tipo .csv e .dbf. Também vamos importar arquivos no formato do Microsoft Excel (.xls e .xlsx), os quais são frequentemente utilizados pelas equipes das vigilâncias.