Análises de séries temporais em R aplicadas à vigilância em saúde
Na rotina da vigilância em saúde é importante entender como certos problemas de saúde são distribuídos ao longo do tempo. Por meio de análises de dados distribuídos no tempo, que chamaremos de séries temporais, podemos observar, por exemplo, que algumas doenças respiratórias são mais comuns em meses de inverno, enquanto algumas doenças transmitidas por mosquitos costumam aumentar durante o verão. Tais análises, ditas análises temporais, também permitem compreender de forma relativamente simples a tendência dos problemas de saúde ao longo de um período de tempo. Por exemplo, a vigilância pode identificar uma tendência de hospitalizações por gastroenterite causadas por um potencial aumento de casos de Hepatite A, acendendo um alerta para identificar possíveis problemas de abastecimento de água. As análises temporais também podem ser utilizadas para ajudar a planejar o futuro, tornando-se essenciais para a tomada de decisões.
Neste curso você vai conhecer as séries temporais, seus objetivos, suas classificações e como podem ser analisadas no contexto da vigilância em saúde.
Ao final deste curso, você será capaz de:
- entender os principais conceitos de séries temporais;
- entender e realizar transformações, suavizações e testes de autocorrelação em séries temporais;
- realizar modelagem estatística de séries temporais.
Módulo 1 - Introdução a séries temporais
O que são séries temporais?
Séries temporais podem ser definidas como um conjunto de valores organizados em ordem cronológica, ou seja, com informações sobre o momento em que esses valores foram observados. Geralmente, essa informação temporal segue uma frequência, ou unidade de tempo, podendo ser mensurações diárias, semanais, mensais, anuais, entre outras. Estamos acostumados a ver séries temporais cotidianamente: ao acompanharmos a variação do preço dos alimentos nos jornais, o aumento da temperatura ao longo das décadas, ou o número de casos de dengue ao longo das semanas.
A maneira mais comum de representarmos graficamente uma série temporal é por meio de um gráfico de linhas, onde o eixo X representa a variável temporal, e o eixo Y, a variável de interesse. Observemos na Figura 1 quatro exemplos de séries temporais que têm aplicação na vigilância em saúde pública. Perceba que cada série trata de uma variável de interesse diferente (A: número de casos prováveis de dengue, B: número de casos de Síndrome Respiratória Aguda Grave, C: temperatura média, e D: número de desastres ambientais). Elas estão em diferentes unidades de tempo (A: por semana epidemiológica, B: por mês, C: por dia, e D: por ano) e representam diferentes locais (A: município de São Luís-MA, B: estado do Paraná, C: município do Rio de Janeiro-RJ, D: Brasil).
Figura 1: Exemplos de séries temporais.
Agora, vamos interpretar as séries temporais dispostas na Figura 1.
A Figura 1A mostra o número de casos prováveis de dengue por semana epidemiológica em São Luís, Maranhão, desde o início de 2023 até a semana 27 de 2024. Em ambos os anos, podemos observar aumento acentuado nos casos por volta da semana epidemiológica 5, atingindo picos por volta da semana 15, seguidos por diminuições graduais. Esse comportamento temporal de aumento expressivo em determinado período do ano pode estar relacionado a condições climáticas ou, ainda, ao impacto de medidas de controle da dengue. Também podemos avaliar que a curva de casos de 2023 foi mais “achatada”, com mais de um pico e casos sendo observados por maior período de tempo comparado com 2024. Em 2024, a curva apresentou comportamento mais “explosivo”, ou seja, o número de casos aumentou mais acentuada e rapidamente, formando apenas um pico, que decresce também rapidamente. Uma curva de casos mais “achatada” pode significar uma persistência da transmissão da doença ao longo do tempo, enquanto uma curva mais “explosiva” pode significar um surto ou epidemia. Essas informações são importantes pois têm implicações diretas nas escolhas das medidas de prevenção e enfrentamento mais adequadas ao cenário.
A Figura 1B mostra o número mensal de casos de Síndrome Respiratória Aguda Grave (SRAG) no Paraná de 2013 a 2018. O monitoramento de casos de SRAG é crucial para a detecção precoce de surtos de doenças respiratórias. Neste exemplo, podemos identificar os meses do ano de maior e menor magnitude de casos. Essa informação permite a tomada de decisões para preparar o serviço de saúde para absorver casos de SRAG nos períodos de alta atividade, por exemplo. Além disso, também podemos identificar mudanças no padrão esperado, como por exemplo picos incomomumente altos como os observados em 2013 e 2016. Um aumento de casos inusual pode gerar um alerta para uma possível introdução de novo vírus ou cepa.
Já a Figura 1C mostra a variação da temperatura média diária na cidade do Rio de Janeiro ao longo de 2023. Observamos que, em geral, a temperatura média varia entre 20 e 30 °C durante o ano. Podemos observar uma tendência de diminuição da temperatura média à medida que o ano avança para os meses de inverno, voltando a subir depois de agosto. Dados de temperatura têm se tornado cada vez mais importantes na vigilância em saúde, visto que o aumento da temperatura pode elevar a incidência de doenças transmitidas por vetores, como a dengue, e o calor extremo pode elevar o risco de morte em pessoas com doenças cardiovasculares.
Finalmente, a Figura 1D representa o número de desastres ambientais registrados no Brasil por ano no período de 2000 a 2023. Há tendência crescente no número de desastres ao longo dos anos, com aumento acentuado especialmente após 2019. Esse padrão pode estar associado a mudanças climáticas, aumento da urbanização desordenada, ou a outros fatores ambientais e até mesmo econômicos e políticos. No contexto da vigilância em saúde, esses dados são fundamentais para planejar respostas rápidas a eventos que podem impactar gravemente a saúde pública.
Você percebeu a riqueza de informações que são possíveis de extrair de uma série temporal? Esses exemplos ilustram como diferentes tipos de dados temporais são essenciais para a tomada de decisões na vigilância em saúde, permitindo o monitoramento contínuo e a resposta rápida a ameaças emergentes. Na sequência do curso, mais exemplos serão apresentados.
Objetivos na análise de séries temporais
Podemos ter diferentes objetivos ao analisar séries temporais no contexto da vigilância em saúde. Frequentemente, adotamos um objetivo descritivo, buscando identificar se as séries apresentam uma tendência ao longo do tempo ou se seguem algum padrão que se repete em determinados períodos. Além disso, podemos investigar se mudanças em uma série temporal, como o aumento da cobertura vacinal, impactam outra série, como o número de casos de sarampo. Acompanhe o Quadro 1 a seguir que apresenta um breve resumo dos principais objetivos da análise de séries temporais na vigilância em saúde.
Quadro 1. Principais objetivos da análise de séries temporais na vigilância em saúde e seus exemplos práticos.
Objetivo | Exemplo |
---|---|
Descrição: Verificar a distribuição da variável no tempo, buscando a existência de tendências ou padrões que se repetem em determinados períodos. Representações gráficas, como gráficos de linhas, histogramas e boxplots, são úteis para uma análise exploratória descritiva. | Identificar uma tendência na série de diagnósticos de AIDS; verificar se há padrões que se repetem na série de casos de dengue, fornecendo subsídios para planejamento de intervenções. |
Gerar hipóteses: Investigar possíveis associações temporais entre variáveis. | O aumento na série de cobertura vacinal está associado a uma queda na série de casos de sarampo? Essa observação pode levantar hipóteses sobre o impacto da cobertura vacinal, que devem ser investigadas com estudos adicionais. |
Classificação: Identificar padrões comuns entre diferentes séries. | Identificar padrões temporais comuns entre diferentes séries, como a correlação entre a série de leishmaniose tegumentar e a visceral. |
Avaliação de intervenção: Avaliar o impacto em uma série de medidas de controle a uma série de eventos de interesse. | Avaliar o impacto de medidas de controle, como campanhas de vacinação, durante uma epidemia de uma doença específica. |
Monitoramento: Detectar variações incomuns no comportamento de séries temporais em tempo real, utilizando técnicas como a detecção de anomalias. | Identificar uma mudança na tendência dos casos de Síndrome Respiratória Aguda Grave, o que pode sinalizar ajustes nos sistemas de saúde como a necessidade de aumento do número de leitos de internação. |
Predição (forecast): Estimar o comportamento futuro de uma determinada série. Pode ser de curto ou longo prazo. | Predição do número de casos esperados em uma epidemia, a partir das estimativas de novos casos da doença. |
Atualização (nowcast): Estimar o valor atual de uma série temporal, corrigindo atrasos nas notificações dos sistemas de informação. | Modelos de nowcasting que permitem uma interpretação mais precisa do cenário atual e possibilitam respostas mais ágeis, como no caso do atraso das notificações de doenças infecciosas. |

Atenção
* O termo nowcasting aqui empregado corresponde à abordagem sob o olhar da epidemiologia e dos sistemas de informação, no sentido de levar em consideração o atraso existente na rotina de inserção desses dados e tentar corrigi-los. O sentido é diferente, portanto, da definição de nowcasting sob a ótica meteorológica, que se refere a uma previsão no futuro de curto prazo.
Tipos de séries temporais
As séries temporais podem ser classificadas em diferentes tipos de acordo com a natureza do que se está medindo e a forma como os dados são coletados. As séries contínuas representam medições que podem ser feitas em qualquer instante de tempo. Elas são úteis para monitorar variáveis que mudam continuamente, como, por exemplo, variáveis climáticas. Nas últimas décadas, tem sido acompanhado o impacto das mudanças climáticas na saúde humana. Um desses acompanhamentos é da temperatura em uma estação meteorológica, onde sensores registram valores a cada momento (Figura 2).
Figura 2: Exemplo de série temporal contínua: Temperatura (°C) medida em 04/10/2023 na estação meteorológica de São Cristóvão, Rio de Janeiro-RJ.
Já as séries discretas representam observações obtidas a partir da contagem de ocorrências de um fenômeno agregadas em intervalos de tempo definidos e separados em partes regulares, como dias, semanas, meses ou anos. Um exemplo clássico é o número de casos confirmados de uma doença a cada ano em uma localidade, como podemos ver na Figura 3.
Figura 3: Exemplo de série temporal discreta: Número de casos confirmados de Coqueluche por ano, Estado de São Paulo, 2006-2023.
Na rotina do profissional da vigilância em saúde, muitas vezes, a análise é realizada utilizando variáveis diferentes para a mesma localidade e para o mesmo período de tempo. Nesse caso, as séries temporais são classificadas como séries multivariadas, pois possuem mais de uma variável para o mesmo conjunto de observações no tempo. A temperatura aferida na estação meteorológica de São Cristóvão no Rio de Janeiro pode ser classificada como uma série univariada, por conter apenas uma variável (Figura 4A). Entretanto, a mesma estação meteorológica coleta outras informações, como a umidade do ar. Caso utilizemos tanto a temperatura quanto a umidade coletadas nesta mesma estação meteorológica no mesmo período de tempo, podemos chamar essa série de multivariada (Figura 4B).
Figura 4: Exemplo de série temporal univariada (A) e de série temporal multivariada (B).
Quando a análise precisa ser realizada para a mesma variável, mas com diferentes dimensões (além da dimensão de tempo), como, por exemplo, a localização do fenômeno, utilizamos as séries multidimensionais. Essas séries permitem monitorar a contagem de casos de uma mesma doença no mesmo intervalo de tempo, mas em diferentes regiões ou municípios. Com isso, podemos comparar o comportamento da doença em diversas localidades e avaliar como fatores locais podem influenciar as variações observadas.
Na Figura 5A temos a série temporal de casos confirmados de coqueluche no Estado de São Paulo, de 2006 a 2022, representando uma única dimensão (tempo). Observa-se aumento significativo de casos a partir de 2010, atingindo o pico em 2014, seguido de uma redução gradual até 2022. Já a Figura 5B mostra uma série multidimensional, com os casos confirmados de coqueluche por Unidade Federativa (UF) (Espírito Santo, Minas Gerais, Rio de Janeiro, São Paulo) ao longo do mesmo período da Figura 5A (2006-2022). Na Figura 5B é possível comparar as trajetórias da coqueluche entre diferentes estados. São Paulo e Minas Gerais se destacam com um pico acentuado de casos em 2014, enquanto os outros estados apresentam curvas mais moderadas e estáveis.
Figura 5: Exemplos de séries temporais unidimensional (A) e multidimensional (B).
Agora que já entendemos o que são as séries temporais e como podem
ser classificadas, é importante destacar que, para extrair o máximo de
informação desses dados, precisamos compreender alguns conceitos de
estatística. Sabemos que a palavra “estatística” pode soar intimidadora
para quem não está acostumado, mas aqui vamos tratar de conceitos
simples, focados em ajudar no dia a dia da vigilância em saúde. A boa
notícia é que muitos dos métodos estatísticos já estão implementados em
ferramentas como o R
, o que facilita muito o processo de
análise. Vamos lá?