Projeto ANUBIS — Notas Analíticas Preliminares

Dados, análises, modelagens, discussões e tomadas de decisões

R
Ciência de dados
Visualização de dados
Artigo
Autor

Majory Melo e Henrique Pegorari

Data de Publicação

08 de abril de 2026


Sobre este documento

Este arquivo registra observações e análises preliminares do Projeto ANUBIS — estudo de séries temporais de suicídio no Brasil (2000–2022). O objetivo é documentar decisões metodológicas e fornecer evidências para a redação do manuscrito.

Repositório: github.com/EnigmaMajoris/anubis
Project board: github.com/users/EnigmaMajoris/projects/2


1 Visão geral da estratégia populacional

A construção da base populacional seguiu uma estratégia em dois níveis distintos:

Nível 1 — Totais populacionais anuais: foram obtidos integralmente de fontes observadas, sem imputação. Para os anos censitários e de contagem (2000, 2007, 2010 e 2022), os totais provieram diretamente dos levantamentos do IBGE. Para os demais anos (2001–2006 e 2008–2021), foram utilizadas as estimativas intercensitárias da Tabela SIDRA 6579.

Nível 2 — Desagregação por sexo nos anos intermediários: as proporções masculina e feminina foram interpoladas a partir de quatro âncoras observadas (2000, 2007, 2010 e 2022) e aplicadas sobre os totais do Nível 1.

A principal decisão metodológica desta etapa, a escolha do método de interpolação das proporções por sexo, é documentada em detalhe na Seção 3.

1.1 Fontes utilizadas

Tabela 1: Fontes populacionais utilizadas na construção da série 2000–2022
Fonte Tabela SIDRA Cobertura Variáveis
Censo Demográfico 2000 Tab. 200 Nacional por macrorregião Total, homens, mulheres
Contagem da População 2007 Tab. 794 Municípios ≤ 170 mil hab. Total, homens, mulheres
Censo Demográfico 2010 Tab. 200 Nacional por macrorregião Total, homens, mulheres
Estimativas anuais 2001–2021 Tab. 6579 Nacional por macrorregião Total
Censo Demográfico 2022 Tab. 9514 Nacional por macrorregião Total, homens, mulheres

2 A Contagem da População de 2007

2.1 Por que o total de 2007 diverge dos anos adjacentes?

Ao visualizar a série do Brasil, o ano de 2007 apresentou um total de 108.765.037 pessoas — muito abaixo dos ~186 milhões de 2006 e ~189 milhões de 2008. Esse valor não foi erro de processamento, mas refletiu a natureza da operação censitária.

Explicação oficial — IBGE (2007)

A Contagem da População de 2007 não cobriu todos os municípios brasileiros. Por razões orçamentárias, o levantamento de campo foi restrito aos municípios com até 170 mil habitantes, universo que na época correspondia a 5.435 dos 5.564 municípios existentes. Para os 129 municípios excluídos — todos de grande porte, predominantemente metropolitanos — o IBGE produziu estimativas separadas com metodologia própria.

Fonte: IBGE. Contagem da População 2007: primeiros resultados. Rio de Janeiro: IBGE, 2007. Disponível em: biblioteca.ibge.gov.br/visualizacao/livros/liv37666.pdf

Fonte complementar: IBGE. Metodologia do Censo Demográfico 2010. Rio de Janeiro: IBGE, 2013. p. 28–30. (Série Relatórios Metodológicos, v. 41). Disponível em: biblioteca.ibge.gov.br/visualizacao/livros/liv52675.pdf

O valor de 108.765.037 pessoas corresponde, portanto, à população efetivamente recenseada de campo — não à população total do Brasil em 2007. Por esse motivo, o total de 2007 proveniente da Contagem não foi utilizado como denominador nas taxas de mortalidade; essa função foi exercida pelas estimativas anuais da Tabela 6579, que forneceu valores completos e metodologicamente consistentes para todos os anos, inclusive 2007.

2.2 Papel da Contagem 2007 neste projeto

A Contagem de 2007 foi utilizada exclusivamente como âncora para interpolação das proporções por sexo, não dos totais populacionais. Essa distinção foi fundamental: o que nos interessa de 2007 é a relação observada entre homens e mulheres, não o total absoluto recenseado.

Código
ancoras |>
  filter(local == "Brasil") |>
  mutate(
    fonte = case_when(
      ano == 2000 ~ "Censo 2000",
      ano == 2007 ~ "Contagem 2007*",
      ano == 2010 ~ "Censo 2010",
      ano == 2022 ~ "Censo 2022"
    ),
    `% Masculino` = round(prop_masc * 100, 3),
    `% Feminino`  = round(prop_fem  * 100, 3),
    `Total`       = format(populacao_total, big.mark = ".", decimal.mark = ",")
  ) |>
  select(Ano = ano, Fonte = fonte, `Total`, `% Masculino`, `% Feminino`) |>
  kable(align = c("c","l","r","c","c")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped","hover")) |>
  footnote(
    symbol = "Cobertura parcial: municípios com ≤ 170 mil habitantes (IBGE, 2007).",
    footnote_as_chunk = TRUE
  )
Tabela 2: Proporções por sexo nas quatro âncoras censitárias — Brasil
Ano Fonte Total % Masculino % Feminino
2000 Censo 2000 169.872.856 49.215 50.785
2007 Contagem 2007* 108.765.037 49.542 49.728
2010 Censo 2010 190.755.799 48.967 51.033
2022 Censo 2022 203.080.756 48.519 51.481
* Cobertura parcial: municípios com ≤ 170 mil habitantes (IBGE, 2007).

2.3 Implicação metodológica: viés de seleção nas proporções de 2007

A exclusão dos 129 municípios grandes da Contagem levanta uma questão legítima: as proporções por sexo calculadas a partir da amostra coberta são representativas da população total?

Municípios de grande porte e metropolitanos tendem a concentrar maior proporção feminina, em razão dos padrões históricos de migração interna brasileira, onde mulheres migram em maior proporção para centros urbanos em busca de trabalho doméstico e serviços (SIMÕES, 2016). A exclusão desses municípios poderia, em tese, superestimar a proporção masculina na Contagem.

Contudo, dois argumentos sustentaram a manutenção da Contagem como âncora:

  1. Comparação com os Censos adjacentes: a proporção masculina da Contagem 2007 para o Brasil foi de 49.54%, valor intermediário entre o Censo 2000 (49.21%) e o Censo 2010 (48.97%), o que é demograficamente coerente com a tendência de feminização progressiva da população brasileira (INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2022).

  2. Análise de sensibilidade (Seção 4): a inclusão da Contagem 2007 como âncora reduz o intervalo máximo sem referência de 22 anos (2000–2022) para dois segmentos de no máximo 10 anos (2000–2010 e 2010–2022), aumentando substancialmente a fidelidade da interpolação.


3 Comparação de métodos de interpolação

3.1 Contexto da decisão

Para os anos intermediários entre as âncoras censitárias, as proporções por sexo foram estimadas por interpolação. Dois métodos foram avaliados em paralelo sobre as mesmas âncoras e os mesmos dados:

  • Spline cúbica natural (zoo::na.spline): ajusta polinômios de grau 3 entre os pontos de ancoragem, minimizando a curvatura total da série. É o método de interpolação mais suave e frequentemente adotado em séries demográficas (HYNDMAN; ATHANASOPOULOS, 2021).

  • Interpolação linear por partes (zoo::na.approx): conecta as âncoras por segmentos de reta, sem curvatura adicional. É o método mais conservador e matematicamente mais simples.

A escolha entre os métodos foi feita com base em critérios objetivos, documentados a seguir.

3.2 Envelope demográfico das âncoras

O critério principal de avaliação foi a permanência dentro do envelope demográfico — faixa definida pelos valores mínimo e máximo de proporção masculina observados nas quatro âncoras, acrescidos de margem de tolerância de 0,5 ponto percentual por região.

Código
envelope |>
  mutate(across(where(is.numeric), ~ round(.x, 3))) |>
  rename(
    Região             = local,
    `Mín observado`   = prop_masc_min_obs,
    `Máx observado`   = prop_masc_max_obs,
    `Limite inferior` = prop_masc_min,
    `Limite superior` = prop_masc_max
  ) |>
  kable(align = c("l","c","c","c","c")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped","hover")) |>
  add_header_above(c(" " = 1,
                     "Âncoras observadas" = 2,
                     "Envelope (± 0,5 p.p.)" = 2))
Tabela 3: Envelope demográfico de plausibilidade por macrorregião (proporção masculina × 100)
Âncoras observadas
Envelope (± 0,5 p.p.)
Região Mín observado Máx observado Limite inferior Limite superior
Brasil 0.485 0.495 0.480 0.500
Centro-Oeste 0.492 0.502 0.487 0.507
Nordeste 0.483 0.491 0.478 0.496
Norte 0.499 0.506 0.494 0.511
Sudeste 0.482 0.496 0.477 0.501
Sul 0.487 0.495 0.482 0.500

3.3 Figura 1 — Trajetórias comparadas por região

A figura abaixo apresenta as trajetórias produzidas por cada método para o Brasil e as cinco macrorregiões, com o envelope demográfico sombreado, as âncoras observadas destacadas e os casos de extrapolação da spline marcados.

Código
knitr::include_graphics(
  file.path(caminho_figuras, "fig01_proporcoes_spline_vs_linear.png")
)

Figura 1: Proporção masculina interpolada por método — Brasil e macrorregiões, 2000–2022. Faixa cinza: envelope demográfico (âncoras ± 0,5 p.p.). Linha azul: interpolação linear. Linha tracejada: spline cúbica.

A spline cúbica produziu trajetórias claramente não-plausíveis em quatro das seis regiões: após atingir um pico artificial em torno de 2005 (efeito da curvatura induzida pelo intervalo curto de apenas três anos entre as âncoras de 2007 e 2010), a série despencou acentuadamente até 2017–2018, ultrapassando os limites inferiores do envelope. A interpolação linear, por contraste, acompanhou a tendência geral de suave declínio na proporção masculina sem oscilações espúrias.

3.4 Diagnóstico quantitativo da spline

Código
diag_spline |>
  mutate(
    desvio_max_pp = round(desvio_max_pp, 4),
    ano_pior      = ifelse(is.na(ano_pior), "—", as.character(ano_pior))
  ) |>
  rename(
    Região                      = local,
    `Anos fora do envelope (n)` = n_anos_fora,
    `Desvio máx. (p.p.)`       = desvio_max_pp,
    `Ano do maior desvio`       = ano_pior
  ) |>
  kable(align = c("l","c","c","c")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped","hover")) |>
  row_spec(which(diag_spline$n_anos_fora > 0), background = "#FFF3CD")
Tabela 4: Diagnóstico da spline cúbica por macrorregião — anos interpolados
Região Anos fora do envelope (n) Desvio máx. (p.p.) Ano do maior desvio
Sudeste 9 0.8952 2017
Brasil 6 0.2255 2018
Centro-Oeste 4 0.1146 2018
Sul 4 0.1039 2018
Nordeste 0 0.0000
Norte 0 0.0000
Concentração do problema no Sudeste

A região Sudeste concentrou 9 dos 23 casos de extrapolação, com desvio máximo de 0.895 p.p. em 2017. Essa concentração não foi aleatória: o Sudeste possui as maiores metrópoles do país, exatamente os municípios excluídos da Contagem 2007, o que ampliou o impacto do viés de seleção daquela fonte na âncora de 2007 e, consequentemente, na curvatura da spline naquele segmento.

3.5 Figura 2 — Overshoot da spline por região

Código
knitr::include_graphics(
  file.path(caminho_figuras, "fig02_overshoot_spline.png")
)

Figura 2: Desvio da spline cúbica em relação ao envelope demográfico — anos interpolados. Barras laranjas: casos de extrapolação além do limite do envelope.

A figura confirma que o overshoot é um fenômeno concentrado temporalmente (2012–2021) e regionalmente (Sudeste e, em menor grau, Brasil agregado), não distribuído aleatoriamente ao longo da série. Esse padrão é consistente com a explicação geométrica: o intervalo de apenas três anos entre as âncoras de 2007 e 2010 força a spline a fazer uma inflexão abrupta, com propagação de curvatura espúria para os anos subsequentes.

3.6 Figura 3 — Diferença absoluta entre métodos

Código
knitr::include_graphics(
  file.path(caminho_figuras, "fig03_diferenca_absoluta_metodos.png")
)

Figura 3: Diferença absoluta entre spline cúbica e interpolação linear (p.p.) — anos interpolados. Representa o erro que seria introduzido nas proporções caso a spline fosse adotada.
Código
comp_metodos |>
  mutate(
    dif_media_pp = round(dif_media_pp, 3),
    dif_max_pp   = round(dif_max_pp, 3)
  ) |>
  rename(
    Região                        = local,
    `Dif. média (p.p.)`          = dif_media_pp,
    `Dif. máx. (p.p.)`           = dif_max_pp,
    `Ano da maior diferença`      = ano_max_dif
  ) |>
  kable(align = c("l","c","c","c")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped","hover")) |>
  row_spec(1, bold = TRUE, background = "#F8D7DA")
Tabela 5: Diferença entre spline cúbica e interpolação linear por macrorregião
Região Dif. média (p.p.) Dif. máx. (p.p.) Ano da maior diferença
Sudeste 0.818 1.588 2017
Brasil 0.467 0.903 2017
Centro-Oeste 0.418 0.803 2017
Sul 0.381 0.743 2017
Nordeste 0.221 0.422 2017
Norte 0.183 0.371 2017

A maior divergência entre os métodos atingiu 1.588 p.p. na região Sudeste em 2017. Em termos populacionais, esse desvio corresponderia a um erro de aproximadamente 1.381.024 pessoas na desagregação por sexo naquele ano, magnitude relevante para denominadores de taxas de mortalidade em estudos de séries temporais.

3.7 Quadro comparativo final

Código
tibble(
  Critério = c(
    "Anos/região fora do envelope demográfico",
    "Inflexões não-monotônicas detectadas",
    "Desvio máximo do envelope (p.p.)",
    "Maior divergência entre métodos (p.p.)",
    "Região/ano crítico",
    "Garantia de monotonia por segmento",
    "Método adotado para a série final"
  ),
  `Spline cúbica` = c(
    glue("{n_fora_spline} casos"),
    "12 inflexões",
    glue("{round(max(diag_spline$desvio_max_pp), 3)}"),
    glue("{round(dif_max_global, 3)}"),
    glue("{regiao_max_dif} / {ano_max_dif}"),
    "❌  Não",
    "❌  Não"
  ),
  `Interpolação linear` = c(
    "0 casos",
    "0 (por definição)",
    "—",
    "0 (referência)",
    "—",
    "✅  Sim",
    "✅  Sim"
  )
) |>
  kable(align = c("l","c","c")) |>
  kable_styling(full_width = TRUE, bootstrap_options = c("striped","hover")) |>
  row_spec(7, bold = TRUE, background = "#D4EDDA") |>
  column_spec(1, width = "50%")
Tabela 6: Comparação entre spline cúbica e interpolação linear — critérios de seleção do método
Critério Spline cúbica Interpolação linear
Anos/região fora do envelope demográfico 23 casos 0 casos
Inflexões não-monotônicas detectadas 12 inflexões 0 (por definição)
Desvio máximo do envelope (p.p.) 0.895
Maior divergência entre métodos (p.p.) 1.588 0 (referência)
Região/ano crítico Sudeste / 2017
Garantia de monotonia por segmento ❌ Não | ✅ Sim |
Método adotado para a série final ❌ Não | ✅ Sim |
Justificativa metodológica — rascunho para o manuscrito

A desagregação da população por sexo nos anos intermediários foi realizada por interpolação linear por partes das proporções masculina e feminina calculadas nas quatro âncoras censitárias observadas (Censos de 2000, 2010 e 2022; Contagem da População de 2007). Dois métodos foram avaliados em paralelo, spline cúbica natural e interpolação linear, sobre as mesmas âncoras e o mesmo período.

A spline cúbica produziu extrapolações fora do envelope demográfico plausível em 23 combinações ano-região (de 114 avaliadas), com desvio máximo de 0.895 p.p. na região Sudeste em 2017, e apresentou 12 inflexões não-monotônicas. O fenômeno foi atribuído ao intervalo de apenas três anos entre as âncoras de 2007 e 2010, que induziu curvatura excessiva com propagação de artefato para os anos subsequentes. A maior divergência entre os dois métodos atingiu 1.588 p.p. no Sudeste em 2017.

A interpolação linear permaneceu integralmente dentro do envelope em todas as combinações ano-região avaliadas e, por ser monotônica em cada segmento por definição matemática, não gerou inflexões espúrias (curva artificial) . Em face desses resultados, a interpolação linear foi adotada como método para a série final.


4 Análise de sensibilidade — âncora de 2007

Código
knitr::include_graphics(
  file.path(caminho_figuras, "fig04_sensibilidade_2007.png")
)

Figura 4: Análise de sensibilidade — impacto de incluir a Contagem 2007 como âncora. Comparação entre interpolação linear com e sem a âncora de 2007.

A Figura 4 mostra que a inclusão da Contagem 2007 gerou uma inflexão visível na série linear em algumas regiões, especialmente Sudeste e Sul, onde a proporção da Contagem de 2007 é ligeiramente superior à tendência esperada entre 2000 e 2010. Isso é consistente com o viés de seleção discutido na Seção 2: a exclusão dos municípios maiores tende a superestimar levemente a proporção masculina na Contagem.

Contudo, a diferença entre as duas configurações é demograficamente pequena para a maioria das regiões, e a inclusão da Contagem é metodologicamente preferível por dois motivos: (1) ancora a interpolação em dado de campo observado, e (2) divide o intervalo de 22 anos em dois segmentos menores, reduzindo a incerteza da estimativa intercensitária.

Nota para discussão

A pergunta previsível é: “se a Contagem 2007 tem cobertura parcial, por que usá-la como âncora?”

A resposta é que a alternativa (não usar a Contagem e interpolar entre 2000 e 2010) também tem limitações, e mais graves: produz uma série baseada em um único segmento de 10 anos sem referência intermediária observada. A Contagem 2007, apesar da cobertura parcial, é a única fonte de campo disponível para o período intercensitário, e suas proporções por sexo são biologicamente plausíveis e coerentes com a tendência entre 2000 e 2010. A análise de sensibilidade documenta formalmente o impacto de incluí-la, permitindo que o leitor avalie a robustez das escolhas.


5 Proporções observadas nas âncoras censitárias

Código
knitr::include_graphics(
  file.path(caminho_figuras, "fig05_ancoras_censitarias.png")
)

Figura 5: Proporção masculina observada nas quatro âncoras censitárias — Brasil e macrorregiões. Pontos: valores diretamente observados nos levantamentos do IBGE.

A Figura 5 evidencia dois padrões relevantes para a discussão metodológica:

  1. Tendência de feminização progressiva: em todas as regiões, a proporção masculina declina ao longo do período, de forma mais acentuada entre 2010 e
    1. Esse padrão é consistente com a literatura demográfica brasileira e com as projeções do IBGE (INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2018).
  2. Variação máxima inferior a 2 p.p.: em nenhuma região a diferença entre a maior e a menor proporção masculina observada supera 2 pontos percentuais ao longo de 22 anos. Esse estreitamento da faixa de variação confirma que métodos conservadores de interpolação são adequados. A suavidade adicional da spline não traz benefício analítico que justifique o risco de extrapolação.
Código
ancoras |>
  mutate(
    fonte = case_when(
      ano == 2000 ~ "Censo 2000",
      ano == 2007 ~ "Contagem 2007*",
      ano == 2010 ~ "Censo 2010",
      ano == 2022 ~ "Censo 2022"
    ),
    `% Masculino` = round(prop_masc * 100, 3)
  ) |>
  select(Região = local, Ano = ano, Fonte = fonte, `% Masculino`) |>
  pivot_wider(
    names_from  = c(Ano, Fonte),
    values_from = `% Masculino`,
    names_glue  = "{Ano}\n{Fonte}"
  ) |>
  kable(align = "lcccc") |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped","hover")) |>
  footnote(
    symbol = "Cobertura parcial: municípios com ≤ 170 mil habitantes.",
    footnote_as_chunk = TRUE
  )
Tabela 7: Proporções masculinas observadas nas quatro âncoras censitárias — todas as regiões
Região 2000 Censo 2000 | 2007 Contagem 2007 | 2010 Censo 20 0 | 2022 Censo 2
Brasil 49.215 49.542 48.967 48.519
Centro-Oeste 49.848 50.174 49.651 49.157
Nordeste 49.036 49.131 48.810 48.332
Norte 50.630 50.363 50.458 49.917
Sudeste 48.917 49.570 48.624 48.161
Sul 49.390 49.546 49.061 48.715
* Cobertura parcial: municípios com ≤ 170 mil habitantes.

6 Série populacional final

Código
pop_final |>
  filter(local == "Brasil") |>
  mutate(
    prop_masc = round(pop_masculino / populacao_total * 100, 3),
    across(c(populacao_total, pop_masculino, pop_feminino),
           ~ format(.x, big.mark = ".", decimal.mark = ","))
  ) |>
  select(
    Ano           = ano,
    `Total`       = populacao_total,
    `Masculino`   = pop_masculino,
    `Feminino`    = pop_feminino,
    `% Masc.`     = prop_masc
  ) |>
  kable(align = c("c","r","r","r","c")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped","hover")) |>
  row_spec(which(pop_final |> filter(local=="Brasil") |> pull(ano) == 2007),
           background = "#FFF3CD") |>
  footnote(
    general = "Linha em amarelo: ano da Contagem da População (total observado na operação censitária, não estimativa da população total do Brasil).",
    footnote_as_chunk = TRUE
  )
Tabela 8: Série populacional final — Brasil, 2000–2022 (interpolação linear adotada)
Ano Total Masculino Feminino % Masc.
2000 169.872.856 83.602.317 86.270.539 49.215
2001 172.385.826 84.919.564 87.286.368 49.261
2002 174.632.960 86.108.080 88.160.403 49.308
2003 176.871.437 87.294.422 89.023.292 49.355
2004 181.569.056 89.697.705 91.113.445 49.401
2005 184.184.264 91.075.663 92.147.573 49.448
2006 186.770.562 92.441.754 93.159.380 49.495
2007 188.187.784 93.231.082 93.582.017 49.542
2008 189.605.006 93.569.958 95.111.689 49.350
2009 191.480.630 94.128.747 96.885.637 49.158
2010 190.755.799 93.406.990 97.348.809 48.967
2011 192.379.287 94.130.147 98.249.140 48.929
2012 193.904.015 94.803.806 99.100.209 48.892
2013 201.032.714 98.214.135 102.818.579 48.855
2014 202.768.562 98.986.489 103.782.073 48.817
2015 204.450.049 99.731.029 104.719.020 48.780
2016 206.081.432 100.449.892 105.631.540 48.743
2017 207.660.929 101.142.266 106.518.663 48.705
2018 208.494.900 101.470.627 107.024.273 48.668
2019 210.147.125 102.196.288 107.950.837 48.631
2020 211.755.692 102.899.502 108.856.190 48.593
2021 213.317.639 103.578.877 109.738.762 48.556
2022 203.080.756 98.532.431 104.548.325 48.519
Note: Linha em amarelo: ano da Contagem da População (total observado na operação censitária, não estimativa da população total do Brasil).

7 Validação e análise exploratória dos microdados SIM

7.1 Contexto e fonte de dados

Os microdados de mortalidade utilizados neste estudo provêm do Sistema de Informações sobre Mortalidade (SIM), mantido pelo Ministério da Saúde e disponibilizado pelo DATASUS (MINISTÉRIO DA SAÚDE, 2024). O SIM é a principal fonte nacional de dados sobre causas de morte no Brasil e opera com base na Declaração de Óbito (DO), documento padronizado pelo Ministério da Saúde preenchido por médico atestante (MINISTÉRIO DA SAÚDE, 2024). A codificação das causas de óbito segue a Classificação Internacional de Doenças — décima revisão (CID-10).

O acesso e o pré-processamento dos microdados foram realizados com o pacote microdatasus (SALDANHA; BASTOS; BARCELLOS, 2019) para a linguagem R, que automatiza o download por Unidade da Federação e decodifica as variáveis conforme os dicionários oficiais do DATASUS. Os registros de suicídio foram definidos pelos códigos CID-10 X60 a X84 — “lesões autoprovocadas intencionalmente” —, categoria que engloba todos os métodos de suicídio consumado registrados no sistema (WORLD HEALTH ORGANIZATION, 2021).

Decisão de design do pipeline (v10.0)

Por limitação de memória RAM (o arquivo bruto do SIM para o período 2000–2022 contém aproximadamente 26 milhões de registros), o filtro CID X60–X84 foi aplicado individualmente em cada ano durante o download, antes da consolidação dos arquivos. O arquivo resultante sim_suicidio_2000_2022.rds contém exclusivamente registros de suicídio (~240 mil linhas), tornando o pipeline reproduzível em máquinas com recursos computacionais limitados. O script 03_clean_dados.R re-aplica o filtro como verificação de integridade.

7.2 Resumo da limpeza e validação

Código
tab_resumo_eda |>
  kable(col.names = c("Item", "Valor"), align = c("l", "r")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover"))
Tabela 9: Resumo da validação e limpeza dos microdados SIM — Brasil, 2000–2022
Item Valor
Registros pós-filtro CID (bruto) 240.844
Registros na base limpa 240.802
Perdas totais (bruto → limpo) 42 (0%
Período coberto 2000–2022
Flags de atenção identificados 0
Subcódigos CID com frequência zero 0

O processo de limpeza resultou em perdas mínimas: dos 240.844 registros com CID X60–X84 presentes no arquivo bruto, apenas 42 foram excluídos (0,02%), sendo 2 por data de óbito inválida e 40 por sexo não informado ou codificado fora das categorias válidas. A base final contém 240.802 óbitos por suicídio no período 2000–2022. Nenhuma flag de atenção foi disparado pelos critérios de qualidade pré-definidos; nenhuma variável analítica superou 5% de valores ausentes e todos os 25 subcódigos CID X60–X84 apresentaram ao menos um registro.

Limitação: ausência de dados em 2002 e 2005

Na execução original do script de download, os anos 2002 e 2005 não foram incorporados ao arquivo bruto em razão de um problema de codificação (encoding) em arquivos .dbc desses anos — bytes inválidos no padrão latin1 interrompiam silenciosamente o processamento pelo process_sim(), retornando NULL sem mensagem de erro explícita. O problema foi identificado durante a análise exploratória (ausência desses anos na tabela de cobertura) e corrigido na versão 10.0 do script 01_download_dados.R, que passou a aplicar iconv() com sub = "byte" antes do processamento. Os dados de 2002 (7.722 registros) e 2005 (8.549 registros) foram recuperados e confirmados como plausíveis pela continuidade da tendência da série.

7.3 Cobertura temporal

Código
knitr::include_graphics(
  file.path(caminho_figuras, "eda_sim", "fig_cobertura_temporal.png")
)

Figura 6: Óbitos por suicídio (CID X60–X84) por sexo — Brasil, 2000–2022. Linha tracejada: total. Faixa cinza: período da pandemia de COVID-19 (2020–2022).
Código
tab_cobertura |>
  mutate(across(c(Feminino, Masculino, Total),
                ~format(., big.mark = ".", trim = TRUE))) |>
  kable(col.names = c("Ano", "Feminino", "Masculino", "Total"),
        align = c("c", "r", "r", "r")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) |>
  row_spec(which(tab_cobertura$ano >= 2020), background = "#fff3cd") |>
  footnote(general = "Linhas em amarelo: período da pandemia de COVID-19.",
           footnote_as_chunk = TRUE)
Tabela 10: Óbitos por suicídio por ano e sexo — Brasil, 2000–2022
Ano Feminino Masculino Total
2000 1.382 5.396 6.778
2001 1.560 6.177 7.737
2002 1.694 6.028 7.722
2003 1.604 6.256 7.860
2004 1.706 6.311 8.017
2005 1.805 6.744 8.549
2006 1.805 6.834 8.639
2007 1.872 6.996 8.868
2008 1.953 7.375 9.328
2009 1.872 7.500 9.372
2010 2.073 7.375 9.448
2011 2.089 7.762 9.851
2012 2.257 8.061 10.318
2013 2.223 8.309 10.532
2014 2.233 8.419 10.652
2015 2.396 8.780 11.176
2016 2.378 9.053 11.431
2017 2.664 9.826 12.490
2018 2.729 9.999 12.728
2019 2.919 10.599 13.518
2020 2.964 10.868 13.832
2021 3.431 12.064 15.495
2022 3.553 12.908 16.461
Note: Linhas em amarelo: período da pandemia de COVID-19.

A série apresentou crescimento secular ininterrupto entre 2000 e 2022, com o total de óbitos passando de 6.778 em 2000 para 16.461 em 2022 — aumento de 143% em 22 anos. Esse crescimento é consistente com as tendências documentadas na literatura nacional (LOVISI et al., 2009; MINAYO et al., 2010; RIBEIRO; MOREIRA; SOUZA, 2018) e internacional (ORGANIZAÇÃO PAN-AMERICANA DA SAÚDE, 2021; WORLD HEALTH ORGANIZATION, 2021), embora parte do incremento inicial possa refletir melhora progressiva da cobertura e da qualidade de codificação do SIM nos primeiros anos da série (2000–2003), fenômeno já documentado para causas externas (LOVISI et al., 2009).

A razão masculino/feminino manteve-se estável em aproximadamente 3.71:1 ao longo de todo o período, resultado coerente com o denominado paradoxo de gênero no suicídio: homens morrem por suicídio em proporção muito superior às mulheres, embora estas apresentem maiores taxas de tentativas (NOCK et al., 2008; SCHRIJVERS; BOLLEN; SABBE, 2012).

Nota metodológica — ano de 2001

O salto de +14,1% observado entre 2000 e 2001 é o maior da série e provavelmente reflete melhora de cobertura do SIM, e não um aumento real de óbitos. O SIM operou em regime de implementação gradual ao longo dos primeiros anos da série CID-10; a cobertura de causas externas, categoria que inclui o suicídio, tende a ser subnotificada nos anos iniciais de operação de sistemas de informação em saúde (LOVISI et al., 2009). Esse ponto será tratado como limitação metodológica no manuscrito.

7.4 Completude das variáveis

Código
knitr::include_graphics(
  file.path(caminho_figuras, "eda_sim", "fig_completude.png")
)

Figura 7: Percentual de valores ausentes por variável — comparação entre a base pós-filtro CID e a base limpa final. Linha tracejada vermelha: limiar de alerta (5%).

A completude da base é elevada em todas as variáveis analíticas. A única variável com percentual de missing acima de zero na base limpa é faixa_etaria (0,25%), decorrente de 592 registros com IDADE ausente ou com valor fora do padrão de codificação esperado (prefixo 4xx para anos completos). Esses registros foram mantidos na base e serão excluídos automaticamente nas análises que requerem estratificação etária, via na.rm ou drop_na(), sem impacto no total da série temporal agregada.

7.5 Distribuição dos subcódigos CID X60–X84

Código
knitr::include_graphics(
  file.path(caminho_figuras, "eda_sim", "fig_cid_subcod.png")
)

Figura 8: Frequência por subcódigo CID X60–X84 — Brasil, 2000–2022. Nenhum subcódigo apresentou frequência zero.
Código
tab_cid |>
  arrange(desc(n)) |>
  mutate(
    n   = format(n, big.mark = ".", trim = TRUE),
    pct = glue("{pct}%")
  ) |>
  select(
    `CID`    = CAUSABAS_3,
    `Grupo`  = grupo_cid,
    `N`      = n,
    `%`      = pct
  ) |>
  kable(align = c("c", "l", "r", "r")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) |>
  row_spec(1, bold = TRUE, background = "#D4EDDA")
Tabela 11: Distribuição por método de suicídio (subcódigo CID) — Brasil, 2000–2022
CID Grupo N %
X70 Enforcamento/Arma de fogo 154.426 64.13%
X74 Enforcamento/Arma de fogo 17.507 7.27%
X68 Outros agentes químicos 12.150 5.05%
X80 Precipitação/Afogamento/Outros 8.659 3.6%
X69 Outros agentes químicos 6.656 2.76%
X72 Enforcamento/Arma de fogo 6.560 2.72%
X84 Precipitação/Afogamento/Outros 6.436 2.67%
X64 Intoxicação/Medicamentos 5.388 2.24%
X76 Outros meios mecânicos 4.015 1.67%
X61 Intoxicação/Medicamentos 3.897 1.62%
X78 Outros meios mecânicos 3.888 1.61%
X71 Enforcamento/Arma de fogo 2.722 1.13%
X79 Outros meios mecânicos 1.813 0.75%
X62 Intoxicação/Medicamentos 1.159 0.48%
X73 Enforcamento/Arma de fogo 1.085 0.45%
X82 Precipitação/Afogamento/Outros 1.073 0.45%
X65 Intoxicação/Medicamentos 892 0.37%
X67 Outros agentes químicos 547 0.23%
X83 Precipitação/Afogamento/Outros 527 0.22%
X81 Precipitação/Afogamento/Outros 462 0.19%
X66 Solventes/Gases 265 0.11%
X63 Intoxicação/Medicamentos 237 0.1%
X60 Intoxicação/Medicamentos 226 0.09%
X75 Outros meios mecânicos 107 0.04%
X77 Outros meios mecânicos 105 0.04%

O enforcamento/estrangulamento (X70) é o método predominante, respondendo por 64,8% dos óbitos, padrão consistente com estudos brasileiros (BANDO et al., 2012; MINAYO et al., 2010) e com o perfil de países de baixa e média renda, onde métodos de alta letalidade e amplo acesso predominam (MANN et al., 2005). A elevada proporção de X70 tem implicação direta para a modelagem da série agregada: a dinâmica temporal do total é fortemente determinada por um único subcódigo.

O segundo grupo em frequência é armas de fogo, X71 (revólver), X72 (espingarda/rifle) e X74 (outras armas de fogo) somam aproximadamente 10,7% dos óbitos. A exposição a pesticidas (X68) representa 5,05% do total, marcador típico de contexto rural e agrícola no Brasil, concentrado historicamente nas regiões Sul e Centro-Oeste (BANDO et al., 2012).

Todos os 25 subcódigos CID X60–X84 apresentaram ao menos um registro no período, indicando ausência de subcodificação sistemática de categorias específicas.

7.6 Distribuição das variáveis criadas

Código
knitr::include_graphics(
  file.path(caminho_figuras, "eda_sim", "fig_distribuicao_vars.png")
)

Figura 9: Óbitos por suicídio segundo sexo e faixa etária — Brasil, 2000–2022. Percentuais indicam a proporção dentro de cada sexo.
Código
tab_cruz |>
  filter(!is.na(faixa_etaria)) |>
  mutate(
    n = format(n, big.mark = ".", trim = TRUE),
    pct_dentro_sexo = glue("{pct_dentro_sexo}%")
  ) |>
  kable(col.names = c("Sexo", "Faixa etária", "N", "% dentro do sexo"),
        align = c("l", "l", "r", "r")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) |>
  collapse_rows(columns = 1, valign = "top")
Tabela 12: Cruzamento sexo × faixa etária — óbitos totais no período 2000–2022
Sexo Faixa etária N % dentro do sexo
Feminino < 15 anos 1.477 2.9%
15–29 anos 14.977 29.3%
30–44 anos 15.049 29.4%
45–59 anos 12.292 24%
60+ anos 7.313 14.3%
Masculino < 15 anos 1.635 0.9%
15–29 anos 54.369 28.7%
30–44 anos 58.669 30.9%
45–59 anos 42.963 22.7%
60+ anos 31.466 16.6%

A distribuição etária se apresentou notavelmente similar entre os sexos: em ambos, as faixas 15–29 anos (~29%) e 30–44 anos (~30–31%) concentram juntas cerca de 60% dos óbitos, com declínio progressivo nas faixas subsequentes. A distribuição
indicou que a diferença entre masculino e feminino não reside no padrão etário do suicídio, que é semelhante, mas na magnitude em todas as faixas, consistente com o paradoxo de gênero descrito na literatura (SCHRIJVERS; BOLLEN; SABBE, 2012).

Uma informação que merece atenção clínica é a proporção de menores de 15 anos: 2,9% do total feminino versus 0,9% do masculino. Em números absolutos, 1.477 óbitos femininos contra 1.635 masculinos nessa faixa, razão M/F de apenas 1,1:1, muito inferior à razão global de 3.71:1. Esse padrão é consistente com estudos internacionais que demonstram que a diferença de sexo no suicídio consumado é menor entre adolescentes do que em adultos (MACHADO; SANTOS, 2015; SCHRIJVERS; BOLLEN; SABBE, 2012). A faixa etária de menores de 15 anos concentra um n reduzido (~3.100 óbitos em 23 anos), o que pode limitar análises estratificadas independentes para esse subgrupo.

Distribuição regional: o Sudeste concentra 37,6% dos óbitos em termos absolutos, seguido de Sul (23,7%) e Nordeste (22,6%). Contudo, a análise por contagem absoluta é influenciada pelo tamanho populacional de cada região. A análise por taxa de mortalidade pode alterar substancialmente esse ranking, especialmente para as regiões Norte e Sul, historicamente distintas no padrão brasileiro de suicídio (BANDO et al., 2012).

7.7 Série temporal bruta e variação anual

Código
knitr::include_graphics(
  file.path(caminho_figuras, "eda_sim", "fig_serie_bruta.png")
)

Figura 10: Série temporal de óbitos por suicídio e variação percentual anual — Brasil, 2000–2022. Painel A: série por sexo. Painel B: variação anual do total (verde = crescimento; laranja = redução). Faixa cinza: período da pandemia de COVID-19.
Código
tab_serie_yoy |>
  filter(!is.na(var_pct)) |>
  select(ano, n_obitos, var_abs, var_pct) |>
  mutate(
    n_obitos = format(n_obitos, big.mark = ".", trim = TRUE),
    var_abs  = format(var_abs,  big.mark = ".", trim = TRUE),
    var_pct  = glue("{var_pct}%")
  ) |>
  kable(col.names = c("Ano", "N óbitos", "Var. absoluta", "Var. %"),
        align = c("c", "r", "r", "r")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) |>
  row_spec(which(tab_serie_yoy$ano[!is.na(tab_serie_yoy$var_pct)] >= 2020),
           background = "#fff3cd") |>
  footnote(general = "Linhas em amarelo: período da pandemia de COVID-19.",
           footnote_as_chunk = TRUE)
Tabela 13: Variação anual no total de óbitos por suicídio — Brasil, 2001–2022
Ano N óbitos Var. absoluta Var. %
2001 7.737 959 14.1%
2002 7.722 -15 -0.2%
2003 7.860 138 1.8%
2004 8.017 157 2%
2005 8.549 532 6.6%
2006 8.639 90 1.1%
2007 8.868 229 2.7%
2008 9.328 460 5.2%
2009 9.372 44 0.5%
2010 9.448 76 0.8%
2011 9.851 403 4.3%
2012 10.318 467 4.7%
2013 10.532 214 2.1%
2014 10.652 120 1.1%
2015 11.176 524 4.9%
2016 11.431 255 2.3%
2017 12.490 1.059 9.3%
2018 12.728 238 1.9%
2019 13.518 790 6.2%
2020 13.832 314 2.3%
2021 15.495 1.663 12%
2022 16.461 966 6.2%
Note: Linhas em amarelo: período da pandemia de COVID-19.

A análise da variação anual permitiu identificar quatro fases distintas na dinâmica da série:

Fase 1 (2000–2010): crescimento moderado. Excluindo o salto de 2001 (possivelmente artefato de cobertura, conforme discutido em Seção 7.3), as variações anuais oscilaram entre −0,2% e 5,2%, sem padrão de aceleração evidente. O total cresceu de ~6.800 para ~9.400 óbitos no período.

Fase 2 (2011–2016): aceleração progressiva. O crescimento anual se manteve entre 1,1% e 4,9%, resultando em incremento acumulado de ~17% (de ~9.800 para ~11.400 óbitos). Esse padrão coincidiu com um período de expansão econômica seguida de deterioração das condições sociais no Brasil a partir de 2014–2015, contexto associado na literatura ao agravamento de fatores de risco para saúde mental (LIMA et al., 2020).

Fase 3 (2017–2019): segunda aceleração. O ano de 2017 registrou o maior incremento absoluto do período pré-pandemia: +1.059 óbitos (+9,3%) em um único ano. Esse salto coincidiu com o pico de desemprego da recessão brasileira (2015–2016), corroborando evidências da associação entre crises econômicas e mortalidade por suicídio (MANN et al., 2005). A série atinge 13.518 óbitos em 2019.

Fase 4 (2020–2022): período pandêmico. O comportamento da série durante a pandemia de COVID-19 apresenta padrão bifásico: crescimento moderado em 2020 (+2,3%, +314 óbitos), abaixo da tendência da fase anterior, seguido de salto expressivo em 2021 (+12,0%, +1.663 óbitos), o maior incremento absoluto de toda a série. O ano de 2021 é o segundo ano de pandemia no Brasil, marcado pelo colapso dos sistemas de saúde, segundo pico de mortalidade por COVID-19, prolongamento das restrições sociais e crise econômica agravada. Essa dinâmica é consistente com estudos internacionais que identificaram elevação da mortalidade por suicídio no segundo ano da pandemia em vários países (PIRKIS et al., 2021). Em 2022, o crescimento continuou (+6,2%), encerrando o período com 16.461 óbitos, o maior valor anual da série.

Implicações para a modelagem (cards #6–#8)

Três pontos desta análise exploratória orientaram as etapas de modelagem:

  1. Tendência de crescimento secular sem reversão — a série não registrou redução real em nenhum ano do período. Isso sugere componente de tendência estocástica ou determinística que precisa ser acomodado nos modelos SARIMA e ETS.

  2. Possível quebra estrutural em 2017 e/ou 2021 — os dois maiores saltos absolutos da série ocorreram nesses anos. Testes formais de mudança estrutural (strucchange) devem avaliar se há quebra de nível ou de inclinação nesses pontos.

  3. Efeito COVID como candidato a variável exógena — o comportamento assimétrico de 2020–2021 (moderação seguida de aceleração) é coerente com a hipótese de efeito temporal defasado da pandemia sobre a mortalidade por suicídio (PIRKIS et al., 2021), o que fundamenta a inclusão de uma dummy COVID-19 no modelo ARIMAX.

7.8 Flags de atenção e decisões metodológicas

Código
if (nrow(tab_flags) == 0) {
  cat("Nenhum flag de atenção identificado. Base dentro dos parâmetros de qualidade pré-definidos.")
} else {
  tab_flags |>
    kable(col.names = c("Categoria", "Ano", "Variável", "Descrição"),
          align = c("l", "c", "l", "l")) |>
    kable_styling(full_width = TRUE, bootstrap_options = c("striped", "hover"))
}

?(caption)

Nenhum flag de atenção identificado. Base dentro dos parâmetros de qualidade pré-definidos.

Nenhuma flag de atenção foi disparada. A base final atendeu a todos os critérios de qualidade pré-definidos: nenhuma variável analítica com missings acima de 5%, nenhum ano com total abaixo de 100 registros, e todos os 25 subcódigos CID X60–X84 com ao menos um registro no período.

7.8.1 Decisões metodológicas desta etapa

Tabela 14: Decisões metodológicas da etapa de validação e análise exploratória (ead)
Decisão Justificativa Impacto nos próximos scripts
Manter os 592 registros com faixa_etaria = NA na base N muito pequeno; exclusão causaria viés na série temporal agregada Excluídos apenas em análises estratificadas por faixa
Não excluir registros de menores de 15 anos Faixa com achado clínico relevante (razão M/F ≈ 1:1) Manter em análise agregada; avaliar n para modelagem separada
Tratar 2001 como possível artefato de cobertura Salto de +14,1% inconsistente com a tendência subsequente Documentar como limitação no manuscrito; testar sensibilidade excluindo 2000–2001
Manter todos os 23 anos na base (incluindo 2002 e 2005 recuperados) Dados plausíveis e consistentes com a tendência da série Pipeline corrigido na v10.0 do script 01

Scripts desta etapa: 01_download_dados.R (v10.0) · 03_clean_dados.R (v3.0) · 03b_eda_sim.R (v1.0)


8 Análise descritiva e taxas brutas

8.1 Contextualização metodológica

A análise descritiva foi conduzida em dois níveis complementares. O bloco analítico calculou taxas brutas mensais e anuais, decompôs as séries pela técnica STL (Seasonal Trend descomposition using Loess) e avaliou formalmente a sazonalidade, fornecendo insumos diretos para a modelagem. O bloco descritivo calculou taxas estratificadas por faixa etária e macrorregião.

Fórmula da taxa bruta: \(\text{Taxa}_t = \frac{D_t}{P_t} \times 10^5\). Para as taxas mensais, o denominador foi \(P_{\text{anual}}/12\), abordagem padrão na literatura epidemiológica para séries mensais de mortalidade (brasil_datasus?).

8.2 Taxas brutas anuais

Código
knitr::include_graphics(
  file.path(caminho_figuras, "analitico_descritivo", "fig_serie_taxas_anuais.png")
)

Figura 11: Taxa bruta de mortalidade por suicídio por 100.000 habitantes — Brasil, 2000–2022, por sexo. Faixa cinza: período da pandemia de COVID-19.

A taxa bruta de mortalidade por suicídio cresceu de 3.99 para 8.11 por 100.000 habitantes entre 2000 e 2022, incremento de 103.3%. A razão de taxas M/F oscilou entre 3.643 e 4.124 sem tendência sistemática, consistente com o gender paradox do suicídio (SCHRIJVERS; BOLLEN; SABBE, 2012).

8.3 Escolha de granularidade

Código
tab_comp_gran |>
  kable(col.names = c("Critério", "Série anual", "Série mensal"),
        align = c("l", "c", "c")) |>
  kable_styling(full_width = TRUE, bootstrap_options = c("striped", "hover"))
Tabela 15: Comparativo de critérios para escolha da granularidade da série para modelagem
Critério Série anual Série mensal
Número de observações (n) 23 276
Autocorrelação máxima nos primeiros lags 0.739 0.904
Coeficiente de variação da série 0.188 0.194
Sazonalidade detectável Não (frequency=1) Sim (testes formais)
Componente sazonal SARIMA possível Não (sem ciclo sazonal) Sim — SARIMA(p,d,q)(P,D,Q)[12]
Risco de overfitting (série curta) Alto Baixo
Padrão predominante na literatura de suicídio Frequente em estudos nacionais Frequente em análises de intervenção
Granularidade adotada para modelagem Secundária (comparação) Principal

A série mensal (n=276, frequency=12) foi adotada como série principal para modelagem: autocorrelação máxima de 0,887 vs 0,415 da anual; sazonalidade detectável apenas nessa granularidade. A série anual (n=23) é mantida como comparação para avaliar impacto da granularidade.

8.4 Decomposição STL

Código
knitr::include_graphics(
  file.path(caminho_figuras, "analitico_descritivo", "fig_stl_total.png")
)

Figura 12: Decomposição STL da taxa mensal — Total — Brasil, 2000–2022. s.window = ‘periodic’, robust = TRUE.
Código
knitr::include_graphics(
  file.path(caminho_figuras, "analitico_descritivo", "fig_stl_sexo.png")
)

Figura 13: Componente de tendência STL por sexo — Brasil, 2000–2022.

A decomposição revelou três características para a modelagem: (1) tendência de crescimento secular em formato de “S” — lento até 2013, aceleração progressiva 2014–2019, novo salto a partir de 2020; (2) sazonalidade aditiva com amplitude ±0,4/100k estável ao longo de todo o período, com picos em jan/mar e vales em jun/jul; (3) resíduo contido em ±0,5 sem outliers extremos após correção do denominador de 2007.

A comparação das tendências por sexo evidencia dinâmicas estruturalmente distintas: a curva masculina é quase horizontal até ~2013 e depois acelera intensamente; a feminina cresce de forma mais suave e linear. Essa heterogeneidade justifica os modelos separados do card #9.

8.5 Testes formais de sazonalidade

Código
tab_testes_saz |>
  kable(col.names = c("Teste", "Estatística", "p-valor", "Conclusão"),
        align = c("l", "r", "r", "l")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover"))
Tabela 16: Testes formais de sazonalidade — série mensal, Brasil, 2000–2022
Teste Estatística p-valor Conclusão
QS (Ljung-Box sazonal) 86.915 0 Sazonalidade detectada
Friedman (fried) 112.467 0 Sazonalidade detectada
Kruskal-Wallis (kw) 132.815 0 Diferença entre meses

Os três testes rejeitam H0 (p < 0,0001). A concordância entre QS (baseado em autocorrelação), Friedman (não-paramétrico) e Kruskal-Wallis fornece evidência inequívoca de sazonalidade mensal. Implicação para modelagem: SARIMA precisa de componente sazonal (P,D,Q)[12]; ETS deve incluir componente sazonal aditivo.

8.6 ACF e PACF — implicações para ordens dos modelos

Código
knitr::include_graphics(
  file.path(caminho_figuras, "analitico_descritivo", "fig_acf_pacf_mensal.png")
)

Figura 14: ACF e PACF da taxa mensal (Total) — Brasil, 2000–2022.

A ACF exibe decaimento lento até lag 36, padrão de raiz unitária, indicando \(d \geq 1\). A PACF apresenta picos nos lags 1, 2 e 12, sugerindo AR(1–2) e sazonalidade AR. Ponto de partida para o auto.arima(): SARIMA(1–2, 1, 0–1)(1, 1, 0)[12].

Decisões metodológicas do card #5
Decisão Justificativa
Série mensal como principal n=276 vs 23; sazonalidade detectável; ACF mais rica
Denominador mensal = pop_anual/12 Padrão literatura; variação intra-anual desprezível
STL com s.window="periodic", robust=TRUE Sazonalidade estável; robusto a 2021
Denominador 2007 = interpolação Tab6579 Contagem 2007 é parcial (~109M vs ~188M reais)
Série anual mantida como comparação Avalia impacto de granularidade no card #8

Script: 04_analitico_descritivo.R (v1.0) · Script 01: v11.0

8.7 Taxas por macrorregião

Código
knitr::include_graphics(
  file.path(caminho_figuras, "analitico_descritivo", "fig_taxas_regiao.png")
)

Figura 15: Taxa de mortalidade por suicídio por macrorregião — Brasil, 2000–2022.

A análise por taxa inverte o ranking obtido pela contagem absoluta. A região Sul lidera em todo o período (~8/100k em 2000 → ~12,5/100k em 2022). O achado mais relevante é a convergência entre Norte, Nordeste e Sudeste ao final do período (~7/100k em 2022), indicando crescimento proporcionalmente maior nas regiões historicamente mais baixas (BANDO et al., 2012).

8.8 Taxas por faixa etária

Código
knitr::include_graphics(
  file.path(caminho_figuras, "analitico_descritivo", "fig_taxas_faixa.png")
)

Figura 16: Taxa de mortalidade por suicídio por faixa etária — Brasil, 2000–2022. Denominador: população total Brasil (taxa aproximada).
Limitação — taxas por faixa etária

Denominador = população total Brasil, não a população específica de cada faixa (indisponível em série anual contínua nas tabelas IBGE utilizadas). As taxas são adequadas para comparação de tendências relativas, não de taxas absolutas. O denominador ideal (Tab. 7358) está reservado para análise futura.

A faixa 30–44 anos liderou em todo o período. Destaque para a 60+ anos, que apresentou a maior aceleração proporcional recente, consistente com o impacto do isolamento social pandêmico sobre idosos (PIRKIS et al., 2021).


9 Referências

BANDO, D. H. et al. Distribuição espacial do suicídio no Brasil. Cadernos de Saúde Pública, v. 28, n. 11, p. 2079–2087, 2012.
HYNDMAN, R. J.; ATHANASOPOULOS, G. Forecasting: principles and practice. 3. ed. Melbourne: OTexts, 2021.
INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. Projeções da população: Brasil e Unidades da Federação — revisão 2018: Série Relatórios Metodológicos. Rio de Janeiro: IBGE, 2018. Disponível em: <https://biblioteca.ibge.gov.br/visualizacao/livros/liv101597.pdf>.
INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. Projeções da população do Brasil e das Unidades da Federação. Rio de Janeiro: IBGE, 2022. Disponível em: <https://www.ibge.gov.br/estatisticas/sociais/populacao/9109-projecao-da-populacao.html>.
LIMA, C. K. T. et al. Saúde mental e a pandemia de COVID-19 no Brasil. Ciência & Saúde Coletiva, v. 25, n. suppl 1, p. 2515–2526, 2020.
LOVISI, G. M. et al. Análise epidemiológica do suicídio no Brasil entre 1980 e 2006. Revista Brasileira de Psiquiatria, v. 31, n. Suppl 2, p. S86–S94, 2009.
MACHADO, D. B.; SANTOS, D. N. Tendências de mortalidade por suicídio em adolescentes e adultos jovens no Brasil, 2000–2012. Jornal Brasileiro de Psiquiatria, v. 64, n. 2, p. 116–122, 2015.
MANN, J. J. et al. Suicide prevention strategies: a systematic review. JAMA, v. 294, n. 16, p. 2064–2074, 2005.
MINAYO, M. C. DE S. et al. Mortalidade por suicídio: análise das tendências no período de 1997 a 2007. Cadernos de Saúde Pública, v. 26, n. 7, p. 1395–1408, 2010.
MINISTÉRIO DA SAÚDE. Sistema de Informações sobre Mortalidade (SIM). Disponível em: http://sim.saude.gov.br, 2024.
NOCK, M. K. et al. Suicide: global burden, epidemiology and relationship with other health conditions. Annual Review of Clinical Psychology, v. 4, p. 133–155, 2008.
ORGANIZAÇÃO PAN-AMERICANA DA SAÚDE. Mortalidade por suicídio e implementação de estratégias para sua prevenção. Washington, D.C.: OPAS, 2021. Disponível em: <https://iris.paho.org/handle/10665.2/55217>.
PIRKIS, J. et al. Suicide trends in the early months of the COVID-19 pandemic: an interrupted time-series analysis of preliminary data from 21 countries. The Lancet Psychiatry, v. 8, n. 7, p. 579–588, 2021.
RIBEIRO, N.; MOREIRA, M.; SOUZA, E. R. Tendências da mortalidade por suicídio no Brasil, 2000–2015. Cadernos de Saúde Coletiva, v. 26, n. 3, p. 283–292, 2018.
SALDANHA, R. DE F.; BASTOS, R. R.; BARCELLOS, C. microdatasus: pacote para download e pré-processamento de microdados do DATASUS em R. Cadernos de Saúde Pública, v. 35, n. 9, p. e00032419, 2019.
SCHRIJVERS, D. L.; BOLLEN, J.; SABBE, B. G. C. The gender paradox in suicidal behavior and its impact on the suicidal process. Journal of Affective Disorders, v. 138, n. 1–2, p. 19–26, 2012.
SIMÕES, C. C. DA S. Relações entre as alterações históricas na dinâmica demográfica brasileira e os impactos decorrentes do processo de envelhecimento da população. Rio de Janeiro: IBGE, 2016.
WORLD HEALTH ORGANIZATION. Suicide worldwide in 2019: global health estimates. World Health Organization, 2021.

Código
sessionInfo()
R version 4.5.3 (2026-03-11 ucrt)
Platform: x86_64-w64-mingw32/x64
Running under: Windows 11 x64 (build 26200)

Matrix products: default
  LAPACK version 3.12.1

locale:
[1] LC_COLLATE=Portuguese_Brazil.utf8  LC_CTYPE=Portuguese_Brazil.utf8   
[3] LC_MONETARY=Portuguese_Brazil.utf8 LC_NUMERIC=C                      
[5] LC_TIME=Portuguese_Brazil.utf8    

time zone: America/Sao_Paulo
tzcode source: internal

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] here_1.0.2       glue_1.8.0       kableExtra_1.4.0 knitr_1.51      
 [5] scales_1.4.0     lubridate_1.9.5  forcats_1.0.1    stringr_1.6.0   
 [9] dplyr_1.2.1      purrr_1.2.1      readr_2.2.0      tidyr_1.3.2     
[13] tibble_3.3.1     ggplot2_4.0.2    tidyverse_2.0.0 

loaded via a namespace (and not attached):
 [1] generics_0.1.4     xml2_1.5.2         stringi_1.8.7      hms_1.1.4         
 [5] digest_0.6.39      magrittr_2.0.4     evaluate_1.0.5     grid_4.5.3        
 [9] timechange_0.4.0   RColorBrewer_1.1-3 fastmap_1.2.0      rprojroot_2.1.1   
[13] jsonlite_2.0.0     viridisLite_0.4.3  textshaping_1.0.5  cli_3.6.5         
[17] rlang_1.1.7        crayon_1.5.3       bit64_4.6.0-1      withr_3.0.2       
[21] yaml_2.3.12        parallel_4.5.3     tools_4.5.3        tzdb_0.5.0        
[25] vctrs_0.7.2        R6_2.6.1           lifecycle_1.0.5    bit_4.6.0         
[29] vroom_1.7.0        pkgconfig_2.0.3    pillar_1.11.1      gtable_0.3.6      
[33] systemfonts_1.3.2  xfun_0.57          tidyselect_1.2.1   rstudioapi_0.18.0 
[37] farver_2.1.2       htmltools_0.5.9    rmarkdown_2.31     svglite_2.2.2     
[41] compiler_4.5.3     S7_0.2.1