Projeto ANUBIS — Notas Analíticas Preliminares

Dados, análises, modelagens, discussões e tomadas de decisões

Ciência de dados

Visualização de dados

Artigo

Autor

Majory Melo e Henrique Pegorari

Data de Publicação

08 de abril de 2026

Sobre este documento

Este arquivo registra observações e análises preliminares do Projeto ANUBIS — estudo de séries temporais de suicídio no Brasil (2000–2022). O objetivo é documentar decisões metodológicas e fornecer evidências para a redação do manuscrito.

Repositório: github.com/EnigmaMajoris/anubis
Project board: github.com/users/EnigmaMajoris/projects/2

1 Visão geral da estratégia populacional

A construção da base populacional seguiu uma estratégia em dois níveis distintos:

Nível 1 — Totais populacionais anuais: foram obtidos integralmente de fontes observadas, sem imputação. Para os anos censitários e de contagem (2000, 2007, 2010 e 2022), os totais provieram diretamente dos levantamentos do IBGE. Para os demais anos (2001–2006 e 2008–2021), foram utilizadas as estimativas intercensitárias da Tabela SIDRA 6579.

Nível 2 — Desagregação por sexo nos anos intermediários: as proporções masculina e feminina foram interpoladas a partir de quatro âncoras observadas (2000, 2007, 2010 e 2022) e aplicadas sobre os totais do Nível 1.

A principal decisão metodológica desta etapa, a escolha do método de interpolação das proporções por sexo, é documentada em detalhe na Seção 3.

1.1 Fontes utilizadas

Tabela 1: Fontes populacionais utilizadas na construção da série 2000–2022
Fonte	Tabela SIDRA	Cobertura	Variáveis
Censo Demográfico 2000	Tab. 200	Nacional por macrorregião	Total, homens, mulheres
Contagem da População 2007	Tab. 794	Municípios ≤ 170 mil hab.	Total, homens, mulheres
Censo Demográfico 2010	Tab. 200	Nacional por macrorregião	Total, homens, mulheres
Estimativas anuais 2001–2021	Tab. 6579	Nacional por macrorregião	Total
Censo Demográfico 2022	Tab. 9514	Nacional por macrorregião	Total, homens, mulheres

2 A Contagem da População de 2007

2.1 Por que o total de 2007 diverge dos anos adjacentes?

Ao visualizar a série do Brasil, o ano de 2007 apresentou um total de 108.765.037 pessoas — muito abaixo dos ~186 milhões de 2006 e ~189 milhões de 2008. Esse valor não foi erro de processamento, mas refletiu a natureza da operação censitária.

Explicação oficial — IBGE (2007)

A Contagem da População de 2007 não cobriu todos os municípios brasileiros. Por razões orçamentárias, o levantamento de campo foi restrito aos municípios com até 170 mil habitantes, universo que na época correspondia a 5.435 dos 5.564 municípios existentes. Para os 129 municípios excluídos — todos de grande porte, predominantemente metropolitanos — o IBGE produziu estimativas separadas com metodologia própria.

Fonte: IBGE. Contagem da População 2007: primeiros resultados. Rio de Janeiro: IBGE, 2007. Disponível em: biblioteca.ibge.gov.br/visualizacao/livros/liv37666.pdf

Fonte complementar: IBGE. Metodologia do Censo Demográfico 2010. Rio de Janeiro: IBGE, 2013. p. 28–30. (Série Relatórios Metodológicos, v. 41). Disponível em: biblioteca.ibge.gov.br/visualizacao/livros/liv52675.pdf

O valor de 108.765.037 pessoas corresponde, portanto, à população efetivamente recenseada de campo — não à população total do Brasil em 2007. Por esse motivo, o total de 2007 proveniente da Contagem não foi utilizado como denominador nas taxas de mortalidade; essa função foi exercida pelas estimativas anuais da Tabela 6579, que forneceu valores completos e metodologicamente consistentes para todos os anos, inclusive 2007.

2.2 Papel da Contagem 2007 neste projeto

A Contagem de 2007 foi utilizada exclusivamente como âncora para interpolação das proporções por sexo, não dos totais populacionais. Essa distinção foi fundamental: o que nos interessa de 2007 é a relação observada entre homens e mulheres, não o total absoluto recenseado.

Código

ancoras |>
  filter(local == "Brasil") |>
  mutate(
    fonte = case_when(
      ano == 2000 ~ "Censo 2000",
      ano == 2007 ~ "Contagem 2007*",
      ano == 2010 ~ "Censo 2010",
      ano == 2022 ~ "Censo 2022"
    ),
    `% Masculino` = round(prop_masc * 100, 3),
    `% Feminino`  = round(prop_fem  * 100, 3),
    `Total`       = format(populacao_total, big.mark = ".", decimal.mark = ",")
  ) |>
  select(Ano = ano, Fonte = fonte, `Total`, `% Masculino`, `% Feminino`) |>
  kable(align = c("c","l","r","c","c")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped","hover")) |>
  footnote(
    symbol = "Cobertura parcial: municípios com ≤ 170 mil habitantes (IBGE, 2007).",
    footnote_as_chunk = TRUE
  )

Tabela 2: Proporções por sexo nas quatro âncoras censitárias — Brasil
Ano	Fonte	Total	% Masculino	% Feminino
2000	Censo 2000	169.872.856	49.215	50.785
2007	Contagem 2007*	108.765.037	49.542	49.728
2010	Censo 2010	190.755.799	48.967	51.033
2022	Censo 2022	203.080.756	48.519	51.481
^* Cobertura parcial: municípios com ≤ 170 mil habitantes (IBGE, 2007).

2.3 Implicação metodológica: viés de seleção nas proporções de 2007

A exclusão dos 129 municípios grandes da Contagem levanta uma questão legítima: as proporções por sexo calculadas a partir da amostra coberta são representativas da população total?

Municípios de grande porte e metropolitanos tendem a concentrar maior proporção feminina, em razão dos padrões históricos de migração interna brasileira, onde mulheres migram em maior proporção para centros urbanos em busca de trabalho doméstico e serviços (SIMÕES, 2016). A exclusão desses municípios poderia, em tese, superestimar a proporção masculina na Contagem.

Contudo, dois argumentos sustentaram a manutenção da Contagem como âncora:

Comparação com os Censos adjacentes: a proporção masculina da Contagem 2007 para o Brasil foi de 49.54%, valor intermediário entre o Censo 2000 (49.21%) e o Censo 2010 (48.97%), o que é demograficamente coerente com a tendência de feminização progressiva da população brasileira (INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2022).
Análise de sensibilidade (Seção 4): a inclusão da Contagem 2007 como âncora reduz o intervalo máximo sem referência de 22 anos (2000–2022) para dois segmentos de no máximo 10 anos (2000–2010 e 2010–2022), aumentando substancialmente a fidelidade da interpolação.

3 Comparação de métodos de interpolação

3.1 Contexto da decisão

Para os anos intermediários entre as âncoras censitárias, as proporções por sexo foram estimadas por interpolação. Dois métodos foram avaliados em paralelo sobre as mesmas âncoras e os mesmos dados:

Spline cúbica natural (zoo::na.spline): ajusta polinômios de grau 3 entre os pontos de ancoragem, minimizando a curvatura total da série. É o método de interpolação mais suave e frequentemente adotado em séries demográficas (HYNDMAN; ATHANASOPOULOS, 2021).
Interpolação linear por partes (zoo::na.approx): conecta as âncoras por segmentos de reta, sem curvatura adicional. É o método mais conservador e matematicamente mais simples.

A escolha entre os métodos foi feita com base em critérios objetivos, documentados a seguir.

3.2 Envelope demográfico das âncoras

O critério principal de avaliação foi a permanência dentro do envelope demográfico — faixa definida pelos valores mínimo e máximo de proporção masculina observados nas quatro âncoras, acrescidos de margem de tolerância de 0,5 ponto percentual por região.

Código

envelope |>
  mutate(across(where(is.numeric), ~ round(.x, 3))) |>
  rename(
    Região             = local,
    `Mín observado`   = prop_masc_min_obs,
    `Máx observado`   = prop_masc_max_obs,
    `Limite inferior` = prop_masc_min,
    `Limite superior` = prop_masc_max
  ) |>
  kable(align = c("l","c","c","c","c")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped","hover")) |>
  add_header_above(c(" " = 1,
                     "Âncoras observadas" = 2,
                     "Envelope (± 0,5 p.p.)" = 2))

Tabela 3: Envelope demográfico de plausibilidade por macrorregião (proporção masculina × 100)
	Âncoras observadas		Envelope (± 0,5 p.p.)
Região	Mín observado	Máx observado	Limite inferior	Limite superior
Brasil	0.485	0.495	0.480	0.500
Centro-Oeste	0.492	0.502	0.487	0.507
Nordeste	0.483	0.491	0.478	0.496
Norte	0.499	0.506	0.494	0.511
Sudeste	0.482	0.496	0.477	0.501
Sul	0.487	0.495	0.482	0.500

3.3 Figura 1 — Trajetórias comparadas por região

A figura abaixo apresenta as trajetórias produzidas por cada método para o Brasil e as cinco macrorregiões, com o envelope demográfico sombreado, as âncoras observadas destacadas e os casos de extrapolação da spline marcados.

Código

knitr::include_graphics(
  file.path(caminho_figuras, "fig01_proporcoes_spline_vs_linear.png")
)

Figura 1: Proporção masculina interpolada por método — Brasil e macrorregiões, 2000–2022. Faixa cinza: envelope demográfico (âncoras ± 0,5 p.p.). Linha azul: interpolação linear. Linha tracejada: spline cúbica.

A spline cúbica produziu trajetórias claramente não-plausíveis em quatro das seis regiões: após atingir um pico artificial em torno de 2005 (efeito da curvatura induzida pelo intervalo curto de apenas três anos entre as âncoras de 2007 e 2010), a série despencou acentuadamente até 2017–2018, ultrapassando os limites inferiores do envelope. A interpolação linear, por contraste, acompanhou a tendência geral de suave declínio na proporção masculina sem oscilações espúrias.

3.4 Diagnóstico quantitativo da spline

Código

diag_spline |>
  mutate(
    desvio_max_pp = round(desvio_max_pp, 4),
    ano_pior      = ifelse(is.na(ano_pior), "—", as.character(ano_pior))
  ) |>
  rename(
    Região                      = local,
    `Anos fora do envelope (n)` = n_anos_fora,
    `Desvio máx. (p.p.)`       = desvio_max_pp,
    `Ano do maior desvio`       = ano_pior
  ) |>
  kable(align = c("l","c","c","c")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped","hover")) |>
  row_spec(which(diag_spline$n_anos_fora > 0), background = "#FFF3CD")

Tabela 4: Diagnóstico da spline cúbica por macrorregião — anos interpolados
Região	Anos fora do envelope (n)	Desvio máx. (p.p.)	Ano do maior desvio
Sudeste	9	0.8952	2017
Brasil	6	0.2255	2018
Centro-Oeste	4	0.1146	2018
Sul	4	0.1039	2018
Nordeste	0	0.0000	—
Norte	0	0.0000	—

Concentração do problema no Sudeste

A região Sudeste concentrou 9 dos 23 casos de extrapolação, com desvio máximo de 0.895 p.p. em 2017. Essa concentração não foi aleatória: o Sudeste possui as maiores metrópoles do país, exatamente os municípios excluídos da Contagem 2007, o que ampliou o impacto do viés de seleção daquela fonte na âncora de 2007 e, consequentemente, na curvatura da spline naquele segmento.

3.5 Figura 2 — Overshoot da spline por região

Código

knitr::include_graphics(
  file.path(caminho_figuras, "fig02_overshoot_spline.png")
)

Figura 2: Desvio da spline cúbica em relação ao envelope demográfico — anos interpolados. Barras laranjas: casos de extrapolação além do limite do envelope.

A figura confirma que o overshoot é um fenômeno concentrado temporalmente (2012–2021) e regionalmente (Sudeste e, em menor grau, Brasil agregado), não distribuído aleatoriamente ao longo da série. Esse padrão é consistente com a explicação geométrica: o intervalo de apenas três anos entre as âncoras de 2007 e 2010 força a spline a fazer uma inflexão abrupta, com propagação de curvatura espúria para os anos subsequentes.

3.6 Figura 3 — Diferença absoluta entre métodos

Código

knitr::include_graphics(
  file.path(caminho_figuras, "fig03_diferenca_absoluta_metodos.png")
)

Figura 3: Diferença absoluta entre spline cúbica e interpolação linear (p.p.) — anos interpolados. Representa o erro que seria introduzido nas proporções caso a spline fosse adotada.

Código

comp_metodos |>
  mutate(
    dif_media_pp = round(dif_media_pp, 3),
    dif_max_pp   = round(dif_max_pp, 3)
  ) |>
  rename(
    Região                        = local,
    `Dif. média (p.p.)`          = dif_media_pp,
    `Dif. máx. (p.p.)`           = dif_max_pp,
    `Ano da maior diferença`      = ano_max_dif
  ) |>
  kable(align = c("l","c","c","c")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped","hover")) |>
  row_spec(1, bold = TRUE, background = "#F8D7DA")

Tabela 5: Diferença entre spline cúbica e interpolação linear por macrorregião
Região	Dif. média (p.p.)	Dif. máx. (p.p.)	Ano da maior diferença
Sudeste	0.818	1.588	2017
Brasil	0.467	0.903	2017
Centro-Oeste	0.418	0.803	2017
Sul	0.381	0.743	2017
Nordeste	0.221	0.422	2017
Norte	0.183	0.371	2017

A maior divergência entre os métodos atingiu 1.588 p.p. na região Sudeste em 2017. Em termos populacionais, esse desvio corresponderia a um erro de aproximadamente 1.381.024 pessoas na desagregação por sexo naquele ano, magnitude relevante para denominadores de taxas de mortalidade em estudos de séries temporais.

3.7 Quadro comparativo final

Código

tibble(
  Critério = c(
    "Anos/região fora do envelope demográfico",
    "Inflexões não-monotônicas detectadas",
    "Desvio máximo do envelope (p.p.)",
    "Maior divergência entre métodos (p.p.)",
    "Região/ano crítico",
    "Garantia de monotonia por segmento",
    "Método adotado para a série final"
  ),
  `Spline cúbica` = c(
    glue("{n_fora_spline} casos"),
    "12 inflexões",
    glue("{round(max(diag_spline$desvio_max_pp), 3)}"),
    glue("{round(dif_max_global, 3)}"),
    glue("{regiao_max_dif} / {ano_max_dif}"),
    "❌  Não",
    "❌  Não"
  ),
  `Interpolação linear` = c(
    "0 casos",
    "0 (por definição)",
    "—",
    "0 (referência)",
    "—",
    "✅  Sim",
    "✅  Sim"
  )
) |>
  kable(align = c("l","c","c")) |>
  kable_styling(full_width = TRUE, bootstrap_options = c("striped","hover")) |>
  row_spec(7, bold = TRUE, background = "#D4EDDA") |>
  column_spec(1, width = "50%")

Tabela 6: Comparação entre spline cúbica e interpolação linear — critérios de seleção do método
Critério	Spline cúbica	Interpolação linear
Anos/região fora do envelope demográfico	23 casos	0 casos
Inflexões não-monotônicas detectadas	12 inflexões	0 (por definição)
Desvio máximo do envelope (p.p.)	0.895	—
Maior divergência entre métodos (p.p.)	1.588	0 (referência)
Região/ano crítico	Sudeste / 2017	—
Garantia de monotonia por segmento	❌ Não \|	✅ Sim \|
Método adotado para a série final	❌ Não \|	✅ Sim \|

Justificativa metodológica — rascunho para o manuscrito

A desagregação da população por sexo nos anos intermediários foi realizada por interpolação linear por partes das proporções masculina e feminina calculadas nas quatro âncoras censitárias observadas (Censos de 2000, 2010 e 2022; Contagem da População de 2007). Dois métodos foram avaliados em paralelo, spline cúbica natural e interpolação linear, sobre as mesmas âncoras e o mesmo período.

A spline cúbica produziu extrapolações fora do envelope demográfico plausível em 23 combinações ano-região (de 114 avaliadas), com desvio máximo de 0.895 p.p. na região Sudeste em 2017, e apresentou 12 inflexões não-monotônicas. O fenômeno foi atribuído ao intervalo de apenas três anos entre as âncoras de 2007 e 2010, que induziu curvatura excessiva com propagação de artefato para os anos subsequentes. A maior divergência entre os dois métodos atingiu 1.588 p.p. no Sudeste em 2017.

A interpolação linear permaneceu integralmente dentro do envelope em todas as combinações ano-região avaliadas e, por ser monotônica em cada segmento por definição matemática, não gerou inflexões espúrias (curva artificial) . Em face desses resultados, a interpolação linear foi adotada como método para a série final.

4 Análise de sensibilidade — âncora de 2007

Código

knitr::include_graphics(
  file.path(caminho_figuras, "fig04_sensibilidade_2007.png")
)

Figura 4: Análise de sensibilidade — impacto de incluir a Contagem 2007 como âncora. Comparação entre interpolação linear com e sem a âncora de 2007.

A Figura 4 mostra que a inclusão da Contagem 2007 gerou uma inflexão visível na série linear em algumas regiões, especialmente Sudeste e Sul, onde a proporção da Contagem de 2007 é ligeiramente superior à tendência esperada entre 2000 e 2010. Isso é consistente com o viés de seleção discutido na Seção 2: a exclusão dos municípios maiores tende a superestimar levemente a proporção masculina na Contagem.

Contudo, a diferença entre as duas configurações é demograficamente pequena para a maioria das regiões, e a inclusão da Contagem é metodologicamente preferível por dois motivos: (1) ancora a interpolação em dado de campo observado, e (2) divide o intervalo de 22 anos em dois segmentos menores, reduzindo a incerteza da estimativa intercensitária.

Nota para discussão

A pergunta previsível é: “se a Contagem 2007 tem cobertura parcial, por que usá-la como âncora?”

A resposta é que a alternativa (não usar a Contagem e interpolar entre 2000 e 2010) também tem limitações, e mais graves: produz uma série baseada em um único segmento de 10 anos sem referência intermediária observada. A Contagem 2007, apesar da cobertura parcial, é a única fonte de campo disponível para o período intercensitário, e suas proporções por sexo são biologicamente plausíveis e coerentes com a tendência entre 2000 e 2010. A análise de sensibilidade documenta formalmente o impacto de incluí-la, permitindo que o leitor avalie a robustez das escolhas.

5 Proporções observadas nas âncoras censitárias

Código

knitr::include_graphics(
  file.path(caminho_figuras, "fig05_ancoras_censitarias.png")
)

Figura 5: Proporção masculina observada nas quatro âncoras censitárias — Brasil e macrorregiões. Pontos: valores diretamente observados nos levantamentos do IBGE.

A Figura 5 evidencia dois padrões relevantes para a discussão metodológica:

Tendência de feminização progressiva: em todas as regiões, a proporção masculina declina ao longo do período, de forma mais acentuada entre 2010 e
1. Esse padrão é consistente com a literatura demográfica brasileira e com as projeções do IBGE (INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2018).
Variação máxima inferior a 2 p.p.: em nenhuma região a diferença entre a maior e a menor proporção masculina observada supera 2 pontos percentuais ao longo de 22 anos. Esse estreitamento da faixa de variação confirma que métodos conservadores de interpolação são adequados. A suavidade adicional da spline não traz benefício analítico que justifique o risco de extrapolação.

Código

ancoras |>
  mutate(
    fonte = case_when(
      ano == 2000 ~ "Censo 2000",
      ano == 2007 ~ "Contagem 2007*",
      ano == 2010 ~ "Censo 2010",
      ano == 2022 ~ "Censo 2022"
    ),
    `% Masculino` = round(prop_masc * 100, 3)
  ) |>
  select(Região = local, Ano = ano, Fonte = fonte, `% Masculino`) |>
  pivot_wider(
    names_from  = c(Ano, Fonte),
    values_from = `% Masculino`,
    names_glue  = "{Ano}\n{Fonte}"
  ) |>
  kable(align = "lcccc") |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped","hover")) |>
  footnote(
    symbol = "Cobertura parcial: municípios com ≤ 170 mil habitantes.",
    footnote_as_chunk = TRUE
  )

Tabela 7: Proporções masculinas observadas nas quatro âncoras censitárias — todas as regiões
Região	2000 Censo 2000	\| 2007 Contagem 2007	\| 2010 Censo 20	0 \| 2022 Censo 2
Brasil	49.215	49.542	48.967	48.519
Centro-Oeste	49.848	50.174	49.651	49.157
Nordeste	49.036	49.131	48.810	48.332
Norte	50.630	50.363	50.458	49.917
Sudeste	48.917	49.570	48.624	48.161
Sul	49.390	49.546	49.061	48.715
^* Cobertura parcial: municípios com ≤ 170 mil habitantes.

6 Série populacional final

Código

pop_final |>
  filter(local == "Brasil") |>
  mutate(
    prop_masc = round(pop_masculino / populacao_total * 100, 3),
    across(c(populacao_total, pop_masculino, pop_feminino),
           ~ format(.x, big.mark = ".", decimal.mark = ","))
  ) |>
  select(
    Ano           = ano,
    `Total`       = populacao_total,
    `Masculino`   = pop_masculino,
    `Feminino`    = pop_feminino,
    `% Masc.`     = prop_masc
  ) |>
  kable(align = c("c","r","r","r","c")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped","hover")) |>
  row_spec(which(pop_final |> filter(local=="Brasil") |> pull(ano) == 2007),
           background = "#FFF3CD") |>
  footnote(
    general = "Linha em amarelo: ano da Contagem da População (total observado na operação censitária, não estimativa da população total do Brasil).",
    footnote_as_chunk = TRUE
  )

Tabela 8: Série populacional final — Brasil, 2000–2022 (interpolação linear adotada)
Ano	Total	Masculino	Feminino	% Masc.
2000	169.872.856	83.602.317	86.270.539	49.215
2001	172.385.826	84.919.564	87.286.368	49.261
2002	174.632.960	86.108.080	88.160.403	49.308
2003	176.871.437	87.294.422	89.023.292	49.355
2004	181.569.056	89.697.705	91.113.445	49.401
2005	184.184.264	91.075.663	92.147.573	49.448
2006	186.770.562	92.441.754	93.159.380	49.495
2007	188.187.784	93.231.082	93.582.017	49.542
2008	189.605.006	93.569.958	95.111.689	49.350
2009	191.480.630	94.128.747	96.885.637	49.158
2010	190.755.799	93.406.990	97.348.809	48.967
2011	192.379.287	94.130.147	98.249.140	48.929
2012	193.904.015	94.803.806	99.100.209	48.892
2013	201.032.714	98.214.135	102.818.579	48.855
2014	202.768.562	98.986.489	103.782.073	48.817
2015	204.450.049	99.731.029	104.719.020	48.780
2016	206.081.432	100.449.892	105.631.540	48.743
2017	207.660.929	101.142.266	106.518.663	48.705
2018	208.494.900	101.470.627	107.024.273	48.668
2019	210.147.125	102.196.288	107.950.837	48.631
2020	211.755.692	102.899.502	108.856.190	48.593
2021	213.317.639	103.578.877	109.738.762	48.556
2022	203.080.756	98.532.431	104.548.325	48.519
Note: Linha em amarelo: ano da Contagem da População (total observado na operação censitária, não estimativa da população total do Brasil).

7 Validação e análise exploratória dos microdados SIM

7.1 Contexto e fonte de dados

Os microdados de mortalidade utilizados neste estudo provêm do Sistema de Informações sobre Mortalidade (SIM), mantido pelo Ministério da Saúde e disponibilizado pelo DATASUS (MINISTÉRIO DA SAÚDE, 2024). O SIM é a principal fonte nacional de dados sobre causas de morte no Brasil e opera com base na Declaração de Óbito (DO), documento padronizado pelo Ministério da Saúde preenchido por médico atestante (MINISTÉRIO DA SAÚDE, 2024). A codificação das causas de óbito segue a Classificação Internacional de Doenças — décima revisão (CID-10).

O acesso e o pré-processamento dos microdados foram realizados com o pacote microdatasus (SALDANHA; BASTOS; BARCELLOS, 2019) para a linguagem R, que automatiza o download por Unidade da Federação e decodifica as variáveis conforme os dicionários oficiais do DATASUS. Os registros de suicídio foram definidos pelos códigos CID-10 X60 a X84 — “lesões autoprovocadas intencionalmente” —, categoria que engloba todos os métodos de suicídio consumado registrados no sistema (WORLD HEALTH ORGANIZATION, 2021).

Decisão de design do pipeline (v10.0)

Por limitação de memória RAM (o arquivo bruto do SIM para o período 2000–2022 contém aproximadamente 26 milhões de registros), o filtro CID X60–X84 foi aplicado individualmente em cada ano durante o download, antes da consolidação dos arquivos. O arquivo resultante sim_suicidio_2000_2022.rds contém exclusivamente registros de suicídio (~240 mil linhas), tornando o pipeline reproduzível em máquinas com recursos computacionais limitados. O script 03_clean_dados.R re-aplica o filtro como verificação de integridade.

7.2 Resumo da limpeza e validação

Código

tab_resumo_eda |>
  kable(col.names = c("Item", "Valor"), align = c("l", "r")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover"))

Tabela 9: Resumo da validação e limpeza dos microdados SIM — Brasil, 2000–2022
Item	Valor
Registros pós-filtro CID (bruto)	240.844
Registros na base limpa	240.802
Perdas totais (bruto → limpo)	42 (0%
Período coberto	2000–2022
Flags de atenção identificados	0
Subcódigos CID com frequência zero	0

O processo de limpeza resultou em perdas mínimas: dos 240.844 registros com CID X60–X84 presentes no arquivo bruto, apenas 42 foram excluídos (0,02%), sendo 2 por data de óbito inválida e 40 por sexo não informado ou codificado fora das categorias válidas. A base final contém 240.802 óbitos por suicídio no período 2000–2022. Nenhuma flag de atenção foi disparado pelos critérios de qualidade pré-definidos; nenhuma variável analítica superou 5% de valores ausentes e todos os 25 subcódigos CID X60–X84 apresentaram ao menos um registro.

Limitação: ausência de dados em 2002 e 2005

Na execução original do script de download, os anos 2002 e 2005 não foram incorporados ao arquivo bruto em razão de um problema de codificação (encoding) em arquivos .dbc desses anos — bytes inválidos no padrão latin1 interrompiam silenciosamente o processamento pelo process_sim(), retornando NULL sem mensagem de erro explícita. O problema foi identificado durante a análise exploratória (ausência desses anos na tabela de cobertura) e corrigido na versão 10.0 do script 01_download_dados.R, que passou a aplicar iconv() com sub = "byte" antes do processamento. Os dados de 2002 (7.722 registros) e 2005 (8.549 registros) foram recuperados e confirmados como plausíveis pela continuidade da tendência da série.

7.3 Cobertura temporal

Código

knitr::include_graphics(
  file.path(caminho_figuras, "eda_sim", "fig_cobertura_temporal.png")
)

Figura 6: Óbitos por suicídio (CID X60–X84) por sexo — Brasil, 2000–2022. Linha tracejada: total. Faixa cinza: período da pandemia de COVID-19 (2020–2022).

Código

tab_cobertura |>
  mutate(across(c(Feminino, Masculino, Total),
                ~format(., big.mark = ".", trim = TRUE))) |>
  kable(col.names = c("Ano", "Feminino", "Masculino", "Total"),
        align = c("c", "r", "r", "r")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) |>
  row_spec(which(tab_cobertura$ano >= 2020), background = "#fff3cd") |>
  footnote(general = "Linhas em amarelo: período da pandemia de COVID-19.",
           footnote_as_chunk = TRUE)

Tabela 10: Óbitos por suicídio por ano e sexo — Brasil, 2000–2022
Ano	Feminino	Masculino	Total
2000	1.382	5.396	6.778
2001	1.560	6.177	7.737
2002	1.694	6.028	7.722
2003	1.604	6.256	7.860
2004	1.706	6.311	8.017
2005	1.805	6.744	8.549
2006	1.805	6.834	8.639
2007	1.872	6.996	8.868
2008	1.953	7.375	9.328
2009	1.872	7.500	9.372
2010	2.073	7.375	9.448
2011	2.089	7.762	9.851
2012	2.257	8.061	10.318
2013	2.223	8.309	10.532
2014	2.233	8.419	10.652
2015	2.396	8.780	11.176
2016	2.378	9.053	11.431
2017	2.664	9.826	12.490
2018	2.729	9.999	12.728
2019	2.919	10.599	13.518
2020	2.964	10.868	13.832
2021	3.431	12.064	15.495
2022	3.553	12.908	16.461
Note: Linhas em amarelo: período da pandemia de COVID-19.

A série apresentou crescimento secular ininterrupto entre 2000 e 2022, com o total de óbitos passando de 6.778 em 2000 para 16.461 em 2022 — aumento de 143% em 22 anos. Esse crescimento é consistente com as tendências documentadas na literatura nacional (LOVISI et al., 2009; MINAYO et al., 2010; RIBEIRO; MOREIRA; SOUZA, 2018) e internacional (ORGANIZAÇÃO PAN-AMERICANA DA SAÚDE, 2021; WORLD HEALTH ORGANIZATION, 2021), embora parte do incremento inicial possa refletir melhora progressiva da cobertura e da qualidade de codificação do SIM nos primeiros anos da série (2000–2003), fenômeno já documentado para causas externas (LOVISI et al., 2009).

A razão masculino/feminino manteve-se estável em aproximadamente 3.71:1 ao longo de todo o período, resultado coerente com o denominado paradoxo de gênero no suicídio: homens morrem por suicídio em proporção muito superior às mulheres, embora estas apresentem maiores taxas de tentativas (NOCK et al., 2008; SCHRIJVERS; BOLLEN; SABBE, 2012).

Nota metodológica — ano de 2001

O salto de +14,1% observado entre 2000 e 2001 é o maior da série e provavelmente reflete melhora de cobertura do SIM, e não um aumento real de óbitos. O SIM operou em regime de implementação gradual ao longo dos primeiros anos da série CID-10; a cobertura de causas externas, categoria que inclui o suicídio, tende a ser subnotificada nos anos iniciais de operação de sistemas de informação em saúde (LOVISI et al., 2009). Esse ponto será tratado como limitação metodológica no manuscrito.

7.4 Completude das variáveis

Código

knitr::include_graphics(
  file.path(caminho_figuras, "eda_sim", "fig_completude.png")
)

Figura 7: Percentual de valores ausentes por variável — comparação entre a base pós-filtro CID e a base limpa final. Linha tracejada vermelha: limiar de alerta (5%).

A completude da base é elevada em todas as variáveis analíticas. A única variável com percentual de missing acima de zero na base limpa é faixa_etaria (0,25%), decorrente de 592 registros com IDADE ausente ou com valor fora do padrão de codificação esperado (prefixo 4xx para anos completos). Esses registros foram mantidos na base e serão excluídos automaticamente nas análises que requerem estratificação etária, via na.rm ou drop_na(), sem impacto no total da série temporal agregada.

7.5 Distribuição dos subcódigos CID X60–X84

Código

knitr::include_graphics(
  file.path(caminho_figuras, "eda_sim", "fig_cid_subcod.png")
)

Código

tab_cid |>
  arrange(desc(n)) |>
  mutate(
    n   = format(n, big.mark = ".", trim = TRUE),
    pct = glue("{pct}%")
  ) |>
  select(
    `CID`    = CAUSABAS_3,
    `Grupo`  = grupo_cid,
    `N`      = n,
    `%`      = pct
  ) |>
  kable(align = c("c", "l", "r", "r")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) |>
  row_spec(1, bold = TRUE, background = "#D4EDDA")

Tabela 11: Distribuição por método de suicídio (subcódigo CID) — Brasil, 2000–2022
CID	Grupo	N	%
X70	Enforcamento/Arma de fogo	154.426	64.13%
X74	Enforcamento/Arma de fogo	17.507	7.27%
X68	Outros agentes químicos	12.150	5.05%
X80	Precipitação/Afogamento/Outros	8.659	3.6%
X69	Outros agentes químicos	6.656	2.76%
X72	Enforcamento/Arma de fogo	6.560	2.72%
X84	Precipitação/Afogamento/Outros	6.436	2.67%
X64	Intoxicação/Medicamentos	5.388	2.24%
X76	Outros meios mecânicos	4.015	1.67%
X61	Intoxicação/Medicamentos	3.897	1.62%
X78	Outros meios mecânicos	3.888	1.61%
X71	Enforcamento/Arma de fogo	2.722	1.13%
X79	Outros meios mecânicos	1.813	0.75%
X62	Intoxicação/Medicamentos	1.159	0.48%
X73	Enforcamento/Arma de fogo	1.085	0.45%
X82	Precipitação/Afogamento/Outros	1.073	0.45%
X65	Intoxicação/Medicamentos	892	0.37%
X67	Outros agentes químicos	547	0.23%
X83	Precipitação/Afogamento/Outros	527	0.22%
X81	Precipitação/Afogamento/Outros	462	0.19%
X66	Solventes/Gases	265	0.11%
X63	Intoxicação/Medicamentos	237	0.1%
X60	Intoxicação/Medicamentos	226	0.09%
X75	Outros meios mecânicos	107	0.04%
X77	Outros meios mecânicos	105	0.04%

O enforcamento/estrangulamento (X70) é o método predominante, respondendo por 64,8% dos óbitos, padrão consistente com estudos brasileiros (BANDO et al., 2012; MINAYO et al., 2010) e com o perfil de países de baixa e média renda, onde métodos de alta letalidade e amplo acesso predominam (MANN et al., 2005). A elevada proporção de X70 tem implicação direta para a modelagem da série agregada: a dinâmica temporal do total é fortemente determinada por um único subcódigo.

O segundo grupo em frequência é armas de fogo, X71 (revólver), X72 (espingarda/rifle) e X74 (outras armas de fogo) somam aproximadamente 10,7% dos óbitos. A exposição a pesticidas (X68) representa 5,05% do total, marcador típico de contexto rural e agrícola no Brasil, concentrado historicamente nas regiões Sul e Centro-Oeste (BANDO et al., 2012).

Todos os 25 subcódigos CID X60–X84 apresentaram ao menos um registro no período, indicando ausência de subcodificação sistemática de categorias específicas.

7.6 Distribuição das variáveis criadas

Código

knitr::include_graphics(
  file.path(caminho_figuras, "eda_sim", "fig_distribuicao_vars.png")
)

Figura 9: Óbitos por suicídio segundo sexo e faixa etária — Brasil, 2000–2022. Percentuais indicam a proporção dentro de cada sexo.

Código

tab_cruz |>
  filter(!is.na(faixa_etaria)) |>
  mutate(
    n = format(n, big.mark = ".", trim = TRUE),
    pct_dentro_sexo = glue("{pct_dentro_sexo}%")
  ) |>
  kable(col.names = c("Sexo", "Faixa etária", "N", "% dentro do sexo"),
        align = c("l", "l", "r", "r")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) |>
  collapse_rows(columns = 1, valign = "top")

Tabela 12: Cruzamento sexo × faixa etária — óbitos totais no período 2000–2022
Sexo	Faixa etária	N	% dentro do sexo
Feminino	< 15 anos	1.477	2.9%
	15–29 anos	14.977	29.3%
	30–44 anos	15.049	29.4%
	45–59 anos	12.292	24%
	60+ anos	7.313	14.3%
Masculino	< 15 anos	1.635	0.9%
	15–29 anos	54.369	28.7%
	30–44 anos	58.669	30.9%
	45–59 anos	42.963	22.7%
	60+ anos	31.466	16.6%

A distribuição etária se apresentou notavelmente similar entre os sexos: em ambos, as faixas 15–29 anos (~29%) e 30–44 anos (~30–31%) concentram juntas cerca de 60% dos óbitos, com declínio progressivo nas faixas subsequentes. A distribuição
indicou que a diferença entre masculino e feminino não reside no padrão etário do suicídio, que é semelhante, mas na magnitude em todas as faixas, consistente com o paradoxo de gênero descrito na literatura (SCHRIJVERS; BOLLEN; SABBE, 2012).

Uma informação que merece atenção clínica é a proporção de menores de 15 anos: 2,9% do total feminino versus 0,9% do masculino. Em números absolutos, 1.477 óbitos femininos contra 1.635 masculinos nessa faixa, razão M/F de apenas 1,1:1, muito inferior à razão global de 3.71:1. Esse padrão é consistente com estudos internacionais que demonstram que a diferença de sexo no suicídio consumado é menor entre adolescentes do que em adultos (MACHADO; SANTOS, 2015; SCHRIJVERS; BOLLEN; SABBE, 2012). A faixa etária de menores de 15 anos concentra um n reduzido (~3.100 óbitos em 23 anos), o que pode limitar análises estratificadas independentes para esse subgrupo.

Distribuição regional: o Sudeste concentra 37,6% dos óbitos em termos absolutos, seguido de Sul (23,7%) e Nordeste (22,6%). Contudo, a análise por contagem absoluta é influenciada pelo tamanho populacional de cada região. A análise por taxa de mortalidade pode alterar substancialmente esse ranking, especialmente para as regiões Norte e Sul, historicamente distintas no padrão brasileiro de suicídio (BANDO et al., 2012).

7.7 Série temporal bruta e variação anual

Código

knitr::include_graphics(
  file.path(caminho_figuras, "eda_sim", "fig_serie_bruta.png")
)

Figura 10: Série temporal de óbitos por suicídio e variação percentual anual — Brasil, 2000–2022. Painel A: série por sexo. Painel B: variação anual do total (verde = crescimento; laranja = redução). Faixa cinza: período da pandemia de COVID-19.

Código

tab_serie_yoy |>
  filter(!is.na(var_pct)) |>
  select(ano, n_obitos, var_abs, var_pct) |>
  mutate(
    n_obitos = format(n_obitos, big.mark = ".", trim = TRUE),
    var_abs  = format(var_abs,  big.mark = ".", trim = TRUE),
    var_pct  = glue("{var_pct}%")
  ) |>
  kable(col.names = c("Ano", "N óbitos", "Var. absoluta", "Var. %"),
        align = c("c", "r", "r", "r")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover")) |>
  row_spec(which(tab_serie_yoy$ano[!is.na(tab_serie_yoy$var_pct)] >= 2020),
           background = "#fff3cd") |>
  footnote(general = "Linhas em amarelo: período da pandemia de COVID-19.",
           footnote_as_chunk = TRUE)

Tabela 13: Variação anual no total de óbitos por suicídio — Brasil, 2001–2022
Ano	N óbitos	Var. absoluta	Var. %
2001	7.737	959	14.1%
2002	7.722	-15	-0.2%
2003	7.860	138	1.8%
2004	8.017	157	2%
2005	8.549	532	6.6%
2006	8.639	90	1.1%
2007	8.868	229	2.7%
2008	9.328	460	5.2%
2009	9.372	44	0.5%
2010	9.448	76	0.8%
2011	9.851	403	4.3%
2012	10.318	467	4.7%
2013	10.532	214	2.1%
2014	10.652	120	1.1%
2015	11.176	524	4.9%
2016	11.431	255	2.3%
2017	12.490	1.059	9.3%
2018	12.728	238	1.9%
2019	13.518	790	6.2%
2020	13.832	314	2.3%
2021	15.495	1.663	12%
2022	16.461	966	6.2%
Note: Linhas em amarelo: período da pandemia de COVID-19.

A análise da variação anual permitiu identificar quatro fases distintas na dinâmica da série:

Fase 1 (2000–2010): crescimento moderado. Excluindo o salto de 2001 (possivelmente artefato de cobertura, conforme discutido em Seção 7.3), as variações anuais oscilaram entre −0,2% e 5,2%, sem padrão de aceleração evidente. O total cresceu de ~6.800 para ~9.400 óbitos no período.

Fase 2 (2011–2016): aceleração progressiva. O crescimento anual se manteve entre 1,1% e 4,9%, resultando em incremento acumulado de ~17% (de ~9.800 para ~11.400 óbitos). Esse padrão coincidiu com um período de expansão econômica seguida de deterioração das condições sociais no Brasil a partir de 2014–2015, contexto associado na literatura ao agravamento de fatores de risco para saúde mental (LIMA et al., 2020).

Fase 3 (2017–2019): segunda aceleração. O ano de 2017 registrou o maior incremento absoluto do período pré-pandemia: +1.059 óbitos (+9,3%) em um único ano. Esse salto coincidiu com o pico de desemprego da recessão brasileira (2015–2016), corroborando evidências da associação entre crises econômicas e mortalidade por suicídio (MANN et al., 2005). A série atinge 13.518 óbitos em 2019.

Fase 4 (2020–2022): período pandêmico. O comportamento da série durante a pandemia de COVID-19 apresenta padrão bifásico: crescimento moderado em 2020 (+2,3%, +314 óbitos), abaixo da tendência da fase anterior, seguido de salto expressivo em 2021 (+12,0%, +1.663 óbitos), o maior incremento absoluto de toda a série. O ano de 2021 é o segundo ano de pandemia no Brasil, marcado pelo colapso dos sistemas de saúde, segundo pico de mortalidade por COVID-19, prolongamento das restrições sociais e crise econômica agravada. Essa dinâmica é consistente com estudos internacionais que identificaram elevação da mortalidade por suicídio no segundo ano da pandemia em vários países (PIRKIS et al., 2021). Em 2022, o crescimento continuou (+6,2%), encerrando o período com 16.461 óbitos, o maior valor anual da série.

Implicações para a modelagem (cards #6–#8)

Três pontos desta análise exploratória orientaram as etapas de modelagem:

Tendência de crescimento secular sem reversão — a série não registrou redução real em nenhum ano do período. Isso sugere componente de tendência estocástica ou determinística que precisa ser acomodado nos modelos SARIMA e ETS.
Possível quebra estrutural em 2017 e/ou 2021 — os dois maiores saltos absolutos da série ocorreram nesses anos. Testes formais de mudança estrutural (strucchange) devem avaliar se há quebra de nível ou de inclinação nesses pontos.
Efeito COVID como candidato a variável exógena — o comportamento assimétrico de 2020–2021 (moderação seguida de aceleração) é coerente com a hipótese de efeito temporal defasado da pandemia sobre a mortalidade por suicídio (PIRKIS et al., 2021), o que fundamenta a inclusão de uma dummy COVID-19 no modelo ARIMAX.

7.8 Flags de atenção e decisões metodológicas

Código

if (nrow(tab_flags) == 0) {
  cat("Nenhum flag de atenção identificado. Base dentro dos parâmetros de qualidade pré-definidos.")
} else {
  tab_flags |>
    kable(col.names = c("Categoria", "Ano", "Variável", "Descrição"),
          align = c("l", "c", "l", "l")) |>
    kable_styling(full_width = TRUE, bootstrap_options = c("striped", "hover"))
}

?(caption)

Nenhum flag de atenção identificado. Base dentro dos parâmetros de qualidade pré-definidos.

Nenhuma flag de atenção foi disparada. A base final atendeu a todos os critérios de qualidade pré-definidos: nenhuma variável analítica com missings acima de 5%, nenhum ano com total abaixo de 100 registros, e todos os 25 subcódigos CID X60–X84 com ao menos um registro no período.

7.8.1 Decisões metodológicas desta etapa

Tabela 14: Decisões metodológicas da etapa de validação e análise exploratória (ead)
Decisão	Justificativa	Impacto nos próximos scripts
Manter os 592 registros com `faixa_etaria = NA` na base	N muito pequeno; exclusão causaria viés na série temporal agregada	Excluídos apenas em análises estratificadas por faixa
Não excluir registros de menores de 15 anos	Faixa com achado clínico relevante (razão M/F ≈ 1:1)	Manter em análise agregada; avaliar n para modelagem separada
Tratar 2001 como possível artefato de cobertura	Salto de +14,1% inconsistente com a tendência subsequente	Documentar como limitação no manuscrito; testar sensibilidade excluindo 2000–2001
Manter todos os 23 anos na base (incluindo 2002 e 2005 recuperados)	Dados plausíveis e consistentes com a tendência da série	Pipeline corrigido na v10.0 do script 01

Scripts desta etapa: 01_download_dados.R (v10.0) · 03_clean_dados.R (v3.0) · 03b_eda_sim.R (v1.0)

8 Análise descritiva e taxas brutas

8.1 Contextualização metodológica

A análise descritiva foi conduzida em dois níveis complementares. O bloco analítico calculou taxas brutas mensais e anuais, decompôs as séries pela técnica STL (Seasonal Trend descomposition using Loess) e avaliou formalmente a sazonalidade, fornecendo insumos diretos para a modelagem. O bloco descritivo calculou taxas estratificadas por faixa etária e macrorregião.

Fórmula da taxa bruta: \(\text{Taxa}_t = \frac{D_t}{P_t} \times 10^5\). Para as taxas mensais, o denominador foi \(P_{\text{anual}}/12\), abordagem padrão na literatura epidemiológica para séries mensais de mortalidade (brasil_datasus?).

8.2 Taxas brutas anuais

Código

knitr::include_graphics(
  file.path(caminho_figuras, "analitico_descritivo", "fig_serie_taxas_anuais.png")
)

Figura 11: Taxa bruta de mortalidade por suicídio por 100.000 habitantes — Brasil, 2000–2022, por sexo. Faixa cinza: período da pandemia de COVID-19.

A taxa bruta de mortalidade por suicídio cresceu de 3.99 para 8.11 por 100.000 habitantes entre 2000 e 2022, incremento de 103.3%. A razão de taxas M/F oscilou entre 3.643 e 4.124 sem tendência sistemática, consistente com o gender paradox do suicídio (SCHRIJVERS; BOLLEN; SABBE, 2012).

8.3 Escolha de granularidade

Código

tab_comp_gran |>
  kable(col.names = c("Critério", "Série anual", "Série mensal"),
        align = c("l", "c", "c")) |>
  kable_styling(full_width = TRUE, bootstrap_options = c("striped", "hover"))

Tabela 15: Comparativo de critérios para escolha da granularidade da série para modelagem
Critério	Série anual	Série mensal
Número de observações (n)	23	276
Autocorrelação máxima nos primeiros lags	0.739	0.904
Coeficiente de variação da série	0.188	0.194
Sazonalidade detectável	Não (frequency=1)	Sim (testes formais)
Componente sazonal SARIMA possível	Não (sem ciclo sazonal)	Sim — SARIMA(p,d,q)(P,D,Q)[12]
Risco de overfitting (série curta)	Alto	Baixo
Padrão predominante na literatura de suicídio	Frequente em estudos nacionais	Frequente em análises de intervenção
Granularidade adotada para modelagem	Secundária (comparação)	Principal

A série mensal (n=276, frequency=12) foi adotada como série principal para modelagem: autocorrelação máxima de 0,887 vs 0,415 da anual; sazonalidade detectável apenas nessa granularidade. A série anual (n=23) é mantida como comparação para avaliar impacto da granularidade.

8.4 Decomposição STL

Código

knitr::include_graphics(
  file.path(caminho_figuras, "analitico_descritivo", "fig_stl_total.png")
)

Figura 12: Decomposição STL da taxa mensal — Total — Brasil, 2000–2022. s.window = ‘periodic’, robust = TRUE.

Código

knitr::include_graphics(
  file.path(caminho_figuras, "analitico_descritivo", "fig_stl_sexo.png")
)

Figura 13: Componente de tendência STL por sexo — Brasil, 2000–2022.

A decomposição revelou três características para a modelagem: (1) tendência de crescimento secular em formato de “S” — lento até 2013, aceleração progressiva 2014–2019, novo salto a partir de 2020; (2) sazonalidade aditiva com amplitude ±0,4/100k estável ao longo de todo o período, com picos em jan/mar e vales em jun/jul; (3) resíduo contido em ±0,5 sem outliers extremos após correção do denominador de 2007.

A comparação das tendências por sexo evidencia dinâmicas estruturalmente distintas: a curva masculina é quase horizontal até ~2013 e depois acelera intensamente; a feminina cresce de forma mais suave e linear. Essa heterogeneidade justifica os modelos separados do card #9.

8.5 Testes formais de sazonalidade

Código

tab_testes_saz |>
  kable(col.names = c("Teste", "Estatística", "p-valor", "Conclusão"),
        align = c("l", "r", "r", "l")) |>
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover"))

Tabela 16: Testes formais de sazonalidade — série mensal, Brasil, 2000–2022
Teste	Estatística	Conclusão
QS (Ljung-Box sazonal)	86.915	Sazonalidade detectada
Friedman (fried)	112.467	Sazonalidade detectada
Kruskal-Wallis (kw)	132.815	Diferença entre meses

Os três testes rejeitam H0 (p < 0,0001). A concordância entre QS (baseado em autocorrelação), Friedman (não-paramétrico) e Kruskal-Wallis fornece evidência inequívoca de sazonalidade mensal. Implicação para modelagem: SARIMA precisa de componente sazonal (P,D,Q)[12]; ETS deve incluir componente sazonal aditivo.

8.6 ACF e PACF — implicações para ordens dos modelos

Código

knitr::include_graphics(
  file.path(caminho_figuras, "analitico_descritivo", "fig_acf_pacf_mensal.png")
)

Figura 14: ACF e PACF da taxa mensal (Total) — Brasil, 2000–2022.

A ACF exibe decaimento lento até lag 36, padrão de raiz unitária, indicando \(d \geq 1\). A PACF apresenta picos nos lags 1, 2 e 12, sugerindo AR(1–2) e sazonalidade AR. Ponto de partida para o auto.arima(): SARIMA(1–2, 1, 0–1)(1, 1, 0)[12].

Decisões metodológicas do card #5

Decisão	Justificativa
Série mensal como principal	n=276 vs 23; sazonalidade detectável; ACF mais rica
Denominador mensal = pop_anual/12	Padrão literatura; variação intra-anual desprezível
STL com `s.window="periodic"`, `robust=TRUE`	Sazonalidade estável; robusto a 2021
Denominador 2007 = interpolação Tab6579	Contagem 2007 é parcial (~109M vs ~188M reais)
Série anual mantida como comparação	Avalia impacto de granularidade no card #8

Script: 04_analitico_descritivo.R (v1.0) · Script 01: v11.0

8.7 Taxas por macrorregião

Código

knitr::include_graphics(
  file.path(caminho_figuras, "analitico_descritivo", "fig_taxas_regiao.png")
)

Figura 15: Taxa de mortalidade por suicídio por macrorregião — Brasil, 2000–2022.

A análise por taxa inverte o ranking obtido pela contagem absoluta. A região Sul lidera em todo o período (~8/100k em 2000 → ~12,5/100k em 2022). O achado mais relevante é a convergência entre Norte, Nordeste e Sudeste ao final do período (~7/100k em 2022), indicando crescimento proporcionalmente maior nas regiões historicamente mais baixas (BANDO et al., 2012).

8.8 Taxas por faixa etária

Código

knitr::include_graphics(
  file.path(caminho_figuras, "analitico_descritivo", "fig_taxas_faixa.png")
)

Figura 16: Taxa de mortalidade por suicídio por faixa etária — Brasil, 2000–2022. Denominador: população total Brasil (taxa aproximada).

Limitação — taxas por faixa etária

Denominador = população total Brasil, não a população específica de cada faixa (indisponível em série anual contínua nas tabelas IBGE utilizadas). As taxas são adequadas para comparação de tendências relativas, não de taxas absolutas. O denominador ideal (Tab. 7358) está reservado para análise futura.

A faixa 30–44 anos liderou em todo o período. Destaque para a 60+ anos, que apresentou a maior aceleração proporcional recente, consistente com o impacto do isolamento social pandêmico sobre idosos (PIRKIS et al., 2021).

9 Referências

BANDO, D. H. et al. Distribuição espacial do suicídio no Brasil. Cadernos de Saúde Pública, v. 28, n. 11, p. 2079–2087, 2012.

HYNDMAN, R. J.; ATHANASOPOULOS, G. Forecasting: principles and practice. 3. ed. Melbourne: OTexts, 2021.

INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. Projeções da população: Brasil e Unidades da Federação — revisão 2018: Série Relatórios Metodológicos. Rio de Janeiro: IBGE, 2018. Disponível em: <https://biblioteca.ibge.gov.br/visualizacao/livros/liv101597.pdf>.

INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. Projeções da população do Brasil e das Unidades da Federação. Rio de Janeiro: IBGE, 2022. Disponível em: <https://www.ibge.gov.br/estatisticas/sociais/populacao/9109-projecao-da-populacao.html>.

LIMA, C. K. T. et al. Saúde mental e a pandemia de COVID-19 no Brasil. Ciência & Saúde Coletiva, v. 25, n. suppl 1, p. 2515–2526, 2020.

LOVISI, G. M. et al. Análise epidemiológica do suicídio no Brasil entre 1980 e 2006. Revista Brasileira de Psiquiatria, v. 31, n. Suppl 2, p. S86–S94, 2009.

MACHADO, D. B.; SANTOS, D. N. Tendências de mortalidade por suicídio em adolescentes e adultos jovens no Brasil, 2000–2012. Jornal Brasileiro de Psiquiatria, v. 64, n. 2, p. 116–122, 2015.

MANN, J. J. et al. Suicide prevention strategies: a systematic review. JAMA, v. 294, n. 16, p. 2064–2074, 2005.

MINAYO, M. C. DE S. et al. Mortalidade por suicídio: análise das tendências no período de 1997 a 2007. Cadernos de Saúde Pública, v. 26, n. 7, p. 1395–1408, 2010.

MINISTÉRIO DA SAÚDE. Sistema de Informações sobre Mortalidade (SIM). Disponível em: http://sim.saude.gov.br, 2024.

NOCK, M. K. et al. Suicide: global burden, epidemiology and relationship with other health conditions. Annual Review of Clinical Psychology, v. 4, p. 133–155, 2008.

ORGANIZAÇÃO PAN-AMERICANA DA SAÚDE. Mortalidade por suicídio e implementação de estratégias para sua prevenção. Washington, D.C.: OPAS, 2021. Disponível em: <https://iris.paho.org/handle/10665.2/55217>.

PIRKIS, J. et al. Suicide trends in the early months of the COVID-19 pandemic: an interrupted time-series analysis of preliminary data from 21 countries. The Lancet Psychiatry, v. 8, n. 7, p. 579–588, 2021.

RIBEIRO, N.; MOREIRA, M.; SOUZA, E. R. Tendências da mortalidade por suicídio no Brasil, 2000–2015. Cadernos de Saúde Coletiva, v. 26, n. 3, p. 283–292, 2018.

SALDANHA, R. DE F.; BASTOS, R. R.; BARCELLOS, C. microdatasus: pacote para download e pré-processamento de microdados do DATASUS em R. Cadernos de Saúde Pública, v. 35, n. 9, p. e00032419, 2019.

SCHRIJVERS, D. L.; BOLLEN, J.; SABBE, B. G. C. The gender paradox in suicidal behavior and its impact on the suicidal process. Journal of Affective Disorders, v. 138, n. 1–2, p. 19–26, 2012.

SIMÕES, C. C. DA S. Relações entre as alterações históricas na dinâmica demográfica brasileira e os impactos decorrentes do processo de envelhecimento da população. Rio de Janeiro: IBGE, 2016.

WORLD HEALTH ORGANIZATION. Suicide worldwide in 2019: global health estimates. World Health Organization, 2021.

Informações da sessão R

Código

sessionInfo()

R version 4.5.3 (2026-03-11 ucrt)
Platform: x86_64-w64-mingw32/x64
Running under: Windows 11 x64 (build 26200)

Matrix products: default
  LAPACK version 3.12.1

locale:
[1] LC_COLLATE=Portuguese_Brazil.utf8  LC_CTYPE=Portuguese_Brazil.utf8   
[3] LC_MONETARY=Portuguese_Brazil.utf8 LC_NUMERIC=C                      
[5] LC_TIME=Portuguese_Brazil.utf8    

time zone: America/Sao_Paulo
tzcode source: internal

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] here_1.0.2       glue_1.8.0       kableExtra_1.4.0 knitr_1.51      
 [5] scales_1.4.0     lubridate_1.9.5  forcats_1.0.1    stringr_1.6.0   
 [9] dplyr_1.2.1      purrr_1.2.1      readr_2.2.0      tidyr_1.3.2     
[13] tibble_3.3.1     ggplot2_4.0.2    tidyverse_2.0.0 

loaded via a namespace (and not attached):
 [1] generics_0.1.4     xml2_1.5.2         stringi_1.8.7      hms_1.1.4         
 [5] digest_0.6.39      magrittr_2.0.4     evaluate_1.0.5     grid_4.5.3        
 [9] timechange_0.4.0   RColorBrewer_1.1-3 fastmap_1.2.0      rprojroot_2.1.1   
[13] jsonlite_2.0.0     viridisLite_0.4.3  textshaping_1.0.5  cli_3.6.5         
[17] rlang_1.1.7        crayon_1.5.3       bit64_4.6.0-1      withr_3.0.2       
[21] yaml_2.3.12        parallel_4.5.3     tools_4.5.3        tzdb_0.5.0        
[25] vctrs_0.7.2        R6_2.6.1           lifecycle_1.0.5    bit_4.6.0         
[29] vroom_1.7.0        pkgconfig_2.0.3    pillar_1.11.1      gtable_0.3.6      
[33] systemfonts_1.3.2  xfun_0.57          tidyselect_1.2.1   rstudioapi_0.18.0 
[37] farver_2.1.2       htmltools_0.5.9    rmarkdown_2.31     svglite_2.2.2     
[41] compiler_4.5.3     S7_0.2.1