Dados, análises, modelagens, discussões e tomadas de decisões
R
Ciência de dados
Visualização de dados
Artigo
Autor
Majory Melo e Henrique Pegorari
Data de Publicação
08 de abril de 2026
Sobre este documento
Este arquivo registra observações e análises preliminares do Projeto ANUBIS — estudo de séries temporais de suicídio no Brasil (2000–2022). O objetivo é documentar decisões metodológicas e fornecer evidências para a redação do manuscrito.
A construção da base populacional seguiu uma estratégia em dois níveis distintos:
Nível 1 — Totais populacionais anuais: foram obtidos integralmente de fontes observadas, sem imputação. Para os anos censitários e de contagem (2000, 2007, 2010 e 2022), os totais provieram diretamente dos levantamentos do IBGE. Para os demais anos (2001–2006 e 2008–2021), foram utilizadas as estimativas intercensitárias da Tabela SIDRA 6579.
Nível 2 — Desagregação por sexo nos anos intermediários: as proporções masculina e feminina foram interpoladas a partir de quatro âncoras observadas (2000, 2007, 2010 e 2022) e aplicadas sobre os totais do Nível 1.
A principal decisão metodológica desta etapa, a escolha do método de interpolação das proporções por sexo, é documentada em detalhe na Seção 3.
1.1 Fontes utilizadas
Tabela 1: Fontes populacionais utilizadas na construção da série 2000–2022
Fonte
Tabela SIDRA
Cobertura
Variáveis
Censo Demográfico 2000
Tab. 200
Nacional por macrorregião
Total, homens, mulheres
Contagem da População 2007
Tab. 794
Municípios ≤ 170 mil hab.
Total, homens, mulheres
Censo Demográfico 2010
Tab. 200
Nacional por macrorregião
Total, homens, mulheres
Estimativas anuais 2001–2021
Tab. 6579
Nacional por macrorregião
Total
Censo Demográfico 2022
Tab. 9514
Nacional por macrorregião
Total, homens, mulheres
2 A Contagem da População de 2007
2.1 Por que o total de 2007 diverge dos anos adjacentes?
Ao visualizar a série do Brasil, o ano de 2007 apresentou um total de 108.765.037 pessoas — muito abaixo dos ~186 milhões de 2006 e ~189 milhões de 2008. Esse valor não foi erro de processamento, mas refletiu a natureza da operação censitária.
Explicação oficial — IBGE (2007)
A Contagem da População de 2007 não cobriu todos os municípios brasileiros. Por razões orçamentárias, o levantamento de campo foi restrito aos municípios com até 170 mil habitantes, universo que na época correspondia a 5.435 dos 5.564 municípios existentes. Para os 129 municípios excluídos — todos de grande porte, predominantemente metropolitanos — o IBGE produziu estimativas separadas com metodologia própria.
O valor de 108.765.037 pessoas corresponde, portanto, à população efetivamente recenseada de campo — não à população total do Brasil em 2007. Por esse motivo, o total de 2007 proveniente da Contagem não foi utilizado como denominador nas taxas de mortalidade; essa função foi exercida pelas estimativas anuais da Tabela 6579, que forneceu valores completos e metodologicamente consistentes para todos os anos, inclusive 2007.
2.2 Papel da Contagem 2007 neste projeto
A Contagem de 2007 foi utilizada exclusivamente como âncora para interpolação das proporções por sexo, não dos totais populacionais. Essa distinção foi fundamental: o que nos interessa de 2007 é a relação observada entre homens e mulheres, não o total absoluto recenseado.
Código
ancoras |>filter(local =="Brasil") |>mutate(fonte =case_when( ano ==2000~"Censo 2000", ano ==2007~"Contagem 2007*", ano ==2010~"Censo 2010", ano ==2022~"Censo 2022" ),`% Masculino`=round(prop_masc *100, 3),`% Feminino`=round(prop_fem *100, 3),`Total`=format(populacao_total, big.mark =".", decimal.mark =",") ) |>select(Ano = ano, Fonte = fonte, `Total`, `% Masculino`, `% Feminino`) |>kable(align =c("c","l","r","c","c")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped","hover")) |>footnote(symbol ="Cobertura parcial: municípios com ≤ 170 mil habitantes (IBGE, 2007).",footnote_as_chunk =TRUE )
Tabela 2: Proporções por sexo nas quatro âncoras censitárias — Brasil
Ano
Fonte
Total
% Masculino
% Feminino
2000
Censo 2000
169.872.856
49.215
50.785
2007
Contagem 2007*
108.765.037
49.542
49.728
2010
Censo 2010
190.755.799
48.967
51.033
2022
Censo 2022
203.080.756
48.519
51.481
* Cobertura parcial: municípios com ≤ 170 mil habitantes (IBGE, 2007).
2.3 Implicação metodológica: viés de seleção nas proporções de 2007
A exclusão dos 129 municípios grandes da Contagem levanta uma questão legítima: as proporções por sexo calculadas a partir da amostra coberta são representativas da população total?
Municípios de grande porte e metropolitanos tendem a concentrar maior proporção feminina, em razão dos padrões históricos de migração interna brasileira, onde mulheres migram em maior proporção para centros urbanos em busca de trabalho doméstico e serviços (SIMÕES, 2016). A exclusão desses municípios poderia, em tese, superestimar a proporção masculina na Contagem.
Contudo, dois argumentos sustentaram a manutenção da Contagem como âncora:
Comparação com os Censos adjacentes: a proporção masculina da Contagem 2007 para o Brasil foi de 49.54%, valor intermediário entre o Censo 2000 (49.21%) e o Censo 2010 (48.97%), o que é demograficamente coerente com a tendência de feminização progressiva da população brasileira (INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2022).
Análise de sensibilidade (Seção 4): a inclusão da Contagem 2007 como âncora reduz o intervalo máximo sem referência de 22 anos (2000–2022) para dois segmentos de no máximo 10 anos (2000–2010 e 2010–2022), aumentando substancialmente a fidelidade da interpolação.
3 Comparação de métodos de interpolação
3.1 Contexto da decisão
Para os anos intermediários entre as âncoras censitárias, as proporções por sexo foram estimadas por interpolação. Dois métodos foram avaliados em paralelo sobre as mesmas âncoras e os mesmos dados:
Spline cúbica natural (zoo::na.spline): ajusta polinômios de grau 3 entre os pontos de ancoragem, minimizando a curvatura total da série. É o método de interpolação mais suave e frequentemente adotado em séries demográficas (HYNDMAN; ATHANASOPOULOS, 2021).
Interpolação linear por partes (zoo::na.approx): conecta as âncoras por segmentos de reta, sem curvatura adicional. É o método mais conservador e matematicamente mais simples.
A escolha entre os métodos foi feita com base em critérios objetivos, documentados a seguir.
3.2 Envelope demográfico das âncoras
O critério principal de avaliação foi a permanência dentro do envelope demográfico — faixa definida pelos valores mínimo e máximo de proporção masculina observados nas quatro âncoras, acrescidos de margem de tolerância de 0,5 ponto percentual por região.
Tabela 3: Envelope demográfico de plausibilidade por macrorregião (proporção masculina × 100)
Âncoras observadas
Envelope (± 0,5 p.p.)
Região
Mín observado
Máx observado
Limite inferior
Limite superior
Brasil
0.485
0.495
0.480
0.500
Centro-Oeste
0.492
0.502
0.487
0.507
Nordeste
0.483
0.491
0.478
0.496
Norte
0.499
0.506
0.494
0.511
Sudeste
0.482
0.496
0.477
0.501
Sul
0.487
0.495
0.482
0.500
3.3 Figura 1 — Trajetórias comparadas por região
A figura abaixo apresenta as trajetórias produzidas por cada método para o Brasil e as cinco macrorregiões, com o envelope demográfico sombreado, as âncoras observadas destacadas e os casos de extrapolação da spline marcados.
Figura 1: Proporção masculina interpolada por método — Brasil e macrorregiões, 2000–2022. Faixa cinza: envelope demográfico (âncoras ± 0,5 p.p.). Linha azul: interpolação linear. Linha tracejada: spline cúbica.
A spline cúbica produziu trajetórias claramente não-plausíveis em quatro das seis regiões: após atingir um pico artificial em torno de 2005 (efeito da curvatura induzida pelo intervalo curto de apenas três anos entre as âncoras de 2007 e 2010), a série despencou acentuadamente até 2017–2018, ultrapassando os limites inferiores do envelope. A interpolação linear, por contraste, acompanhou a tendência geral de suave declínio na proporção masculina sem oscilações espúrias.
3.4 Diagnóstico quantitativo da spline
Código
diag_spline |>mutate(desvio_max_pp =round(desvio_max_pp, 4),ano_pior =ifelse(is.na(ano_pior), "—", as.character(ano_pior)) ) |>rename( Região = local,`Anos fora do envelope (n)`= n_anos_fora,`Desvio máx. (p.p.)`= desvio_max_pp,`Ano do maior desvio`= ano_pior ) |>kable(align =c("l","c","c","c")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped","hover")) |>row_spec(which(diag_spline$n_anos_fora >0), background ="#FFF3CD")
Tabela 4: Diagnóstico da spline cúbica por macrorregião — anos interpolados
Região
Anos fora do envelope (n)
Desvio máx. (p.p.)
Ano do maior desvio
Sudeste
9
0.8952
2017
Brasil
6
0.2255
2018
Centro-Oeste
4
0.1146
2018
Sul
4
0.1039
2018
Nordeste
0
0.0000
—
Norte
0
0.0000
—
Concentração do problema no Sudeste
A região Sudeste concentrou 9 dos 23 casos de extrapolação, com desvio máximo de 0.895 p.p. em 2017. Essa concentração não foi aleatória: o Sudeste possui as maiores metrópoles do país, exatamente os municípios excluídos da Contagem 2007, o que ampliou o impacto do viés de seleção daquela fonte na âncora de 2007 e, consequentemente, na curvatura da spline naquele segmento.
Figura 2: Desvio da spline cúbica em relação ao envelope demográfico — anos interpolados. Barras laranjas: casos de extrapolação além do limite do envelope.
A figura confirma que o overshoot é um fenômeno concentrado temporalmente (2012–2021) e regionalmente (Sudeste e, em menor grau, Brasil agregado), não distribuído aleatoriamente ao longo da série. Esse padrão é consistente com a explicação geométrica: o intervalo de apenas três anos entre as âncoras de 2007 e 2010 força a spline a fazer uma inflexão abrupta, com propagação de curvatura espúria para os anos subsequentes.
Figura 3: Diferença absoluta entre spline cúbica e interpolação linear (p.p.) — anos interpolados. Representa o erro que seria introduzido nas proporções caso a spline fosse adotada.
Código
comp_metodos |>mutate(dif_media_pp =round(dif_media_pp, 3),dif_max_pp =round(dif_max_pp, 3) ) |>rename( Região = local,`Dif. média (p.p.)`= dif_media_pp,`Dif. máx. (p.p.)`= dif_max_pp,`Ano da maior diferença`= ano_max_dif ) |>kable(align =c("l","c","c","c")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped","hover")) |>row_spec(1, bold =TRUE, background ="#F8D7DA")
Tabela 5: Diferença entre spline cúbica e interpolação linear por macrorregião
Região
Dif. média (p.p.)
Dif. máx. (p.p.)
Ano da maior diferença
Sudeste
0.818
1.588
2017
Brasil
0.467
0.903
2017
Centro-Oeste
0.418
0.803
2017
Sul
0.381
0.743
2017
Nordeste
0.221
0.422
2017
Norte
0.183
0.371
2017
A maior divergência entre os métodos atingiu 1.588 p.p. na região Sudeste em 2017. Em termos populacionais, esse desvio corresponderia a um erro de aproximadamente 1.381.024 pessoas na desagregação por sexo naquele ano, magnitude relevante para denominadores de taxas de mortalidade em estudos de séries temporais.
3.7 Quadro comparativo final
Código
tibble( Critério =c("Anos/região fora do envelope demográfico","Inflexões não-monotônicas detectadas","Desvio máximo do envelope (p.p.)","Maior divergência entre métodos (p.p.)","Região/ano crítico","Garantia de monotonia por segmento","Método adotado para a série final" ),`Spline cúbica`=c(glue("{n_fora_spline} casos"),"12 inflexões",glue("{round(max(diag_spline$desvio_max_pp), 3)}"),glue("{round(dif_max_global, 3)}"),glue("{regiao_max_dif} / {ano_max_dif}"),"❌ Não","❌ Não" ),`Interpolação linear`=c("0 casos","0 (por definição)","—","0 (referência)","—","✅ Sim","✅ Sim" )) |>kable(align =c("l","c","c")) |>kable_styling(full_width =TRUE, bootstrap_options =c("striped","hover")) |>row_spec(7, bold =TRUE, background ="#D4EDDA") |>column_spec(1, width ="50%")
Tabela 6: Comparação entre spline cúbica e interpolação linear — critérios de seleção do método
Critério
Spline cúbica
Interpolação linear
Anos/região fora do envelope demográfico
23 casos
0 casos
Inflexões não-monotônicas detectadas
12 inflexões
0 (por definição)
Desvio máximo do envelope (p.p.)
0.895
—
Maior divergência entre métodos (p.p.)
1.588
0 (referência)
Região/ano crítico
Sudeste / 2017
—
Garantia de monotonia por segmento
❌ Não |
✅ Sim |
Método adotado para a série final
❌ Não |
✅ Sim |
Justificativa metodológica — rascunho para o manuscrito
A desagregação da população por sexo nos anos intermediários foi realizada por interpolação linear por partes das proporções masculina e feminina calculadas nas quatro âncoras censitárias observadas (Censos de 2000, 2010 e 2022; Contagem da População de 2007). Dois métodos foram avaliados em paralelo, spline cúbica natural e interpolação linear, sobre as mesmas âncoras e o mesmo período.
A spline cúbica produziu extrapolações fora do envelope demográfico plausível em 23 combinações ano-região (de 114 avaliadas), com desvio máximo de 0.895 p.p. na região Sudeste em 2017, e apresentou 12 inflexões não-monotônicas. O fenômeno foi atribuído ao intervalo de apenas três anos entre as âncoras de 2007 e 2010, que induziu curvatura excessiva com propagação de artefato para os anos subsequentes. A maior divergência entre os dois métodos atingiu 1.588 p.p. no Sudeste em 2017.
A interpolação linear permaneceu integralmente dentro do envelope em todas as combinações ano-região avaliadas e, por ser monotônica em cada segmento por definição matemática, não gerou inflexões espúrias (curva artificial) . Em face desses resultados, a interpolação linear foi adotada como método para a série final.
Figura 4: Análise de sensibilidade — impacto de incluir a Contagem 2007 como âncora. Comparação entre interpolação linear com e sem a âncora de 2007.
A Figura 4 mostra que a inclusão da Contagem 2007 gerou uma inflexão visível na série linear em algumas regiões, especialmente Sudeste e Sul, onde a proporção da Contagem de 2007 é ligeiramente superior à tendência esperada entre 2000 e 2010. Isso é consistente com o viés de seleção discutido na Seção 2: a exclusão dos municípios maiores tende a superestimar levemente a proporção masculina na Contagem.
Contudo, a diferença entre as duas configurações é demograficamente pequena para a maioria das regiões, e a inclusão da Contagem é metodologicamente preferível por dois motivos: (1) ancora a interpolação em dado de campo observado, e (2) divide o intervalo de 22 anos em dois segmentos menores, reduzindo a incerteza da estimativa intercensitária.
Nota para discussão
A pergunta previsível é: “se a Contagem 2007 tem cobertura parcial, por que usá-la como âncora?”
A resposta é que a alternativa (não usar a Contagem e interpolar entre 2000 e 2010) também tem limitações, e mais graves: produz uma série baseada em um único segmento de 10 anos sem referência intermediária observada. A Contagem 2007, apesar da cobertura parcial, é a única fonte de campo disponível para o período intercensitário, e suas proporções por sexo são biologicamente plausíveis e coerentes com a tendência entre 2000 e 2010. A análise de sensibilidade documenta formalmente o impacto de incluí-la, permitindo que o leitor avalie a robustez das escolhas.
Figura 5: Proporção masculina observada nas quatro âncoras censitárias — Brasil e macrorregiões. Pontos: valores diretamente observados nos levantamentos do IBGE.
A Figura 5 evidencia dois padrões relevantes para a discussão metodológica:
Tendência de feminização progressiva: em todas as regiões, a proporção masculina declina ao longo do período, de forma mais acentuada entre 2010 e
Variação máxima inferior a 2 p.p.: em nenhuma região a diferença entre a maior e a menor proporção masculina observada supera 2 pontos percentuais ao longo de 22 anos. Esse estreitamento da faixa de variação confirma que métodos conservadores de interpolação são adequados. A suavidade adicional da spline não traz benefício analítico que justifique o risco de extrapolação.
Código
ancoras |>mutate(fonte =case_when( ano ==2000~"Censo 2000", ano ==2007~"Contagem 2007*", ano ==2010~"Censo 2010", ano ==2022~"Censo 2022" ),`% Masculino`=round(prop_masc *100, 3) ) |>select(Região = local, Ano = ano, Fonte = fonte, `% Masculino`) |>pivot_wider(names_from =c(Ano, Fonte),values_from =`% Masculino`,names_glue ="{Ano}\n{Fonte}" ) |>kable(align ="lcccc") |>kable_styling(full_width =FALSE, bootstrap_options =c("striped","hover")) |>footnote(symbol ="Cobertura parcial: municípios com ≤ 170 mil habitantes.",footnote_as_chunk =TRUE )
Tabela 7: Proporções masculinas observadas nas quatro âncoras censitárias — todas as regiões
Região
2000 Censo 2000
| 2007 Contagem 2007
| 2010 Censo 20
0 | 2022 Censo 2
Brasil
49.215
49.542
48.967
48.519
Centro-Oeste
49.848
50.174
49.651
49.157
Nordeste
49.036
49.131
48.810
48.332
Norte
50.630
50.363
50.458
49.917
Sudeste
48.917
49.570
48.624
48.161
Sul
49.390
49.546
49.061
48.715
* Cobertura parcial: municípios com ≤ 170 mil habitantes.
6 Série populacional final
Código
pop_final |>filter(local =="Brasil") |>mutate(prop_masc =round(pop_masculino / populacao_total *100, 3),across(c(populacao_total, pop_masculino, pop_feminino),~format(.x, big.mark =".", decimal.mark =",")) ) |>select(Ano = ano,`Total`= populacao_total,`Masculino`= pop_masculino,`Feminino`= pop_feminino,`% Masc.`= prop_masc ) |>kable(align =c("c","r","r","r","c")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped","hover")) |>row_spec(which(pop_final |>filter(local=="Brasil") |>pull(ano) ==2007),background ="#FFF3CD") |>footnote(general ="Linha em amarelo: ano da Contagem da População (total observado na operação censitária, não estimativa da população total do Brasil).",footnote_as_chunk =TRUE )
Tabela 8: Série populacional final — Brasil, 2000–2022 (interpolação linear adotada)
Ano
Total
Masculino
Feminino
% Masc.
2000
169.872.856
83.602.317
86.270.539
49.215
2001
172.385.826
84.919.564
87.286.368
49.261
2002
174.632.960
86.108.080
88.160.403
49.308
2003
176.871.437
87.294.422
89.023.292
49.355
2004
181.569.056
89.697.705
91.113.445
49.401
2005
184.184.264
91.075.663
92.147.573
49.448
2006
186.770.562
92.441.754
93.159.380
49.495
2007
188.187.784
93.231.082
93.582.017
49.542
2008
189.605.006
93.569.958
95.111.689
49.350
2009
191.480.630
94.128.747
96.885.637
49.158
2010
190.755.799
93.406.990
97.348.809
48.967
2011
192.379.287
94.130.147
98.249.140
48.929
2012
193.904.015
94.803.806
99.100.209
48.892
2013
201.032.714
98.214.135
102.818.579
48.855
2014
202.768.562
98.986.489
103.782.073
48.817
2015
204.450.049
99.731.029
104.719.020
48.780
2016
206.081.432
100.449.892
105.631.540
48.743
2017
207.660.929
101.142.266
106.518.663
48.705
2018
208.494.900
101.470.627
107.024.273
48.668
2019
210.147.125
102.196.288
107.950.837
48.631
2020
211.755.692
102.899.502
108.856.190
48.593
2021
213.317.639
103.578.877
109.738.762
48.556
2022
203.080.756
98.532.431
104.548.325
48.519
Note: Linha em amarelo: ano da Contagem da População (total observado na operação censitária, não estimativa da população total do Brasil).
7 Validação e análise exploratória dos microdados SIM
7.1 Contexto e fonte de dados
Os microdados de mortalidade utilizados neste estudo provêm do Sistema de Informações sobre Mortalidade (SIM), mantido pelo Ministério da Saúde e disponibilizado pelo DATASUS (MINISTÉRIO DA SAÚDE, 2024). O SIM é a principal fonte nacional de dados sobre causas de morte no Brasil e opera com base na Declaração de Óbito (DO), documento padronizado pelo Ministério da Saúde preenchido por médico atestante (MINISTÉRIO DA SAÚDE, 2024). A codificação das causas de óbito segue a Classificação Internacional de Doenças — décima revisão (CID-10).
O acesso e o pré-processamento dos microdados foram realizados com o pacote microdatasus(SALDANHA; BASTOS; BARCELLOS, 2019) para a linguagem R, que automatiza o download por Unidade da Federação e decodifica as variáveis conforme os dicionários oficiais do DATASUS. Os registros de suicídio foram definidos pelos códigos CID-10 X60 a X84 — “lesões autoprovocadas intencionalmente” —, categoria que engloba todos os métodos de suicídio consumado registrados no sistema (WORLD HEALTH ORGANIZATION, 2021).
Decisão de design do pipeline (v10.0)
Por limitação de memória RAM (o arquivo bruto do SIM para o período 2000–2022 contém aproximadamente 26 milhões de registros), o filtro CID X60–X84 foi aplicado individualmente em cada ano durante o download, antes da consolidação dos arquivos. O arquivo resultante sim_suicidio_2000_2022.rds contém exclusivamente registros de suicídio (~240 mil linhas), tornando o pipeline reproduzível em máquinas com recursos computacionais limitados. O script 03_clean_dados.R re-aplica o filtro como verificação de integridade.
Tabela 9: Resumo da validação e limpeza dos microdados SIM — Brasil, 2000–2022
Item
Valor
Registros pós-filtro CID (bruto)
240.844
Registros na base limpa
240.802
Perdas totais (bruto → limpo)
42 (0%
Período coberto
2000–2022
Flags de atenção identificados
0
Subcódigos CID com frequência zero
0
O processo de limpeza resultou em perdas mínimas: dos 240.844 registros com CID X60–X84 presentes no arquivo bruto, apenas 42 foram excluídos (0,02%), sendo 2 por data de óbito inválida e 40 por sexo não informado ou codificado fora das categorias válidas. A base final contém 240.802 óbitos por suicídio no período 2000–2022. Nenhuma flag de atenção foi disparado pelos critérios de qualidade pré-definidos; nenhuma variável analítica superou 5% de valores ausentes e todos os 25 subcódigos CID X60–X84 apresentaram ao menos um registro.
Limitação: ausência de dados em 2002 e 2005
Na execução original do script de download, os anos 2002 e 2005 não foram incorporados ao arquivo bruto em razão de um problema de codificação (encoding) em arquivos .dbc desses anos — bytes inválidos no padrão latin1 interrompiam silenciosamente o processamento pelo process_sim(), retornando NULL sem mensagem de erro explícita. O problema foi identificado durante a análise exploratória (ausência desses anos na tabela de cobertura) e corrigido na versão 10.0 do script 01_download_dados.R, que passou a aplicar iconv() com sub = "byte" antes do processamento. Os dados de 2002 (7.722 registros) e 2005 (8.549 registros) foram recuperados e confirmados como plausíveis pela continuidade da tendência da série.
Figura 6: Óbitos por suicídio (CID X60–X84) por sexo — Brasil, 2000–2022. Linha tracejada: total. Faixa cinza: período da pandemia de COVID-19 (2020–2022).
Código
tab_cobertura |>mutate(across(c(Feminino, Masculino, Total),~format(., big.mark =".", trim =TRUE))) |>kable(col.names =c("Ano", "Feminino", "Masculino", "Total"),align =c("c", "r", "r", "r")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped", "hover")) |>row_spec(which(tab_cobertura$ano >=2020), background ="#fff3cd") |>footnote(general ="Linhas em amarelo: período da pandemia de COVID-19.",footnote_as_chunk =TRUE)
Tabela 10: Óbitos por suicídio por ano e sexo — Brasil, 2000–2022
Ano
Feminino
Masculino
Total
2000
1.382
5.396
6.778
2001
1.560
6.177
7.737
2002
1.694
6.028
7.722
2003
1.604
6.256
7.860
2004
1.706
6.311
8.017
2005
1.805
6.744
8.549
2006
1.805
6.834
8.639
2007
1.872
6.996
8.868
2008
1.953
7.375
9.328
2009
1.872
7.500
9.372
2010
2.073
7.375
9.448
2011
2.089
7.762
9.851
2012
2.257
8.061
10.318
2013
2.223
8.309
10.532
2014
2.233
8.419
10.652
2015
2.396
8.780
11.176
2016
2.378
9.053
11.431
2017
2.664
9.826
12.490
2018
2.729
9.999
12.728
2019
2.919
10.599
13.518
2020
2.964
10.868
13.832
2021
3.431
12.064
15.495
2022
3.553
12.908
16.461
Note: Linhas em amarelo: período da pandemia de COVID-19.
A série apresentou crescimento secular ininterrupto entre 2000 e 2022, com o total de óbitos passando de 6.778 em 2000 para 16.461 em 2022 — aumento de 143% em 22 anos. Esse crescimento é consistente com as tendências documentadas na literatura nacional (LOVISI et al., 2009; MINAYO et al., 2010; RIBEIRO; MOREIRA; SOUZA, 2018) e internacional (ORGANIZAÇÃO PAN-AMERICANA DA SAÚDE, 2021; WORLD HEALTH ORGANIZATION, 2021), embora parte do incremento inicial possa refletir melhora progressiva da cobertura e da qualidade de codificação do SIM nos primeiros anos da série (2000–2003), fenômeno já documentado para causas externas (LOVISI et al., 2009).
A razão masculino/feminino manteve-se estável em aproximadamente 3.71:1 ao longo de todo o período, resultado coerente com o denominado paradoxo de gênero no suicídio: homens morrem por suicídio em proporção muito superior às mulheres, embora estas apresentem maiores taxas de tentativas (NOCK et al., 2008; SCHRIJVERS; BOLLEN; SABBE, 2012).
Nota metodológica — ano de 2001
O salto de +14,1% observado entre 2000 e 2001 é o maior da série e provavelmente reflete melhora de cobertura do SIM, e não um aumento real de óbitos. O SIM operou em regime de implementação gradual ao longo dos primeiros anos da série CID-10; a cobertura de causas externas, categoria que inclui o suicídio, tende a ser subnotificada nos anos iniciais de operação de sistemas de informação em saúde (LOVISI et al., 2009). Esse ponto será tratado como limitação metodológica no manuscrito.
Figura 7: Percentual de valores ausentes por variável — comparação entre a base pós-filtro CID e a base limpa final. Linha tracejada vermelha: limiar de alerta (5%).
A completude da base é elevada em todas as variáveis analíticas. A única variável com percentual de missing acima de zero na base limpa é faixa_etaria (0,25%), decorrente de 592 registros com IDADE ausente ou com valor fora do padrão de codificação esperado (prefixo 4xx para anos completos). Esses registros foram mantidos na base e serão excluídos automaticamente nas análises que requerem estratificação etária, via na.rm ou drop_na(), sem impacto no total da série temporal agregada.
Tabela 11: Distribuição por método de suicídio (subcódigo CID) — Brasil, 2000–2022
CID
Grupo
N
%
X70
Enforcamento/Arma de fogo
154.426
64.13%
X74
Enforcamento/Arma de fogo
17.507
7.27%
X68
Outros agentes químicos
12.150
5.05%
X80
Precipitação/Afogamento/Outros
8.659
3.6%
X69
Outros agentes químicos
6.656
2.76%
X72
Enforcamento/Arma de fogo
6.560
2.72%
X84
Precipitação/Afogamento/Outros
6.436
2.67%
X64
Intoxicação/Medicamentos
5.388
2.24%
X76
Outros meios mecânicos
4.015
1.67%
X61
Intoxicação/Medicamentos
3.897
1.62%
X78
Outros meios mecânicos
3.888
1.61%
X71
Enforcamento/Arma de fogo
2.722
1.13%
X79
Outros meios mecânicos
1.813
0.75%
X62
Intoxicação/Medicamentos
1.159
0.48%
X73
Enforcamento/Arma de fogo
1.085
0.45%
X82
Precipitação/Afogamento/Outros
1.073
0.45%
X65
Intoxicação/Medicamentos
892
0.37%
X67
Outros agentes químicos
547
0.23%
X83
Precipitação/Afogamento/Outros
527
0.22%
X81
Precipitação/Afogamento/Outros
462
0.19%
X66
Solventes/Gases
265
0.11%
X63
Intoxicação/Medicamentos
237
0.1%
X60
Intoxicação/Medicamentos
226
0.09%
X75
Outros meios mecânicos
107
0.04%
X77
Outros meios mecânicos
105
0.04%
O enforcamento/estrangulamento (X70) é o método predominante, respondendo por 64,8% dos óbitos, padrão consistente com estudos brasileiros (BANDO et al., 2012; MINAYO et al., 2010) e com o perfil de países de baixa e média renda, onde métodos de alta letalidade e amplo acesso predominam (MANN et al., 2005). A elevada proporção de X70 tem implicação direta para a modelagem da série agregada: a dinâmica temporal do total é fortemente determinada por um único subcódigo.
O segundo grupo em frequência é armas de fogo, X71 (revólver), X72 (espingarda/rifle) e X74 (outras armas de fogo) somam aproximadamente 10,7% dos óbitos. A exposição a pesticidas (X68) representa 5,05% do total, marcador típico de contexto rural e agrícola no Brasil, concentrado historicamente nas regiões Sul e Centro-Oeste (BANDO et al., 2012).
Todos os 25 subcódigos CID X60–X84 apresentaram ao menos um registro no período, indicando ausência de subcodificação sistemática de categorias específicas.
Tabela 12: Cruzamento sexo × faixa etária — óbitos totais no período 2000–2022
Sexo
Faixa etária
N
% dentro do sexo
Feminino
< 15 anos
1.477
2.9%
15–29 anos
14.977
29.3%
30–44 anos
15.049
29.4%
45–59 anos
12.292
24%
60+ anos
7.313
14.3%
Masculino
< 15 anos
1.635
0.9%
15–29 anos
54.369
28.7%
30–44 anos
58.669
30.9%
45–59 anos
42.963
22.7%
60+ anos
31.466
16.6%
A distribuição etária se apresentou notavelmente similar entre os sexos: em ambos, as faixas 15–29 anos (~29%) e 30–44 anos (~30–31%) concentram juntas cerca de 60% dos óbitos, com declínio progressivo nas faixas subsequentes. A distribuição
indicou que a diferença entre masculino e feminino não reside no padrão etário do suicídio, que é semelhante, mas na magnitude em todas as faixas, consistente com o paradoxo de gênero descrito na literatura (SCHRIJVERS; BOLLEN; SABBE, 2012).
Uma informação que merece atenção clínica é a proporção de menores de 15 anos: 2,9% do total feminino versus 0,9% do masculino. Em números absolutos, 1.477 óbitos femininos contra 1.635 masculinos nessa faixa, razão M/F de apenas 1,1:1, muito inferior à razão global de 3.71:1. Esse padrão é consistente com estudos internacionais que demonstram que a diferença de sexo no suicídio consumado é menor entre adolescentes do que em adultos (MACHADO; SANTOS, 2015; SCHRIJVERS; BOLLEN; SABBE, 2012). A faixa etária de menores de 15 anos concentra um n reduzido (~3.100 óbitos em 23 anos), o que pode limitar análises estratificadas independentes para esse subgrupo.
Distribuição regional: o Sudeste concentra 37,6% dos óbitos em termos absolutos, seguido de Sul (23,7%) e Nordeste (22,6%). Contudo, a análise por contagem absoluta é influenciada pelo tamanho populacional de cada região. A análise por taxa de mortalidade pode alterar substancialmente esse ranking, especialmente para as regiões Norte e Sul, historicamente distintas no padrão brasileiro de suicídio (BANDO et al., 2012).
Figura 10: Série temporal de óbitos por suicídio e variação percentual anual — Brasil, 2000–2022. Painel A: série por sexo. Painel B: variação anual do total (verde = crescimento; laranja = redução). Faixa cinza: período da pandemia de COVID-19.
Código
tab_serie_yoy |>filter(!is.na(var_pct)) |>select(ano, n_obitos, var_abs, var_pct) |>mutate(n_obitos =format(n_obitos, big.mark =".", trim =TRUE),var_abs =format(var_abs, big.mark =".", trim =TRUE),var_pct =glue("{var_pct}%") ) |>kable(col.names =c("Ano", "N óbitos", "Var. absoluta", "Var. %"),align =c("c", "r", "r", "r")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped", "hover")) |>row_spec(which(tab_serie_yoy$ano[!is.na(tab_serie_yoy$var_pct)] >=2020),background ="#fff3cd") |>footnote(general ="Linhas em amarelo: período da pandemia de COVID-19.",footnote_as_chunk =TRUE)
Tabela 13: Variação anual no total de óbitos por suicídio — Brasil, 2001–2022
Ano
N óbitos
Var. absoluta
Var. %
2001
7.737
959
14.1%
2002
7.722
-15
-0.2%
2003
7.860
138
1.8%
2004
8.017
157
2%
2005
8.549
532
6.6%
2006
8.639
90
1.1%
2007
8.868
229
2.7%
2008
9.328
460
5.2%
2009
9.372
44
0.5%
2010
9.448
76
0.8%
2011
9.851
403
4.3%
2012
10.318
467
4.7%
2013
10.532
214
2.1%
2014
10.652
120
1.1%
2015
11.176
524
4.9%
2016
11.431
255
2.3%
2017
12.490
1.059
9.3%
2018
12.728
238
1.9%
2019
13.518
790
6.2%
2020
13.832
314
2.3%
2021
15.495
1.663
12%
2022
16.461
966
6.2%
Note: Linhas em amarelo: período da pandemia de COVID-19.
A análise da variação anual permitiu identificar quatro fases distintas na dinâmica da série:
Fase 1 (2000–2010): crescimento moderado. Excluindo o salto de 2001 (possivelmente artefato de cobertura, conforme discutido em Seção 7.3), as variações anuais oscilaram entre −0,2% e 5,2%, sem padrão de aceleração evidente. O total cresceu de ~6.800 para ~9.400 óbitos no período.
Fase 2 (2011–2016): aceleração progressiva. O crescimento anual se manteve entre 1,1% e 4,9%, resultando em incremento acumulado de ~17% (de ~9.800 para ~11.400 óbitos). Esse padrão coincidiu com um período de expansão econômica seguida de deterioração das condições sociais no Brasil a partir de 2014–2015, contexto associado na literatura ao agravamento de fatores de risco para saúde mental (LIMA et al., 2020).
Fase 3 (2017–2019): segunda aceleração. O ano de 2017 registrou o maior incremento absoluto do período pré-pandemia: +1.059 óbitos (+9,3%) em um único ano. Esse salto coincidiu com o pico de desemprego da recessão brasileira (2015–2016), corroborando evidências da associação entre crises econômicas e mortalidade por suicídio (MANN et al., 2005). A série atinge 13.518 óbitos em 2019.
Fase 4 (2020–2022): período pandêmico. O comportamento da série durante a pandemia de COVID-19 apresenta padrão bifásico: crescimento moderado em 2020 (+2,3%, +314 óbitos), abaixo da tendência da fase anterior, seguido de salto expressivo em 2021 (+12,0%, +1.663 óbitos), o maior incremento absoluto de toda a série. O ano de 2021 é o segundo ano de pandemia no Brasil, marcado pelo colapso dos sistemas de saúde, segundo pico de mortalidade por COVID-19, prolongamento das restrições sociais e crise econômica agravada. Essa dinâmica é consistente com estudos internacionais que identificaram elevação da mortalidade por suicídio no segundo ano da pandemia em vários países (PIRKIS et al., 2021). Em 2022, o crescimento continuou (+6,2%), encerrando o período com 16.461 óbitos, o maior valor anual da série.
Implicações para a modelagem (cards #6–#8)
Três pontos desta análise exploratória orientaram as etapas de modelagem:
Tendência de crescimento secular sem reversão — a série não registrou redução real em nenhum ano do período. Isso sugere componente de tendência estocástica ou determinística que precisa ser acomodado nos modelos SARIMA e ETS.
Possível quebra estrutural em 2017 e/ou 2021 — os dois maiores saltos absolutos da série ocorreram nesses anos. Testes formais de mudança estrutural (strucchange) devem avaliar se há quebra de nível ou de inclinação nesses pontos.
Efeito COVID como candidato a variável exógena — o comportamento assimétrico de 2020–2021 (moderação seguida de aceleração) é coerente com a hipótese de efeito temporal defasado da pandemia sobre a mortalidade por suicídio (PIRKIS et al., 2021), o que fundamenta a inclusão de uma dummy COVID-19 no modelo ARIMAX.
7.8 Flags de atenção e decisões metodológicas
Código
if (nrow(tab_flags) ==0) {cat("Nenhum flag de atenção identificado. Base dentro dos parâmetros de qualidade pré-definidos.")} else { tab_flags |>kable(col.names =c("Categoria", "Ano", "Variável", "Descrição"),align =c("l", "c", "l", "l")) |>kable_styling(full_width =TRUE, bootstrap_options =c("striped", "hover"))}
?(caption)
Nenhum flag de atenção identificado. Base dentro dos parâmetros de qualidade pré-definidos.
Nenhuma flag de atenção foi disparada. A base final atendeu a todos os critérios de qualidade pré-definidos: nenhuma variável analítica com missings acima de 5%, nenhum ano com total abaixo de 100 registros, e todos os 25 subcódigos CID X60–X84 com ao menos um registro no período.
7.8.1 Decisões metodológicas desta etapa
Tabela 14: Decisões metodológicas da etapa de validação e análise exploratória (ead)
Decisão
Justificativa
Impacto nos próximos scripts
Manter os 592 registros com faixa_etaria = NA na base
N muito pequeno; exclusão causaria viés na série temporal agregada
Excluídos apenas em análises estratificadas por faixa
Não excluir registros de menores de 15 anos
Faixa com achado clínico relevante (razão M/F ≈ 1:1)
Manter em análise agregada; avaliar n para modelagem separada
Tratar 2001 como possível artefato de cobertura
Salto de +14,1% inconsistente com a tendência subsequente
Documentar como limitação no manuscrito; testar sensibilidade excluindo 2000–2001
Manter todos os 23 anos na base (incluindo 2002 e 2005 recuperados)
Dados plausíveis e consistentes com a tendência da série
A análise descritiva foi conduzida em dois níveis complementares. O bloco analítico calculou taxas brutas mensais e anuais, decompôs as séries pela técnica STL (Seasonal Trend descomposition using Loess) e avaliou formalmente a sazonalidade, fornecendo insumos diretos para a modelagem. O bloco descritivo calculou taxas estratificadas por faixa etária e macrorregião.
Fórmula da taxa bruta:\(\text{Taxa}_t = \frac{D_t}{P_t} \times 10^5\). Para as taxas mensais, o denominador foi \(P_{\text{anual}}/12\), abordagem padrão na literatura epidemiológica para séries mensais de mortalidade (brasil_datasus?).
Figura 11: Taxa bruta de mortalidade por suicídio por 100.000 habitantes — Brasil, 2000–2022, por sexo. Faixa cinza: período da pandemia de COVID-19.
A taxa bruta de mortalidade por suicídio cresceu de 3.99 para 8.11 por 100.000 habitantes entre 2000 e 2022, incremento de 103.3%. A razão de taxas M/F oscilou entre 3.643 e 4.124 sem tendência sistemática, consistente com o gender paradox do suicídio (SCHRIJVERS; BOLLEN; SABBE, 2012).
Tabela 15: Comparativo de critérios para escolha da granularidade da série para modelagem
Critério
Série anual
Série mensal
Número de observações (n)
23
276
Autocorrelação máxima nos primeiros lags
0.739
0.904
Coeficiente de variação da série
0.188
0.194
Sazonalidade detectável
Não (frequency=1)
Sim (testes formais)
Componente sazonal SARIMA possível
Não (sem ciclo sazonal)
Sim — SARIMA(p,d,q)(P,D,Q)[12]
Risco de overfitting (série curta)
Alto
Baixo
Padrão predominante na literatura de suicídio
Frequente em estudos nacionais
Frequente em análises de intervenção
Granularidade adotada para modelagem
Secundária (comparação)
Principal
A série mensal (n=276, frequency=12) foi adotada como série principal para modelagem: autocorrelação máxima de 0,887 vs 0,415 da anual; sazonalidade detectável apenas nessa granularidade. A série anual (n=23) é mantida como comparação para avaliar impacto da granularidade.
Figura 13: Componente de tendência STL por sexo — Brasil, 2000–2022.
A decomposição revelou três características para a modelagem: (1) tendência de crescimento secular em formato de “S” — lento até 2013, aceleração progressiva 2014–2019, novo salto a partir de 2020; (2) sazonalidade aditiva com amplitude ±0,4/100k estável ao longo de todo o período, com picos em jan/mar e vales em jun/jul; (3) resíduo contido em ±0,5 sem outliers extremos após correção do denominador de 2007.
A comparação das tendências por sexo evidencia dinâmicas estruturalmente distintas: a curva masculina é quase horizontal até ~2013 e depois acelera intensamente; a feminina cresce de forma mais suave e linear. Essa heterogeneidade justifica os modelos separados do card #9.
Tabela 16: Testes formais de sazonalidade — série mensal, Brasil, 2000–2022
Teste
Estatística
p-valor
Conclusão
QS (Ljung-Box sazonal)
86.915
0
Sazonalidade detectada
Friedman (fried)
112.467
0
Sazonalidade detectada
Kruskal-Wallis (kw)
132.815
0
Diferença entre meses
Os três testes rejeitam H0 (p < 0,0001). A concordância entre QS (baseado em autocorrelação), Friedman (não-paramétrico) e Kruskal-Wallis fornece evidência inequívoca de sazonalidade mensal. Implicação para modelagem: SARIMA precisa de componente sazonal (P,D,Q)[12]; ETS deve incluir componente sazonal aditivo.
8.6 ACF e PACF — implicações para ordens dos modelos
Figura 14: ACF e PACF da taxa mensal (Total) — Brasil, 2000–2022.
A ACF exibe decaimento lento até lag 36, padrão de raiz unitária, indicando \(d \geq 1\). A PACF apresenta picos nos lags 1, 2 e 12, sugerindo AR(1–2) e sazonalidade AR. Ponto de partida para o auto.arima(): SARIMA(1–2, 1, 0–1)(1, 1, 0)[12].
Decisões metodológicas do card #5
Decisão
Justificativa
Série mensal como principal
n=276 vs 23; sazonalidade detectável; ACF mais rica
Figura 15: Taxa de mortalidade por suicídio por macrorregião — Brasil, 2000–2022.
A análise por taxa inverte o ranking obtido pela contagem absoluta. A região Sul lidera em todo o período (~8/100k em 2000 → ~12,5/100k em 2022). O achado mais relevante é a convergência entre Norte, Nordeste e Sudeste ao final do período (~7/100k em 2022), indicando crescimento proporcionalmente maior nas regiões historicamente mais baixas (BANDO et al., 2012).
Figura 16: Taxa de mortalidade por suicídio por faixa etária — Brasil, 2000–2022. Denominador: população total Brasil (taxa aproximada).
Limitação — taxas por faixa etária
Denominador = população total Brasil, não a população específica de cada faixa (indisponível em série anual contínua nas tabelas IBGE utilizadas). As taxas são adequadas para comparação de tendências relativas, não de taxas absolutas. O denominador ideal (Tab. 7358) está reservado para análise futura.
A faixa 30–44 anos liderou em todo o período. Destaque para a 60+ anos, que apresentou a maior aceleração proporcional recente, consistente com o impacto do isolamento social pandêmico sobre idosos (PIRKIS et al., 2021).
INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. Projeções da população: Brasil e Unidades da Federação — revisão 2018: Série Relatórios Metodológicos. Rio de Janeiro: IBGE, 2018. Disponível em: <https://biblioteca.ibge.gov.br/visualizacao/livros/liv101597.pdf>.
ORGANIZAÇÃO PAN-AMERICANA DA SAÚDE. Mortalidade por suicídio e implementação de estratégias para sua prevenção. Washington, D.C.: OPAS, 2021. Disponível em: <https://iris.paho.org/handle/10665.2/55217>.
---title: "Projeto ANUBIS — Notas Analíticas Preliminares"subtitle: "Dados, análises, modelagens, discussões e tomadas de decisões"author: "Majory Melo e Henrique Pegorari"date: todaydate-format: "DD [de] MMMM [de] YYYY"categories: - "R" - "Ciência de dados" - "Visualização de dados" - "Artigo"lang: ptbibliography: referencias.bibcsl: abnt.cslformat: html: toc: true toc-depth: 10 toc-title: "Sumário" toc-location: right number-sections: true theme: cosmo code-fold: true code-summary: "Mostrar código" code-tools: true highlight-style: github output-file: index.html output-dir: ../docs embed-resources: true fig-width: 10 fig-height: 6 fig-dpi: 150 fig-align: center df-print: kable css: | body { font-family: 'Georgia', serif; font-size: 15px; line-height: 1.7; } h1, h2, h3 { font-family: 'Helvetica Neue', sans-serif; } .callout { margin: 1.2em 0; } .tabela-manuscrito { font-size: 13px; }execute: echo: true warning: false message: false cache: false---```{r setup}#| include: falselibrary(tidyverse)library(scales)library(knitr)library(kableExtra)library(glue)library(here)# Caminhos do projeto Anubiscaminho_base <- here::here()caminho_tabelas <-file.path(caminho_base, "tabelas")caminho_figuras <-file.path(caminho_base, "imagens")caminho_limpos <-file.path(caminho_base, "dados", "limpos")caminho_brutos <-file.path(caminho_base, "dados", "brutos")# Dados populacionais (scripts 01–02)ancoras <-read_csv(file.path(caminho_tabelas, "tab00_ancoras_censitarias.csv"),show_col_types =FALSE) envelope <-read_csv(file.path(caminho_tabelas, "tab01_envelope_demografico.csv"),show_col_types =FALSE)diag_spline <-read_csv(file.path(caminho_tabelas, "tab02_resumo_spline.csv"),show_col_types =FALSE) |>mutate(ano_pior =as.integer(ano_pior))comp_metodos <-read_csv(file.path(caminho_tabelas, "tab03_comparacao_metodos.csv"),show_col_types =FALSE)comparacao <-read_csv(file.path(caminho_limpos, "comparacao_metodos_interpolacao.csv"),show_col_types =FALSE)pop_final <-read_csv(file.path(caminho_limpos, "populacao_ibge_tratada.csv"),show_col_types =FALSE)# Dados SIM — EDA (script 03b)tab_cobertura <-read_csv(file.path(caminho_tabelas, "eda_sim","tab_cobertura_temporal.csv"),show_col_types =FALSE)tab_cid <-read_csv(file.path(caminho_tabelas, "eda_sim","tab_cid_subcod.csv"),show_col_types =FALSE)tab_dist <-read_csv(file.path(caminho_tabelas, "eda_sim","tab_distribuicao_vars.csv"),show_col_types =FALSE)tab_cruz <-read_csv(file.path(caminho_tabelas, "eda_sim","tab_cruzamento_sexo_faixa.csv"),show_col_types =FALSE)tab_serie <-read_csv(file.path(caminho_tabelas, "eda_sim","tab_serie_bruta.csv"),show_col_types =FALSE)tab_flags <-read_csv(file.path(caminho_tabelas, "eda_sim","tab_flags_atencao.csv"),show_col_types =FALSE)tab_resumo_eda <-read_csv(file.path(caminho_tabelas, "eda_sim","tab_resumo_eda.csv"),show_col_types =FALSE)# Série YoY (total)tab_serie_yoy <- tab_serie |>filter(sexo_label =="Total") |>arrange(ano) |>mutate(var_abs = n_obitos -lag(n_obitos),var_pct =round(100* (n_obitos /lag(n_obitos) -1), 1) )# Constantes derivadas — populacionaisn_fora_spline <-sum(diag_spline$n_anos_fora)dif_max_global <-max(comp_metodos$dif_max_pp)regiao_max_dif <- comp_metodos$local[which.max(comp_metodos$dif_max_pp)]ano_max_dif <- comp_metodos$ano_max_dif[which.max(comp_metodos$dif_max_pp)]# Constantes derivadas — SIMtotal_obitos <- tab_cobertura |>summarise(s =sum(Total)) |>pull(s)n_masc <- tab_dist |>filter(variavel =="Sexo", categoria =="Masculino") |>pull(n)n_fem <- tab_dist |>filter(variavel =="Sexo", categoria =="Feminino") |>pull(n)pct_masc <- tab_dist |>filter(variavel =="Sexo", categoria =="Masculino") |>pull(pct)razao_mf_total <-round(n_masc / n_fem, 2)maior_salto_abs <- tab_serie_yoy |>filter(!is.na(var_abs)) |>slice_max(var_abs, n =1)```---::: {.callout-note}## Sobre este documentoEste arquivo registra observações e análises preliminares do **Projeto ANUBIS**— estudo de séries temporais de suicídio no Brasil (2000–2022). O objetivo é documentar decisões metodológicas e fornecer evidências para a redação do manuscrito.Repositório: [github.com/EnigmaMajoris/anubis](https://github.com/EnigmaMajoris/anubis)Project board: [github.com/users/EnigmaMajoris/projects/2](https://github.com/users/EnigmaMajoris/projects/2/views/2):::---# Visão geral da estratégia populacionalA construção da base populacional seguiu uma estratégia em dois níveis distintos:**Nível 1 — Totais populacionais anuais:** foram obtidos integralmente de fontesobservadas, sem imputação. Para os anos censitários e de contagem (2000, 2007,2010 e 2022), os totais provieram diretamente dos levantamentos do IBGE. Para osdemais anos (2001–2006 e 2008–2021), foram utilizadas as estimativas intercensitárias da Tabela SIDRA 6579.**Nível 2 — Desagregação por sexo nos anos intermediários:** as proporçõesmasculina e feminina foram interpoladas a partir de quatro âncoras observadas(2000, 2007, 2010 e 2022) e aplicadas sobre os totais do Nível 1.A principal decisão metodológica desta etapa, a escolha do método deinterpolação das proporções por sexo, é documentada em detalhe na @sec-comparacao-metodos.## Fontes utilizadas| Fonte | Tabela SIDRA | Cobertura | Variáveis ||---|---|---|---|| Censo Demográfico 2000 | Tab. 200 | Nacional por macrorregião | Total, homens, mulheres || Contagem da População 2007 | Tab. 794 | Municípios ≤ 170 mil hab. | Total, homens, mulheres || Censo Demográfico 2010 | Tab. 200 | Nacional por macrorregião | Total, homens, mulheres || Estimativas anuais 2001–2021 | Tab. 6579 | Nacional por macrorregião | Total || Censo Demográfico 2022 | Tab. 9514 | Nacional por macrorregião | Total, homens, mulheres |: Fontes populacionais utilizadas na construção da série 2000–2022 {#tbl-fontes}---# A Contagem da População de 2007 {#sec-contagem2007}## Por que o total de 2007 diverge dos anos adjacentes?Ao visualizar a série do Brasil, o ano de 2007 apresentou um total de**`r format(ancoras |> filter(local == "Brasil", ano == 2007) |> pull(populacao_total), big.mark = ".", decimal.mark = ",")`pessoas** — muito abaixo dos ~186 milhões de 2006 e ~189 milhões de 2008. Essevalor não foi erro de processamento, mas refletiu a natureza da operação censitária.::: {.callout-important}## Explicação oficial — IBGE (2007)A Contagem da População de 2007 não cobriu todos os municípios brasileiros.Por razões orçamentárias, o levantamento de campo foi restrito aos**municípios com até 170 mil habitantes**, universo que na época correspondiaa 5.435 dos 5.564 municípios existentes. Para os **129 municípios excluídos**— todos de grande porte, predominantemente metropolitanos — o IBGE produziuestimativas separadas com metodologia própria.**Fonte:** IBGE. *Contagem da População 2007: primeiros resultados*. Rio deJaneiro: IBGE, 2007. Disponível em:[biblioteca.ibge.gov.br/visualizacao/livros/liv37666.pdf](https://biblioteca.ibge.gov.br/visualizacao/livros/liv37666.pdf)**Fonte complementar:** IBGE. *Metodologia do Censo Demográfico 2010*. Rio deJaneiro: IBGE, 2013. p. 28–30. (Série Relatórios Metodológicos, v. 41).Disponível em:[biblioteca.ibge.gov.br/visualizacao/livros/liv52675.pdf](https://biblioteca.ibge.gov.br/visualizacao/livros/liv52675.pdf):::O valor de `r format(ancoras |> filter(local == "Brasil", ano == 2007) |> pull(populacao_total), big.mark = ".", decimal.mark = ",")` pessoascorresponde, portanto, à **população efetivamente recenseada de campo** —não à população total do Brasil em 2007. Por esse motivo, o total de 2007proveniente da Contagem **não foi utilizado como denominador** nas taxas demortalidade; essa função foi exercida pelas estimativas anuais da Tabela 6579,que forneceu valores completos e metodologicamente consistentes para todos osanos, inclusive 2007.## Papel da Contagem 2007 neste projetoA Contagem de 2007 foi utilizada **exclusivamente como âncora para interpolaçãodas proporções por sexo**, não dos totais populacionais. Essa distinção foifundamental: o que nos interessa de 2007 é a relação observada entre homense mulheres, não o total absoluto recenseado.```{r ancoras-2007}#| label: tbl-ancoras-2007#| tbl-cap: "Proporções por sexo nas quatro âncoras censitárias — Brasil"ancoras |>filter(local =="Brasil") |>mutate(fonte =case_when( ano ==2000~"Censo 2000", ano ==2007~"Contagem 2007*", ano ==2010~"Censo 2010", ano ==2022~"Censo 2022" ),`% Masculino`=round(prop_masc *100, 3),`% Feminino`=round(prop_fem *100, 3),`Total`=format(populacao_total, big.mark =".", decimal.mark =",") ) |>select(Ano = ano, Fonte = fonte, `Total`, `% Masculino`, `% Feminino`) |>kable(align =c("c","l","r","c","c")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped","hover")) |>footnote(symbol ="Cobertura parcial: municípios com ≤ 170 mil habitantes (IBGE, 2007).",footnote_as_chunk =TRUE )```## Implicação metodológica: viés de seleção nas proporções de 2007A exclusão dos 129 municípios grandes da Contagem levanta uma questão legítima:**as proporções por sexo calculadas a partir da amostra coberta sãorepresentativas da população total?**Municípios de grande porte e metropolitanos tendem a concentrar **maiorproporção feminina**, em razão dos padrões históricos de migração internabrasileira, onde mulheres migram em maior proporção para centros urbanos embusca de trabalho doméstico e serviços [@simoes2016]. A exclusão dessesmunicípios poderia, em tese, superestimar a proporção masculina na Contagem.Contudo, dois argumentos sustentaram a manutenção da Contagem como âncora:1. **Comparação com os Censos adjacentes:** a proporção masculina da Contagem2007 para o Brasil foi de**`r round(ancoras |> filter(local=="Brasil", ano==2007) |> pull(prop_masc)*100, 2)`%**,valor intermediário entre o Censo 2000(`r round(ancoras |> filter(local=="Brasil", ano==2000) |> pull(prop_masc)*100, 2)`%)e o Censo 2010(`r round(ancoras |> filter(local=="Brasil", ano==2010) |> pull(prop_masc)*100, 2)`%),o que é demograficamente coerente com a tendência de feminização progressivada população brasileira [@ibge2022projecoes].2. **Análise de sensibilidade (@sec-sensibilidade):** a inclusão da Contagem 2007 como âncora reduz o intervalo máximo sem referência de 22 anos (2000–2022) para dois segmentos de no máximo 10 anos (2000–2010 e 2010–2022), aumentandosubstancialmente a fidelidade da interpolação.---# Comparação de métodos de interpolação {#sec-comparacao-metodos}## Contexto da decisãoPara os anos intermediários entre as âncoras censitárias, as proporções por sexoforam estimadas por interpolação. Dois métodos foram avaliados em paralelo sobreas mesmas âncoras e os mesmos dados:- **Spline cúbica natural** (`zoo::na.spline`): ajusta polinômios de grau 3 entre os pontos de ancoragem, minimizando a curvatura total da série. É o método de interpolação mais suave e frequentemente adotado em séries demográficas[@hyndman2018forecasting].- **Interpolação linear por partes** (`zoo::na.approx`): conecta as âncoras por segmentos de reta, sem curvatura adicional. É o método mais conservador e matematicamente mais simples.A escolha entre os métodos foi feita com base em critérios objetivos, documentadosa seguir.## Envelope demográfico das âncorasO critério principal de avaliação foi a **permanência dentro do envelopedemográfico** — faixa definida pelos valores mínimo e máximo de proporçãomasculina observados nas quatro âncoras, acrescidos de margem de tolerância de0,5 ponto percentual por região.```{r envelope}#| label: tbl-envelope#| tbl-cap: "Envelope demográfico de plausibilidade por macrorregião (proporção masculina × 100)"envelope |>mutate(across(where(is.numeric), ~round(.x, 3))) |>rename( Região = local,`Mín observado`= prop_masc_min_obs,`Máx observado`= prop_masc_max_obs,`Limite inferior`= prop_masc_min,`Limite superior`= prop_masc_max ) |>kable(align =c("l","c","c","c","c")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped","hover")) |>add_header_above(c(" "=1,"Âncoras observadas"=2,"Envelope (± 0,5 p.p.)"=2))```## Figura 1 — Trajetórias comparadas por regiãoA figura abaixo apresenta as trajetórias produzidas por cada método para o Brasile as cinco macrorregiões, com o envelope demográfico sombreado, as âncorasobservadas destacadas e os casos de extrapolação da spline marcados.```{r fig1}#| label: fig-spline-vs-linear#| fig-cap: "Proporção masculina interpolada por método — Brasil e macrorregiões, 2000–2022. Faixa cinza: envelope demográfico (âncoras ± 0,5 p.p.). Linha azul: interpolação linear. Linha tracejada: spline cúbica."#| out-width: "100%"knitr::include_graphics(file.path(caminho_figuras, "fig01_proporcoes_spline_vs_linear.png"))```A spline cúbica produziu trajetórias claramente não-plausíveis em quatro das seisregiões: após atingir um pico artificial em torno de 2005 (efeito da curvaturainduzida pelo intervalo curto de apenas três anos entre as âncoras de 2007 e 2010),a série despencou acentuadamente até 2017–2018, ultrapassando os limites inferioresdo envelope. A interpolação linear, por contraste, acompanhou a tendência geral desuave declínio na proporção masculina sem oscilações espúrias.## Diagnóstico quantitativo da spline```{r diag-spline}#| label: tbl-diag-spline#| tbl-cap: "Diagnóstico da spline cúbica por macrorregião — anos interpolados"diag_spline |>mutate(desvio_max_pp =round(desvio_max_pp, 4),ano_pior =ifelse(is.na(ano_pior), "—", as.character(ano_pior)) ) |>rename( Região = local,`Anos fora do envelope (n)`= n_anos_fora,`Desvio máx. (p.p.)`= desvio_max_pp,`Ano do maior desvio`= ano_pior ) |>kable(align =c("l","c","c","c")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped","hover")) |>row_spec(which(diag_spline$n_anos_fora >0), background ="#FFF3CD")```::: {.callout-warning}## Concentração do problema no SudesteA região Sudeste concentrou **`r diag_spline |> filter(local=="Sudeste") |> pull(n_anos_fora)` dos`r n_fora_spline` casos** de extrapolação, com desvio máximo de**`r round(diag_spline |> filter(local=="Sudeste") |> pull(desvio_max_pp), 3)` p.p.**em 2017. Essa concentração não foi aleatória: o Sudeste possui as maiores metrópolesdo país, exatamente os municípios excluídos da Contagem 2007, o que ampliou oimpacto do viés de seleção daquela fonte na âncora de 2007 e, consequentemente,na curvatura da spline naquele segmento.:::## Figura 2 — Overshoot da spline por região```{r fig2}#| label: fig-overshoot#| fig-cap: "Desvio da spline cúbica em relação ao envelope demográfico — anos interpolados. Barras laranjas: casos de extrapolação além do limite do envelope."#| out-width: "100%"knitr::include_graphics(file.path(caminho_figuras, "fig02_overshoot_spline.png"))```A figura confirma que o overshoot é um fenômeno **concentrado temporalmente**(2012–2021) e **regionalmente** (Sudeste e, em menor grau, Brasil agregado),não distribuído aleatoriamente ao longo da série. Esse padrão é consistente coma explicação geométrica: o intervalo de apenas três anos entre as âncoras de 2007e 2010 força a spline a fazer uma inflexão abrupta, com propagação de curvaturaespúria para os anos subsequentes.## Figura 3 — Diferença absoluta entre métodos```{r fig3}#| label: fig-diferenca#| fig-cap: "Diferença absoluta entre spline cúbica e interpolação linear (p.p.) — anos interpolados. Representa o erro que seria introduzido nas proporções caso a spline fosse adotada."#| out-width: "100%"knitr::include_graphics(file.path(caminho_figuras, "fig03_diferenca_absoluta_metodos.png"))``````{r comp-metodos}#| label: tbl-comp-metodos#| tbl-cap: "Diferença entre spline cúbica e interpolação linear por macrorregião"comp_metodos |>mutate(dif_media_pp =round(dif_media_pp, 3),dif_max_pp =round(dif_max_pp, 3) ) |>rename( Região = local,`Dif. média (p.p.)`= dif_media_pp,`Dif. máx. (p.p.)`= dif_max_pp,`Ano da maior diferença`= ano_max_dif ) |>kable(align =c("l","c","c","c")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped","hover")) |>row_spec(1, bold =TRUE, background ="#F8D7DA")```A maior divergência entre os métodos atingiu**`r round(dif_max_global, 3)` p.p.** na região **`r regiao_max_dif`** em**`r ano_max_dif`**. Em termos populacionais, esse desvio corresponderia a um errode aproximadamente **`r format(round(pop_final |> filter(local == regiao_max_dif, ano == ano_max_dif) |> pull(populacao_total) * dif_max_global / 100), big.mark=".", decimal.mark=",")`pessoas** na desagregação por sexo naquele ano, magnitude relevante paradenominadores de taxas de mortalidade em estudos de séries temporais.## Quadro comparativo final {#sec-quadro-comparativo}```{r quadro-final}#| label: tbl-quadro-final#| tbl-cap: "Comparação entre spline cúbica e interpolação linear — critérios de seleção do método"tibble( Critério =c("Anos/região fora do envelope demográfico","Inflexões não-monotônicas detectadas","Desvio máximo do envelope (p.p.)","Maior divergência entre métodos (p.p.)","Região/ano crítico","Garantia de monotonia por segmento","Método adotado para a série final" ),`Spline cúbica`=c(glue("{n_fora_spline} casos"),"12 inflexões",glue("{round(max(diag_spline$desvio_max_pp), 3)}"),glue("{round(dif_max_global, 3)}"),glue("{regiao_max_dif} / {ano_max_dif}"),"❌ Não","❌ Não" ),`Interpolação linear`=c("0 casos","0 (por definição)","—","0 (referência)","—","✅ Sim","✅ Sim" )) |>kable(align =c("l","c","c")) |>kable_styling(full_width =TRUE, bootstrap_options =c("striped","hover")) |>row_spec(7, bold =TRUE, background ="#D4EDDA") |>column_spec(1, width ="50%")```::: {.callout-tip}## Justificativa metodológica — rascunho para o manuscritoA desagregação da população por sexo nos anos intermediários foi realizada por**interpolação linear por partes** das proporções masculina e femininacalculadas nas quatro âncoras censitárias observadas (Censos de 2000, 2010 e2022; Contagem da População de 2007). Dois métodos foram avaliados em paralelo,spline cúbica natural e interpolação linear, sobre as mesmas âncoras e o mesmoperíodo.A spline cúbica produziu extrapolações fora do envelope demográfico plausívelem **`r n_fora_spline` combinações** ano-região (de 114 avaliadas), com desviomáximo de **`r round(max(diag_spline$desvio_max_pp), 3)` p.p.** na regiãoSudeste em 2017, e apresentou **12 inflexões não-monotônicas**. O fenômeno foiatribuído ao intervalo de apenas três anos entre as âncoras de 2007 e 2010, queinduziu curvatura excessiva com propagação de artefato para os anos subsequentes.A maior divergência entre os dois métodos atingiu **`r round(dif_max_global, 3)` p.p.**no Sudeste em `r ano_max_dif`.A interpolação linear permaneceu integralmente dentro do envelope em todas ascombinações ano-região avaliadas e, por ser monotônica em cada segmento pordefinição matemática, não gerou inflexões espúrias (curva artificial) . Em face desses resultados,a interpolação linear foi adotada como método para a série final.:::---# Análise de sensibilidade — âncora de 2007 {#sec-sensibilidade}```{r fig4}#| label: fig-sensibilidade#| fig-cap: "Análise de sensibilidade — impacto de incluir a Contagem 2007 como âncora. Comparação entre interpolação linear com e sem a âncora de 2007."#| out-width: "100%"knitr::include_graphics(file.path(caminho_figuras, "fig04_sensibilidade_2007.png"))```A @fig-sensibilidade mostra que a inclusão da Contagem 2007 gerou umainflexão visível na série linear em algumas regiões, especialmente Sudeste eSul, onde a proporção da Contagem de 2007 é ligeiramente superior à tendênciaesperada entre 2000 e 2010. Isso é consistente com o viés de seleção discutidona @sec-contagem2007: a exclusão dos municípios maiores tende a superestimarlevemente a proporção masculina na Contagem.Contudo, a diferença entre as duas configurações é **demograficamente pequena**para a maioria das regiões, e a inclusão da Contagem é metodologicamentepreferível por dois motivos: (1) ancora a interpolação em dado de campo observado,e (2) divide o intervalo de 22 anos em dois segmentos menores, reduzindo aincerteza da estimativa intercensitária.::: {.callout-note}## Nota para discussãoA pergunta previsível é: *"se a Contagem 2007 tem cobertura parcial, por queusá-la como âncora?"*A resposta é que **a alternativa (não usar a Contagem e interpolar entre 2000e 2010) também tem limitações**, e mais graves: produz uma série baseada em umúnico segmento de 10 anos sem referência intermediária observada. A Contagem 2007,apesar da cobertura parcial, é a única fonte de campo disponível para o períodointercensitário, e suas proporções por sexo são biologicamente plausíveis ecoerentes com a tendência entre 2000 e 2010. A análise de sensibilidade documentaformalmente o impacto de incluí-la, permitindo que o leitor avalie a robustezdas escolhas.:::---# Proporções observadas nas âncoras censitárias {#sec-ancoras}```{r fig5}#| label: fig-ancoras#| fig-cap: "Proporção masculina observada nas quatro âncoras censitárias — Brasil e macrorregiões. Pontos: valores diretamente observados nos levantamentos do IBGE."#| out-width: "100%"knitr::include_graphics(file.path(caminho_figuras, "fig05_ancoras_censitarias.png"))```A @fig-ancoras evidencia dois padrões relevantes para a discussão metodológica:1. **Tendência de feminização progressiva:** em todas as regiões, a proporção masculina declina ao longo do período, de forma mais acentuada entre 2010 e 2022. Esse padrão é consistente com a literatura demográfica brasileira e com as projeções do IBGE [@ibge2018projecoes].2. **Variação máxima inferior a 2 p.p.:** em nenhuma região a diferença entre a maior e a menor proporção masculina observada supera 2 pontos percentuais ao longo de 22 anos. Esse estreitamento da faixa de variação confirma que métodos conservadores de interpolação são adequados. A suavidade adicional da spline não traz benefício analítico que justifique o risco de extrapolação.```{r ancoras-todas}#| label: tbl-ancoras-todas#| tbl-cap: "Proporções masculinas observadas nas quatro âncoras censitárias — todas as regiões"ancoras |>mutate(fonte =case_when( ano ==2000~"Censo 2000", ano ==2007~"Contagem 2007*", ano ==2010~"Censo 2010", ano ==2022~"Censo 2022" ),`% Masculino`=round(prop_masc *100, 3) ) |>select(Região = local, Ano = ano, Fonte = fonte, `% Masculino`) |>pivot_wider(names_from =c(Ano, Fonte),values_from =`% Masculino`,names_glue ="{Ano}\n{Fonte}" ) |>kable(align ="lcccc") |>kable_styling(full_width =FALSE, bootstrap_options =c("striped","hover")) |>footnote(symbol ="Cobertura parcial: municípios com ≤ 170 mil habitantes.",footnote_as_chunk =TRUE )```---# Série populacional final {#sec-serie-final}```{r serie-brasil}#| label: tbl-serie-brasil#| tbl-cap: "Série populacional final — Brasil, 2000–2022 (interpolação linear adotada)"pop_final |>filter(local =="Brasil") |>mutate(prop_masc =round(pop_masculino / populacao_total *100, 3),across(c(populacao_total, pop_masculino, pop_feminino),~format(.x, big.mark =".", decimal.mark =",")) ) |>select(Ano = ano,`Total`= populacao_total,`Masculino`= pop_masculino,`Feminino`= pop_feminino,`% Masc.`= prop_masc ) |>kable(align =c("c","r","r","r","c")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped","hover")) |>row_spec(which(pop_final |>filter(local=="Brasil") |>pull(ano) ==2007),background ="#FFF3CD") |>footnote(general ="Linha em amarelo: ano da Contagem da População (total observado na operação censitária, não estimativa da população total do Brasil).",footnote_as_chunk =TRUE )```---# Validação e análise exploratória dos microdados SIM {#sec-eda-sim}## Contexto e fonte de dadosOs microdados de mortalidade utilizados neste estudo provêm do **Sistema deInformações sobre Mortalidade (SIM)**, mantido pelo Ministério da Saúde edisponibilizado pelo DATASUS [@datasus2024sim]. O SIM é a principal fontenacional de dados sobre causas de morte no Brasil e opera com base naDeclaração de Óbito (DO), documento padronizado pelo Ministério da Saúdepreenchido por médico atestante [@datasus2024sim]. A codificação das causasde óbito segue a Classificação Internacional de Doenças — décima revisão (CID-10).O acesso e o pré-processamento dos microdados foram realizados com o pacote`microdatasus`[@microdatasus2019] para a linguagem R, que automatiza odownload por Unidade da Federação e decodifica as variáveis conforme osdicionários oficiais do DATASUS. Os registros de suicídio foram definidos peloscódigos CID-10 **X60 a X84** — "lesões autoprovocadas intencionalmente" —,categoria que engloba todos os métodos de suicídio consumado registrados nosistema [@who2021suicide].::: {.callout-note}## Decisão de design do pipeline (v10.0)Por limitação de memória RAM (o arquivo bruto do SIM para o período 2000–2022contém aproximadamente 26 milhões de registros), o filtro CID X60–X84 foiaplicado individualmente em cada ano durante o download, antes da consolidaçãodos arquivos. O arquivo resultante `sim_suicidio_2000_2022.rds` contémexclusivamente registros de suicídio (~240 mil linhas), tornando o pipelinereproduzível em máquinas com recursos computacionais limitados. O script`03_clean_dados.R` re-aplica o filtro como verificação de integridade.:::## Resumo da limpeza e validação {#sec-resumo-limpeza}```{r tbl-resumo-eda}#| label: tbl-resumo-eda#| tbl-cap: "Resumo da validação e limpeza dos microdados SIM — Brasil, 2000–2022"tab_resumo_eda |>kable(col.names =c("Item", "Valor"), align =c("l", "r")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped", "hover"))```O processo de limpeza resultou em perdas mínimas: dos **`r format(240844, big.mark=".")`**registros com CID X60–X84 presentes no arquivo bruto, apenas **42 foram excluídos**(0,02%), sendo 2 por data de óbito inválida e 40 por sexo não informado oucodificado fora das categorias válidas. A base final contém**`r format(total_obitos, big.mark=".")` óbitos** por suicídio no período2000–2022. Nenhuma flag de atenção foi disparado pelos critérios de qualidadepré-definidos; nenhuma variável analítica superou 5% de valores ausentes etodos os 25 subcódigos CID X60–X84 apresentaram ao menos um registro.::: {.callout-important}## Limitação: ausência de dados em 2002 e 2005Na execução original do script de download, os anos **2002 e 2005** não foramincorporados ao arquivo bruto em razão de um problema de codificação (*encoding*)em arquivos `.dbc` desses anos — bytes inválidos no padrão `latin1` interrompiamsilenciosamente o processamento pelo `process_sim()`, retornando `NULL` semmensagem de erro explícita. O problema foi identificado durante a análiseexploratória (ausência desses anos na tabela de cobertura) e corrigido na versão10.0 do script `01_download_dados.R`, que passou a aplicar `iconv()` com`sub = "byte"` antes do processamento. Os dados de 2002 (7.722 registros) e2005 (8.549 registros) foram recuperados e confirmados como plausíveis pelacontinuidade da tendência da série.:::## Cobertura temporal {#sec-cobertura-temporal}```{r fig06-cobertura}#| label: fig-cobertura-temporal#| fig-cap: "Óbitos por suicídio (CID X60–X84) por sexo — Brasil, 2000–2022. Linha tracejada: total. Faixa cinza: período da pandemia de COVID-19 (2020–2022)."#| out-width: "100%"knitr::include_graphics(file.path(caminho_figuras, "eda_sim", "fig_cobertura_temporal.png"))``````{r tbl-cobertura}#| label: tbl-cobertura-temporal#| tbl-cap: "Óbitos por suicídio por ano e sexo — Brasil, 2000–2022"tab_cobertura |>mutate(across(c(Feminino, Masculino, Total),~format(., big.mark =".", trim =TRUE))) |>kable(col.names =c("Ano", "Feminino", "Masculino", "Total"),align =c("c", "r", "r", "r")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped", "hover")) |>row_spec(which(tab_cobertura$ano >=2020), background ="#fff3cd") |>footnote(general ="Linhas em amarelo: período da pandemia de COVID-19.",footnote_as_chunk =TRUE)```A série apresentou **crescimento secular ininterrupto** entre 2000 e 2022, com ototal de óbitos passando de **6.778 em 2000** para **16.461 em 2022** — aumentode 143% em 22 anos. Esse crescimento é consistente com as tendências documentadasna literatura nacional [@lovisi2009; @minayo2010; @ribeiro2018] e internacional[@who2021suicide; @opas2021], embora parte do incremento inicial possa refletirmelhora progressiva da cobertura e da qualidade de codificação do SIM nosprimeiros anos da série (2000–2003), fenômeno já documentado para causas externas[@lovisi2009].A razão masculino/feminino manteve-se estável em aproximadamente**`r razao_mf_total`:1** ao longo de todo o período, resultado coerente com odenominado *paradoxo de gênero no suicídio*: homens morrem por suicídio emproporção muito superior às mulheres, embora estas apresentem maiores taxas detentativas [@schrijvers2012; @nock2008].::: {.callout-warning}## Nota metodológica — ano de 2001O salto de **+14,1%** observado entre 2000 e 2001 é o maior da série eprovavelmente reflete **melhora de cobertura do SIM**, e não um aumento realde óbitos. O SIM operou em regime de implementação gradual ao longo dosprimeiros anos da série CID-10; a cobertura de causas externas, categoriaque inclui o suicídio, tende a ser subnotificada nos anos iniciais deoperação de sistemas de informação em saúde [@lovisi2009]. Esse ponto serátratado como limitação metodológica no manuscrito.:::## Completude das variáveis {#sec-completude}```{r fig07-completude}#| label: fig-completude#| fig-cap: "Percentual de valores ausentes por variável — comparação entre a base pós-filtro CID e a base limpa final. Linha tracejada vermelha: limiar de alerta (5%)."#| out-width: "90%"knitr::include_graphics(file.path(caminho_figuras, "eda_sim", "fig_completude.png"))```A completude da base é elevada em todas as variáveis analíticas. A únicavariável com percentual de missing acima de zero na base limpa é `faixa_etaria`(0,25%), decorrente de 592 registros com `IDADE` ausente ou com valor fora dopadrão de codificação esperado (prefixo `4xx` para anos completos). Essesregistros foram **mantidos na base** e serão excluídos automaticamente nasanálises que requerem estratificação etária, via `na.rm` ou `drop_na()`,sem impacto no total da série temporal agregada.## Distribuição dos subcódigos CID X60–X84 {#sec-cid}```{r fig08-cid}#| label: fig-cid-subcod#| fig-cap: "Frequência por subcódigo CID X60–X84 — Brasil, 2000–2022. Nenhum subcódigo apresentou frequência zero."#| out-width: "100%"knitr::include_graphics(file.path(caminho_figuras, "eda_sim", "fig_cid_subcod.png"))``````{r tbl-cid}#| label: tbl-cid-metodos#| tbl-cap: "Distribuição por método de suicídio (subcódigo CID) — Brasil, 2000–2022"tab_cid |>arrange(desc(n)) |>mutate(n =format(n, big.mark =".", trim =TRUE),pct =glue("{pct}%") ) |>select(`CID`= CAUSABAS_3,`Grupo`= grupo_cid,`N`= n,`%`= pct ) |>kable(align =c("c", "l", "r", "r")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped", "hover")) |>row_spec(1, bold =TRUE, background ="#D4EDDA")```O **enforcamento/estrangulamento (X70)** é o método predominante, respondendopor **64,8% dos óbitos**, padrão consistente com estudos brasileiros[@bando2012; @minayo2010] e com o perfil de países de baixa e média renda,onde métodos de alta letalidade e amplo acesso predominam [@mann2005].A elevada proporção de X70 tem implicação direta para a modelagem da sérieagregada: a dinâmica temporal do total é fortemente determinada por um únicosubcódigo.O segundo grupo em frequência é **armas de fogo**, X71 (revólver), X72(espingarda/rifle) e X74 (outras armas de fogo) somam aproximadamente 10,7%dos óbitos. A **exposição a pesticidas (X68)** representa 5,05% do total,marcador típico de contexto rural e agrícola no Brasil, concentradohistoricamente nas regiões Sul e Centro-Oeste [@bando2012].Todos os 25 subcódigos CID X60–X84 apresentaram ao menos um registro noperíodo, indicando ausência de subcodificação sistemática de categoriasespecíficas.## Distribuição das variáveis criadas {#sec-distribuicao}```{r fig09-dist}#| label: fig-distribuicao#| fig-cap: "Óbitos por suicídio segundo sexo e faixa etária — Brasil, 2000–2022. Percentuais indicam a proporção dentro de cada sexo."#| out-width: "100%"knitr::include_graphics(file.path(caminho_figuras, "eda_sim", "fig_distribuicao_vars.png"))``````{r tbl-cruz}#| label: tbl-cruzamento-sexo-faixa#| tbl-cap: "Cruzamento sexo × faixa etária — óbitos totais no período 2000–2022"tab_cruz |>filter(!is.na(faixa_etaria)) |>mutate(n =format(n, big.mark =".", trim =TRUE),pct_dentro_sexo =glue("{pct_dentro_sexo}%") ) |>kable(col.names =c("Sexo", "Faixa etária", "N", "% dentro do sexo"),align =c("l", "l", "r", "r")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped", "hover")) |>collapse_rows(columns =1, valign ="top")```A distribuição etária se apresentou **notavelmente similar entre os sexos**: em ambos, as faixas 15–29 anos (~29%) e 30–44 anos (~30–31%) concentram juntas cerca de 60% dos óbitos, com declínio progressivo nas faixas subsequentes. A distribuição indicou que a diferença entre masculino e feminino não reside no *padrão etário* do suicídio, que é semelhante, mas na *magnitude* em todas as faixas, consistentecom o paradoxo de gênero descrito na literatura [@schrijvers2012].Uma informação que merece atenção clínica é a **proporção de menores de 15 anos**:2,9% do total feminino versus 0,9% do masculino. Em números absolutos, 1.477óbitos femininos contra 1.635 masculinos nessa faixa, razão M/F de apenas1,1:1, muito inferior à razão global de `r razao_mf_total`:1. Esse padrãoé consistente com estudos internacionais que demonstram que a diferença de sexono suicídio consumado é menor entre adolescentes do que em adultos[@machado2015; @schrijvers2012]. A faixa etária de menores de 15 anosconcentra um n reduzido (~3.100 óbitos em 23 anos), o que pode limitar análisesestratificadas independentes para esse subgrupo.**Distribuição regional:** o Sudeste concentra **37,6%** dos óbitos em termosabsolutos, seguido de Sul (23,7%) e Nordeste (22,6%). Contudo, a análise porcontagem absoluta é influenciada pelo tamanho populacional de cada região. A análise por taxa de mortalidade pode alterar substancialmente esse ranking, especialmente para as regiões Norte e Sul, historicamente distintas no padrão brasileiro de suicídio [@bando2012].## Série temporal bruta e variação anual {#sec-serie-bruta}```{r fig10-serie}#| label: fig-serie-bruta#| fig-cap: "Série temporal de óbitos por suicídio e variação percentual anual — Brasil, 2000–2022. Painel A: série por sexo. Painel B: variação anual do total (verde = crescimento; laranja = redução). Faixa cinza: período da pandemia de COVID-19."#| out-width: "100%"knitr::include_graphics(file.path(caminho_figuras, "eda_sim", "fig_serie_bruta.png"))``````{r tbl-yoy}#| label: tbl-variacao-anual#| tbl-cap: "Variação anual no total de óbitos por suicídio — Brasil, 2001–2022"tab_serie_yoy |>filter(!is.na(var_pct)) |>select(ano, n_obitos, var_abs, var_pct) |>mutate(n_obitos =format(n_obitos, big.mark =".", trim =TRUE),var_abs =format(var_abs, big.mark =".", trim =TRUE),var_pct =glue("{var_pct}%") ) |>kable(col.names =c("Ano", "N óbitos", "Var. absoluta", "Var. %"),align =c("c", "r", "r", "r")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped", "hover")) |>row_spec(which(tab_serie_yoy$ano[!is.na(tab_serie_yoy$var_pct)] >=2020),background ="#fff3cd") |>footnote(general ="Linhas em amarelo: período da pandemia de COVID-19.",footnote_as_chunk =TRUE)```A análise da variação anual permitiu identificar quatro fases distintas nadinâmica da série:**Fase 1 (2000–2010): crescimento moderado.** Excluindo o salto de 2001(possivelmente artefato de cobertura, conforme discutido em @sec-cobertura-temporal),as variações anuais oscilaram entre −0,2% e 5,2%, sem padrão de aceleraçãoevidente. O total cresceu de ~6.800 para ~9.400 óbitos no período.**Fase 2 (2011–2016): aceleração progressiva.** O crescimento anual se manteveentre 1,1% e 4,9%, resultando em incremento acumulado de ~17% (de ~9.800 para~11.400 óbitos). Esse padrão coincidiu com um período de expansão econômicaseguida de deterioração das condições sociais no Brasil a partir de 2014–2015,contexto associado na literatura ao agravamento de fatores de risco para saúdemental [@lima2021covid].**Fase 3 (2017–2019): segunda aceleração.** O ano de 2017 registrou o maiorincremento absoluto do período pré-pandemia: **+1.059 óbitos (+9,3%)** em umúnico ano. Esse salto coincidiu com o pico de desemprego da recessão brasileira(2015–2016), corroborando evidências da associação entre crises econômicas emortalidade por suicídio [@mann2005]. A série atinge 13.518 óbitos em 2019.**Fase 4 (2020–2022): período pandêmico.** O comportamento da série durante apandemia de COVID-19 apresenta padrão bifásico: crescimento **moderado em 2020**(+2,3%, +314 óbitos), abaixo da tendência da fase anterior, seguido de**salto expressivo em 2021** (+12,0%, +1.663 óbitos), o maior incrementoabsoluto de toda a série. O ano de 2021 é o segundo ano de pandemia no Brasil,marcado pelo colapso dos sistemas de saúde, segundo pico de mortalidade porCOVID-19, prolongamento das restrições sociais e crise econômica agravada.Essa dinâmica é consistente com estudos internacionais que identificaramelevação da mortalidade por suicídio no segundo ano da pandemia em váriospaíses [@pirkis2021]. Em 2022, o crescimento continuou (+6,2%), encerrandoo período com 16.461 óbitos, o maior valor anual da série.::: {.callout-tip}## Implicações para a modelagem (cards #6–#8)Três pontos desta análise exploratória orientaram as etapasde modelagem:1. **Tendência de crescimento secular sem reversão** — a série não registrou redução real em nenhum ano do período. Isso sugere componente de tendência estocástica ou determinística que precisa ser acomodado nos modelos SARIMA e ETS.2. **Possível quebra estrutural em 2017 e/ou 2021** — os dois maiores saltos absolutos da série ocorreram nesses anos. Testes formais de mudança estrutural (`strucchange`) devem avaliar se há quebra de nível ou de inclinação nesses pontos.3. **Efeito COVID como candidato a variável exógena** — o comportamento assimétrico de 2020–2021 (moderação seguida de aceleração) é coerente com a hipótese de efeito temporal defasado da pandemia sobre a mortalidade por suicídio [@pirkis2021], o que fundamenta a inclusão de uma *dummy* COVID-19 no modelo ARIMAX.:::## Flags de atenção e decisões metodológicas {#sec-flags}```{r tbl-flags}#| label: tbl-flags#| tbl-cap: "Flags de atenção identificados na EDA dos microdados SIM"if (nrow(tab_flags) ==0) {cat("Nenhum flag de atenção identificado. Base dentro dos parâmetros de qualidade pré-definidos.")} else { tab_flags |>kable(col.names =c("Categoria", "Ano", "Variável", "Descrição"),align =c("l", "c", "l", "l")) |>kable_styling(full_width =TRUE, bootstrap_options =c("striped", "hover"))}```**Nenhuma flag de atenção foi disparada.** A base final atendeu a todos oscritérios de qualidade pré-definidos: nenhuma variável analítica com _missings_acima de 5%, nenhum ano com total abaixo de 100 registros, e todos os 25subcódigos CID X60–X84 com ao menos um registro no período.### Decisões metodológicas desta etapa| Decisão | Justificativa | Impacto nos próximos scripts ||---|---|---|| Manter os 592 registros com `faixa_etaria = NA` na base | N muito pequeno; exclusão causaria viés na série temporal agregada | Excluídos apenas em análises estratificadas por faixa || Não excluir registros de menores de 15 anos | Faixa com achado clínico relevante (razão M/F ≈ 1:1) | Manter em análise agregada; avaliar n para modelagem separada || Tratar 2001 como possível artefato de cobertura | Salto de +14,1% inconsistente com a tendência subsequente | Documentar como limitação no manuscrito; testar sensibilidade excluindo 2000–2001 || Manter todos os 23 anos na base (incluindo 2002 e 2005 recuperados) | Dados plausíveis e consistentes com a tendência da série | Pipeline corrigido na v10.0 do script 01 |: Decisões metodológicas da etapa de validação e análise exploratória (ead) {#tbl-decisoes-eda}*Scripts desta etapa: `01_download_dados.R` (v10.0) · `03_clean_dados.R` (v3.0) · `03b_eda_sim.R` (v1.0)*---# Análise descritiva e taxas brutas {#sec-descritiva}```{r setup-descritiva}#| include: false# Dados do card #5 (script 04_analitico_descritivo.R)tab_taxas_anuais <-read_csv(file.path(caminho_tabelas, "analitico_descritivo", "tab_taxas_anuais.csv"),show_col_types =FALSE)tab_taxas_men_tot <-read_csv(file.path(caminho_tabelas, "analitico_descritivo", "tab_taxas_mensais_total.csv"),show_col_types =FALSE)tab_razao_mf <-read_csv(file.path(caminho_tabelas, "analitico_descritivo", "tab_razao_mf_anual.csv"),show_col_types =FALSE)tab_testes_saz <-read_csv(file.path(caminho_tabelas, "analitico_descritivo", "tab_testes_sazonalidade.csv"),show_col_types =FALSE)tab_comp_gran <-read_csv(file.path(caminho_tabelas, "analitico_descritivo", "tab_comparativo_granularidade.csv"),show_col_types =FALSE)tab_taxas_regiao <-read_csv(file.path(caminho_tabelas, "analitico_descritivo", "tab_taxas_regiao.csv"),show_col_types =FALSE)tab_taxas_faixa <-read_csv(file.path(caminho_tabelas, "analitico_descritivo", "tab_taxas_faixa_etaria.csv"),show_col_types =FALSE)# Constantes derivadastaxa_2000 <- tab_taxas_anuais |>filter(grupo =="Total", ano ==2000) |>pull(taxa) |>round(2)taxa_2022 <- tab_taxas_anuais |>filter(grupo =="Total", ano ==2022) |>pull(taxa) |>round(2)razao_mf_min <-min(tab_razao_mf$razao_mf, na.rm =TRUE)razao_mf_max <-max(tab_razao_mf$razao_mf, na.rm =TRUE)n_mensal <-nrow(tab_taxas_men_tot)n_anual <- tab_taxas_anuais |>filter(grupo =="Total") |>nrow()```## Contextualização metodológica {#sec-descritiva-metodo}A análise descritiva foi conduzida em dois níveis complementares. O **bloco analítico** calculou taxas brutas mensais e anuais, decompôs as séries pela técnica STL _(**S**easonal **Tr**end descomposition using **L**oess)_ e avaliou formalmente a sazonalidade, fornecendo insumos diretos para a modelagem. O **bloco descritivo** calculou taxas estratificadas por faixa etária e macrorregião.**Fórmula da taxa bruta:** $\text{Taxa}_t = \frac{D_t}{P_t} \times 10^5$. Para as taxas mensais, o denominador foi $P_{\text{anual}}/12$, abordagem padrão na literatura epidemiológica para séries mensais de mortalidade [@brasil_datasus].## Taxas brutas anuais {#sec-taxas-anuais}```{r fig11-taxas-anuais}#| label: fig-taxas-anuais#| fig-cap: "Taxa bruta de mortalidade por suicídio por 100.000 habitantes — Brasil, 2000–2022, por sexo. Faixa cinza: período da pandemia de COVID-19."#| out-width: "100%"knitr::include_graphics(file.path(caminho_figuras, "analitico_descritivo", "fig_serie_taxas_anuais.png"))```A taxa bruta de mortalidade por suicídio cresceu de **`r taxa_2000`** para **`r taxa_2022` por 100.000 habitantes** entre 2000 e 2022, incremento de `r round((taxa_2022/taxa_2000 - 1)*100, 1)`%. A razão de taxas M/F oscilou entre **`r razao_mf_min`** e **`r razao_mf_max`** sem tendência sistemática, consistente com o *gender paradox* do suicídio [@schrijvers2012].## Escolha de granularidade {#sec-granularidade}```{r tbl-comp-granularidade}#| label: tbl-comp-granularidade#| tbl-cap: "Comparativo de critérios para escolha da granularidade da série para modelagem"tab_comp_gran |>kable(col.names =c("Critério", "Série anual", "Série mensal"),align =c("l", "c", "c")) |>kable_styling(full_width =TRUE, bootstrap_options =c("striped", "hover"))```A série mensal (n=`r n_mensal`, frequency=12) foi adotada como **série principal para modelagem**: autocorrelação máxima de 0,887 vs 0,415 da anual; sazonalidade detectável apenas nessa granularidade. A série anual (n=`r n_anual`) é mantida como comparação para avaliar impacto da granularidade.## Decomposição STL {#sec-stl}```{r fig12-stl-total}#| label: fig-stl-total#| fig-cap: "Decomposição STL da taxa mensal — Total — Brasil, 2000–2022. s.window = 'periodic', robust = TRUE."#| out-width: "100%"knitr::include_graphics(file.path(caminho_figuras, "analitico_descritivo", "fig_stl_total.png"))``````{r fig13-stl-sexo}#| label: fig-stl-sexo#| fig-cap: "Componente de tendência STL por sexo — Brasil, 2000–2022."#| out-width: "100%"knitr::include_graphics(file.path(caminho_figuras, "analitico_descritivo", "fig_stl_sexo.png"))```A decomposição revelou três características para a modelagem: (1) **tendência** de crescimento secular em formato de "S" — lento até 2013, aceleração progressiva 2014–2019, novo salto a partir de 2020; (2) **sazonalidade aditiva** com amplitude ±0,4/100k estável ao longo de todo o período, com picos em jan/mar e vales em jun/jul; (3) **resíduo** contido em ±0,5 sem outliers extremos após correção do denominador de 2007.A comparação das tendências por sexo evidencia dinâmicas estruturalmente distintas: a curva masculina é quase horizontal até ~2013 e depois acelera intensamente; a feminina cresce de forma mais suave e linear. Essa heterogeneidade justifica os modelos separados do card #9.## Testes formais de sazonalidade {#sec-sazonalidade}```{r tbl-testes-saz}#| label: tbl-testes-saz#| tbl-cap: "Testes formais de sazonalidade — série mensal, Brasil, 2000–2022"tab_testes_saz |>kable(col.names =c("Teste", "Estatística", "p-valor", "Conclusão"),align =c("l", "r", "r", "l")) |>kable_styling(full_width =FALSE, bootstrap_options =c("striped", "hover"))```Os três testes rejeitam H0 (p < 0,0001). A concordância entre QS (baseado em autocorrelação), Friedman (não-paramétrico) e Kruskal-Wallis fornece evidência inequívoca de sazonalidade mensal. Implicação para modelagem: SARIMA precisa de componente sazonal `(P,D,Q)[12]`; ETS deve incluir componente sazonal aditivo.## ACF e PACF — implicações para ordens dos modelos {#sec-acf-pacf}```{r fig14-acf-mensal}#| label: fig-acf-mensal#| fig-cap: "ACF e PACF da taxa mensal (Total) — Brasil, 2000–2022."#| out-width: "100%"knitr::include_graphics(file.path(caminho_figuras, "analitico_descritivo", "fig_acf_pacf_mensal.png"))```A ACF exibe decaimento lento até lag 36, padrão de raiz unitária, indicando $d \geq 1$. A PACF apresenta picos nos lags 1, 2 e 12, sugerindo AR(1–2) e sazonalidade AR. Ponto de partida para o `auto.arima()`: **SARIMA(1–2, 1, 0–1)(1, 1, 0)[12]**.::: {.callout-tip}## Decisões metodológicas do card #5| Decisão | Justificativa ||---|---|| Série mensal como principal | n=276 vs 23; sazonalidade detectável; ACF mais rica || Denominador mensal = pop_anual/12 | Padrão literatura; variação intra-anual desprezível || STL com `s.window="periodic"`, `robust=TRUE` | Sazonalidade estável; robusto a 2021 || Denominador 2007 = interpolação Tab6579 | Contagem 2007 é parcial (~109M vs ~188M reais) || Série anual mantida como comparação | Avalia impacto de granularidade no card #8 |*Script: `04_analitico_descritivo.R` (v1.0) · Script 01: v11.0*:::## Taxas por macrorregião {#sec-taxas-regiao}```{r fig15-taxas-regiao}#| label: fig-taxas-regiao#| fig-cap: "Taxa de mortalidade por suicídio por macrorregião — Brasil, 2000–2022."#| out-width: "100%"knitr::include_graphics(file.path(caminho_figuras, "analitico_descritivo", "fig_taxas_regiao.png"))```A análise por taxa inverte o ranking obtido pela contagem absoluta. A **região Sul** lidera em todo o período (~8/100k em 2000 → ~12,5/100k em 2022). O achado mais relevante é a **convergência entre Norte, Nordeste e Sudeste** ao final do período (~7/100k em 2022), indicando crescimento proporcionalmente maior nas regiões historicamente mais baixas [@bando2012].## Taxas por faixa etária {#sec-taxas-faixa}```{r fig16-taxas-faixa}#| label: fig-taxas-faixa#| fig-cap: "Taxa de mortalidade por suicídio por faixa etária — Brasil, 2000–2022. Denominador: população total Brasil (taxa aproximada)."#| out-width: "100%"knitr::include_graphics(file.path(caminho_figuras, "analitico_descritivo", "fig_taxas_faixa.png"))```::: {.callout-warning}## Limitação — taxas por faixa etáriaDenominador = população total Brasil, não a população específica de cada faixa (indisponível em série anual contínua nas tabelas IBGE utilizadas). As taxas são adequadas para comparação de **tendências relativas**, não de taxas absolutas. O denominador ideal (Tab. 7358) está reservado para análise futura.:::A faixa **30–44 anos** liderou em todo o período. Destaque para a **60+ anos**, que apresentou a maior aceleração proporcional recente, consistente com o impacto do isolamento social pandêmico sobre idosos [@pirkis2021].---# Referências {#sec-referencias}::: {#refs}:::---::: {.callout-note collapse="true"}## Informações da sessão R```{r session-info}sessionInfo()```:::