Análise linguística computacional do Hino Nacional Brasileiro
uma abordagem quantitativa e qualitativa através de processamento de linguagem natural
DOI:
https://doi.org/10.47385/tudoeciencia.2577.2025Palavras-chave:
Processamento de Linguagem Natural. Análise Textual. Hino Nacional. Linguística Computacional. Python.Resumo
Este estudo apresenta uma análise linguística computacional do Hino Nacional Brasileiro utilizando técnicas de processamento de linguagem natural (PLN) e análise estatística de texto. O objetivo principal foi investigar as características linguísticas, estilísticas e temáticas do hino através de métricas quantitativas, incluindo análise de frequência lexical, classificação morfossintática, análise de rimas e visualização de dados textuais. A metodologia empregou bibliotecas Python especializadas em PLN, como spaCy e NLTK, para extrair e analisar características linguísticas do texto. Os resultados revelaram que o hino possui 253 palavras com vocabulário único de 143 termos, apresentando um Type-Token Ratio de 0,565, indicando moderada diversidade lexical. A análise morfossintática demonstrou predominância de substantivos (27,7% do total), enquanto a análise de frequência identificou "pátria", "brasil", "ó", "amada" e "és" como os termos mais recorrentes. O estudo também identificou padrões de rima baseados em terminações fonéticas e criou visualizações através de nuvem de palavras para representar a saliência lexical. Os achados contribuem para a compreensão da estrutura linguística de textos patrióticos em português brasileiro e demonstram a aplicabilidade de técnicas computacionais na análise de documentos históricos e culturalmente significativos.
Downloads
Referências
ANDERSON, B. Imagined communities: reflections on the origin and spread of nationalism. London: Verso, 2008.
BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python: analyzing text with the natural language toolkit. Sebastopol: O'Reilly Media, 2009.
ROSENBERG, M, et al. “Global Self-Esteem and Specific Self-Esteem: Different Concepts, Different Outcomes.” American Sociological Review, vol. 60, no. 1, 1995, pp. 141–56. JSTOR, https://doi.org/10.2307/2096350. Acesso em: 15 ago. 2025.
EYERMAN, R.; JAMISON, A. Music and social movements: mobilizing traditions in the twentieth century. Cambridge: Cambridge University Press, 1998.
HEIMERL, F.; LOHMANN, S.; LANGE, S.; ERTL, T. Word cloud explorer: text analytics based on word clouds. In: 47TH HAWAII INTERNATIONAL CONFERENCE ON SYSTEM SCIENCES, 2014, Waikoloa. Proceedings... IEEE, 2014. p. 1833-1842. DOI: https://doi.org/10.1109/HICSS.2014.231. Acesso em: 15 ago. 2025.
HONNIBAL, M.; MONTANI, I. spaCy 2: natural language understanding with Bloom embeddings, convolutional neural networks and incremental parsing. To appear, 2017. Disponível em: https://spacy.io/. Acesso em: 15 ago. 2025.
JOCKERS, M. L. Macroanalysis: digital methods and literary history. Urbana: University of Illinois Press, 2013.
KAO, J.; JURAFSKY, D. A computational analysis of style, affect, and imagery in contemporary poetry. In: PROCEEDINGS OF THE NAACL-HLT 2012 WORKSHOP ON COMPUTATIONAL LINGUISTICS FOR LITERATURE, 2012, Montreal. Proceedings... Association for Computational Linguistics, 2012. p. 8-17. Disponível em: https://aclanthology.org/W12-2502/. Acesso em: 15 ago. 2025.
MANNING, C. D.; SCHÜTZE, H. Foundations of statistical natural language processing. Cambridge: MIT Press, 1999.
MCENERY, T.; WILSON, A. Corpus linguistics: an introduction. 2. ed. Edinburgh: Edinburgh University Press, 2001.
MORETTI, F. Distant reading. London: Verso, 2013.
TEMPLIN, M. C. Certain language skills in children: their development and interrelationships. Child Development Monographs, n. 26, 1957. Disponível em: https://psycnet.apa.org/record/1957-07556-000. Acesso em: 15 ago. 2025.
TWEEDIE, F. J.; BAAYEN, R. H. How variable may a constant be? Measures of lexical richness in perspective. Computers and the Humanities, v. 32, n. 5, p. 323-352, 1998. DOI: https://doi.org/10.1023/A:1001749303137. Acesso em: 15 ago. 2025.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2025 Tudo é Ciência: Congresso Brasileiro de Ciências e Saberes Multidisciplinares

Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.