Aplicação de técnicas de reconhecimento óptico de caracteres (ocr) na digitalização de documentos históricos

um estudo de caso com anúncio de datilografia de 1918

Autores

DOI:

https://doi.org/10.47385/tudoeciencia.2589.2025

Palavras-chave:

OCR. Documentos históricos. Digitalização. Tesseract. Python. Patrimônio documental. Datilografia.

Resumo

Este artigo apresenta uma análise da aplicação de técnicas modernas de Reconhecimento Óptico de Caracteres (OCR) na digitalização e preservação de documentos históricos, utilizando como estudo de caso um anúncio publicitário de uma escola de datilografia datado de 1918. A pesquisa implementou a biblioteca Tesseract OCR através da linguagem Python para extrair texto de uma imagem digitalizada, demonstrando as potencialidades e limitações dessa tecnologia quando aplicada a documentos centenários. O documento analisado revela aspectos socioculturais da época, evidenciando a datilografia como uma "profissão de futuro" e refletindo as transformações tecnológicas do início do século XX. Os resultados obtidos mostram que, apesar dos desafios relacionados à qualidade da imagem e características tipográficas da época, as técnicas de OCR modernas conseguem extrair informações relevantes de documentos históricos, contribuindo significativamente para projetos de digitalização e preservação do patrimônio documental. A metodologia proposta pode ser aplicada em larga escala para a criação de acervos digitais pesquisáveis, facilitando o acesso a fontes históricas e promovendo a democratização do conhecimento.

Downloads

Não há dados estatísticos.

Referências

ADLER, M. H. The writing machine: a history of the typewriter. London: George Allen and Unwin, 1973.

ANTONACOPOULOS, A.; BRIDSON, D.; PAPADOPOULOS, C.; PLETSCHACHER, S. "A Realistic Dataset for Performance Evaluation of Document Layout Analysis," 2009 10th International Conference on Document Analysis and Recognition, Barcelona, Spain, 2009, pp. 296-300, doi: 10.1109/ICDAR.2009.271.

BAGNO, M. Nada na língua é por acaso: por uma pedagogia da variação linguística. São Paulo: Parábola Editorial, 2007.

CHARTIER, R. The order of books: readers, authors, and libraries in Europe between the fourteenth and eighteenth centuries. Stanford: Stanford University Press, 1994.

CHERIET, M.; KHARMA, N.; LIU, C. L.; SUEN, C. Y. Character recognition systems: a guide for students and practitioners. Hoboken: John Wiley & Sons, 2007.

CLARK, A. PIL: Python Imaging Library handbook. 2009. Disponível em: https://pillow.readthedocs.io/. Acesso em: 15 jan. 2025.

CLAUSNER, C.; PLETSCHACHER, S.; ANTONACOPOULOS, "Scenario Driven In-depth Performance Evaluation of Document Layout Analysis Methods," 2011 International Conference on Document Analysis and Recognition, Beijing, China, 2011, pp. 1404-1408, doi: 10.1109/ICDAR.2011.282.

CONWAY, P. Preservation in the digital world. Council on Library and Information Resources, 1996.

EISENSTEIN, E. L. The printing revolution in early modern Europe. 2nd ed. Cambridge: Cambridge University Press, 2005.

GITELMAN, L. Scripts, grooves, and writing machines: representing technology in the Edison era. Stanford: Stanford University Press, 1999.

HOLLEY, R. How good can it get? Analysing and improving OCR accuracy in large scale historic newspaper digitisation programs. D-Lib Magazine, v. 15, n. 3/4, 2009.

MORI, S.; SUEN, C. Y.; YAMAMOTO, "Historical review of OCR research and development," in Proceedings of the IEEE, vol. 80, no. 7, pp. 1029-1058, July 1992, doi: 10.1109/5.156468.

NAGY, G. Twenty years of document image analysis in PAMI. IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 22, n. 1, p. 38-62, 2000.

PITMAN, I. Stenographic sound-hand. London: Samuel Bagster and Sons, 1837.

PLETSCHACHER, S.; ANTONACOPOULOS, A. The PAGE (Page Analysis and Ground-truth Elements) format framework. In: INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION, 20., 2010, Istanbul. Proceedings... IEEE, 2010. p. 257-260.

SMITH, R. An overview of the Tesseract OCR engine. In: INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION, 9., 2007, Curitiba. Proceedings... IEEE, 2007. p. 629-633.

TERRAS, M. Image to interpretation: an intelligent system to aid historians in reading the Vindolanda texts. Oxford: Oxford University Press, 2006.

VAN ROSSUM, G.; DRAKE, F. L. Python 3 reference manual. Scotts Valley: CreateSpace, 2009.

REIS JR., Dalmir. Datilografia: profissão do futuro – 1918. Propagandas Históricas, 2013. Disponível em: https://www.propagandashistoricas.com.br/2013/04/datilografia-profissao-do-futuro-1918.html. Acesso em: 10 ago. 2025.

Downloads

Publicado

15-01-2026

Como Citar

Amadeu Souza, V. (2026). Aplicação de técnicas de reconhecimento óptico de caracteres (ocr) na digitalização de documentos históricos: um estudo de caso com anúncio de datilografia de 1918. Tudo é Ciência: Congresso Brasileiro De Ciências E Saberes Multidisciplinares, (4). https://doi.org/10.47385/tudoeciencia.2589.2025

Edição

Seção

Ciências Exatas, Tecnologias e Engenharias