Detecção e segmentação de instâncias em tempo real utilizando detectron2
uma análise computacional baseada em redes neurais convolucionais
DOI:
https://doi.org/10.47385/tudoeciencia.2552.2025Palavras-chave:
Detectron2. Mask R-CNN. Detecção de Objetos. Segmentação de Instâncias. Visão ComputacionalResumo
Este trabalho apresenta uma análise da aplicação do framework Detectron2 para detecção e segmentação de objetos em imagens urbanas complexas. A pesquisa implementou o modelo Mask R-CNN com backbone ResNet-50 e Feature Pyramid Network (FPN) para identificação automática de múltiplas categorias de objetos, incluindo veículos, pessoas, semáforos e aeronaves. Os resultados demonstraram precisão na detecção com scores de confiança superiores a 90% para a maioria dos objetos identificados. O estudo evidenciou a eficácia do framework em cenários urbanos complexos, destacando sua capacidade de processamento em tempo real e robustez na identificação de objetos sobrepostos. A metodologia empregada utilizou configurações pré-treinadas no dataset COCO, com threshold de confiança ajustado para 0.5, permitindo detecções precisas mesmo em condições de alta densidade de objetos. Os achados contribuem para o avanço das tecnologias de visão computacional aplicadas a sistemas de monitoramento urbano inteligente e veículos autônomos.
Downloads
Referências
BOCHKOVSKIY, A.; WANG, C. Y.; LIAO, H. Y. M. YOLOv4: Optimal Speed and Accuracy of Object Detection. arXiv preprint arXiv:2004.10934, 2020. Disponível em: https://arxiv.org/abs/2004.10934. Acesso em: 30 ago. 2025.
DOLLAR, P. et al. Pedestrian detection: An evaluation of the state of the art. IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 34, n. 4, p. 743-761, 2012. DOI: 10.1109/TPAMI.2011.155. Disponível em: https://ieeexplore.ieee.org/document/5975165. Acesso em: 30 ago. 2025.
GIRSHICK, R. Fast R-CNN. Proceedings of the IEEE International Conference on Computer Vision, p. 1440-1448, 2015. DOI: 10.1109/ICCV.2015.169. Disponível em: https://ieeexplore.ieee.org/document/7410526. Acesso em: 30 ago. 2025.
GIRSHICK, R. et al. Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, p. 580-587, 2014. DOI: 10.1109/CVPR.2014.81. Disponível em: https://ieeexplore.ieee.org/document/6909475. Acesso em: 30 ago. 2025.
HE, K. et al. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, p. 770-778, 2016. DOI: 10.1109/CVPR.2016.90. Disponível em: https://ieeexplore.ieee.org/document/7780459. Acesso em: 30 ago. 2025.
KANTOR, Charles et al. Over-CAM: Gradient-based localization and spatial attention for confidence measure in fine-grained recognition using deep neural networks. 2020.
HUANG, Jonathan et al. Speed/accuracy trade-offs for modern convolutional object detectors. In: Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. p. 7310-7311.
KIRILLOV, Alexander et al. Panoptic segmentation. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019. p. 9404-9413.
LECUN, Y.; BENGIO, Y.; HINTON, G. Deep learning. Nature, v. 521, n. 7553, p. 436-444, 2015. DOI: 10.1038/nature14539. Disponível em: https://www.nature.com/articles/nature14539. Acesso em: 30 ago. 2025.
LIN, T. Y. et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, p. 2117-2125, 2017. DOI: 10.1109/CVPR.2017.106. Disponível em: https://ieeexplore.ieee.org/document/8099589. Acesso em: 30 ago. 2025.
LIN, T. Y. et al. Focal loss for dense object detection. Proceedings of the IEEE International Conference on Computer Vision, p. 2980-2988, 2017. DOI: 10.1109/ICCV.2017.324. Disponível em: https://ieeexplore.ieee.org/document/8237586. Acesso em: 30 ago. 2025.
LIN, T. Y. et al. Microsoft COCO: Common objects in context. European Conference on Computer Vision, p. 740-755, 2014. DOI: 10.1007/978-3-319-10602-1_48. Disponível em: https://link.springer.com/chapter/10.1007/978-3-319-10602-1_48. Acesso em: 30 ago. 2025.
LONG, J.; SHELHAMER, E.; DARRELL, T. Fully convolutional networks for semantic segmentation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, p. 3431-3440, 2015. DOI: 10.1109/CVPR.2015.7298965. Disponível em: https://ieeexplore.ieee.org/document/7298965. Acesso em: 30 ago. 2025.
REDMON, J. et al. You only look once: Unified, real-time object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, p. 779-788, 2016. DOI: 10.1109/CVPR.2016.91. Disponível em: https://ieeexplore.ieee.org/document/7780460. Acesso em: 30 ago. 2025.
REDMON, J.; FARHADI, A. YOLOv3: An incremental improvement. arXiv preprint arXiv:1804.02767, 2018. Disponível em: https://arxiv.org/abs/1804.02767. Acesso em: 30 ago. 2025.
REN, S. et al. Faster R-CNN: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems, v. 28, p. 91-99, 2015. Disponível em: https://papers.nips.cc/paper/2015/hash/14bfa6bb14875e45bba028a21ed38046-Abstract.html. Acesso em: 30 ago. 2025.
WU, Y. et al. Detectron2. GitHub Repository, 2019. Disponível em: https://github.com/facebookresearch/detectron2. Acesso em: 30 ago. 2025.
WIKIMEDIA FOUNDATION. Wikimedia Commons inclui mais de 100 milhões de arquivos de mídia de uso livre – fotos, áudios e vídeos. Disponível em: Wikimedia Commons. Acesso em: 31 ago. 2025.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2025 Tudo é Ciência: Congresso Brasileiro de Ciências e Saberes Multidisciplinares

Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.