Controle de ângulo da junta do ombro do Robô NAO com Q-Learning: uma abordagem de aprendizado por reforço

Vitor Amadeu Souza

Autores

Vitor Amadeu Souza IME https://orcid.org/0009-0002-1857-6799

Palavras-chave:

Robô NAO, Q-Learning, Aprendizado por Reforço, Controle de Juntas, Robótica Humanoide

Resumo

O controle preciso das juntas de robôs humanoides, como as do ombro do robô NAO, é um desafio técnico devido à complexidade biomecânica e às não-linearidades dinâmicas, que frequentemente limitam a eficácia dos métodos tradicionais, como controladores PID. Este trabalho propõe uma abordagem baseada em aprendizado por reforço, utilizando o algoritmo Q-Learning, para controlar o ângulo da junta do ombro esquerdo do NAO, com o objetivo de alcançar um ângulo alvo de 45°. A metodologia foi desenvolvida e testada no ambiente de simulação CoppeliaSim, onde o problema foi modelado como um Processo de Decisão de Markov (MDP), com estados discretizados (ângulo e velocidade angular da junta) e ações representadas por torques aplicados. O algoritmo foi implementado em Python, utilizando a API ZMQ Remote do CoppeliaSim, e configurado com uma política ϵ-greedy para balancear exploração e aproveitamento. Os resultados mostraram que o Q-Learning convergiu em uma média de 62,70 episódios e desvio padrão de 2,72. Esses achados demonstram o potencial do Q-Learning como uma alternativa eficaz aos métodos tradicionais para o controle de juntas robóticas em simulação, contribuindo para o avanço de robôs humanoides em aplicações como assistência social e educação.

Referências

GOUAILLIER, D. et al. Mechatronic design of NAO humanoid. In: IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION, 2009, Kobe. Anais... Piscataway: IEEE, 2009. p. 769–774.

SHAMSUDDIN, S. et al. Humanoid robot NAO: Review of control and motion exploration. In: IEEE INTERNATIONAL CONFERENCE ON CONTROL

SYSTEM, COMPUTING AND ENGINEERING, 2011, Penang. Anais... Piscataway: IEEE, 2011. p. 511–516.

KUINDERSMA, S. et al. Optimization-based locomotion planning, estimation, and control design for Atlas. Autonomous Robots, v. 40, n. 3, p. 429–455, 2016.

GONZÁLEZ-FIERRO, M. et al. Full-body postural control of a humanoid robot with both imitation learning and skill innovation. International Journal of Humanoid Robotics, v. 11, n. 2, p. 1450012, 2014.

KOBER, J.; BAGNELL, J. A.; PETERS, J. Reinforcement learning in robotics: A survey. The International Journal of Robotics Research, v. 32, n. 11, p. 1238–1274, 2013.

SUTTON, R. S.; BARTO, A. G. Reinforcement learning: An introduction. Cambridge: MIT Press, 2018.

WATKINS, C. J.; DAYAN, P. Q-learning. Machine Learning, v. 8, n. 3-4, p. 279–292, 1992.

ALDEBARAN. Electronics architecture. Disponível em: http://doc.aldebaran.com/1-14/naoqi/sensors/dcm/low_level_architecture.html. Acesso em: 15 abr. 2025.

ROHMER, E.; SINGH, S. P.; FREESE, M. V-REP: A versatile and scalable robot simulation framework. In: IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS, 2013, [local de realização]. Anais... [S.l.]: IEEE, 2013. p. 1321–1326.

Controle de ângulo da junta do ombro do Robô NAO com Q-Learning

uma abordagem de aprendizado por reforço

Autores

Palavras-chave:

Resumo

Referências

Downloads

Publicado

Como Citar

Edição

Seção

Licença