Aplicação de q-learning para controle adaptativo de articulações em robôs humanoides: um estudo experimental com o robô NAO

Vitor Amadeu Souza

doi:10.47385/tudoeciencia.2584.2025

Autores

Vitor Amadeu Souza UniFOA, Centro Universitário de Volta Redonda, Volta Redonda, RJ. https://orcid.org/0009-0002-1857-6799

DOI:

https://doi.org/10.47385/tudoeciencia.2584.2025

Palavras-chave:

Q-Learning. Aprendizado por reforço. Robótica humanoide. NAO. Controle adaptativo. Epsilon-greedy.

Resumo

Este trabalho apresenta uma implementação de algoritmo Q-Learning para controle adaptativo de articulações em robôs humanoides, utilizando como plataforma experimental o robô NAO da SoftBank Robotics. A pesquisa demonstra a aplicação prática de técnicas de aprendizado por reforço para otimização de movimentos articulares, especificamente no controle da articulação LShoulderPitch (ombro esquerdo). O sistema implementado utiliza a estratégia epsilon-greedy para equilibrar exploração e explotação durante o processo de aprendizagem, permitindo que o robô aprenda autonomamente a alcançar posições angulares específicas através de tentativa e erro. A metodologia empregada baseia-se na discretização do espaço de estados contínuo em 100 estados discretos, com 5 ações possíveis para ajuste angular. Os resultados obtidos através de 1000 episódios de treinamento demonstram convergência eficiente para o setpoint desejado de 1.0 radiano, com redução significativa do erro médio ao longo dos episódios. As contribuições deste trabalho incluem a validação experimental de técnicas de aprendizado por reforço em plataformas robóticas comerciais e o desenvolvimento de metodologia replicável para controle adaptativo de sistemas mecatrônicos complexos.

Downloads

Não há dados estatísticos.

Referências

ALDEBARAN ROBOTICS. NAO Software Documentation Version 1.14. Paris: Aldebaran Robotics, 2014.

ÅSTRÖM, K. J.; MURRAY, R. M. Feedback Systems: An Introduction for Scientists and Engineers. 2. ed. Princeton: Princeton University Press, 2021.

AUER, P.; CESA-BIANCHI, N.; FISCHER, P. Finite-time analysis of the multiarmed bandit problem. Machine Learning, v. 47, n. 2-3, p. 235-256, 2002.

DEISENROTH, M. P. et al. A survey on policy search for robotics. Foundations and Trends in Robotics, v. 2, n. 1-2, p. 1-142, 2013.

GOUAILLIER, D. et al. Mechatronic design of NAO humanoid. In: IEEE International Conference on Robotics and Automation, 2009, Kobe. Proceedings... Kobe: IEEE, 2009. p. 769-774.

KOBER, J.; BAGNELL, J. A.; PETERS, J. Reinforcement learning in robotics: A survey. The International Journal of Robotics Research, v. 32, n. 11, p. 1238-1274, 2013.

KORMUSHEV, P.; CALINON, S.; CALDWELL, D. G. Reinforcement learning in robotics: Applications and real-world challenges. Robotics, v. 2, n. 3, p. 122-148, 2013.

PUTERMAN, M. L. Markov Decision Processes: Discrete Stochastic Dynamic Programming. New York: John Wiley & Sons, 2014.

SICILIANO, B.; KHATIB, O. Springer Handbook of Robotics. 2. ed. Berlin: Springer, 2016.

SUTTON, R. S.; BARTO, A. G. Reinforcement Learning: An Introduction. 2. ed. Cambridge: MIT Press, 2018.

THRUN, S. Efficient exploration in reinforcement learning. Technical Report CMU-CS-92-102, Carnegie Mellon University, Pittsburgh, 1992.

WATKINS, C. J. C. H. Learning from delayed rewards. 1989. 234 f. Tese (Doutorado em Ciência da Computação) - University of Cambridge, Cambridge, 1989.

WATKINS, C. J. C. H.; DAYAN, P. Q-learning. Machine Learning, v. 8, n. 3-4, p. 279-292, 1992.

ALTEXSOFT Editorial Team. Reinforcement Learning Explained: Overview, Comparisons and Applications in Business. AltexSoft, 21 jan. 2019. Disponível em: https://www.altexsoft.com/blog/reinforcement-learning-explained-overview-comparisons-and-applications-in-business/. Acesso em: 13 ago. 2025.

Aplicação de q-learning para controle adaptativo de articulações em robôs humanoides

um estudo experimental com o robô NAO

Autores

DOI:

Palavras-chave:

Resumo

Downloads

Referências

Downloads

Publicado

Como Citar

Edição

Seção

Licença

Enviar Submissão