Saindo das Soluções Viciadas | Aprendizado por Reforço

Hobbert Evergreen
5 de set. de 2023
1 min de leitura

Atualizado: 10 de nov. de 2023

No vídeo anterior, discutimos o aprendizado por reforço e como enfrentamos um desafio: nosso algoritmo ficava preso em uma única solução, incapaz de sair desse "buraco".

Mas hoje, vamos resolver esse problema! Apresentamos um novo código com mais recompensas e um ambiente mais dinâmico. A chave para a solução é adicionar uma linha importante de exploração no código.

https://www.youtube.com/watch?v=7ki8PF6sII4

Explorar diferentes caminhos e soluções, mesmo que pareçam incorretos, nos permite escapar de soluções viciadas e alcançar melhores resultados. Vamos ver essa solução em ação e observar como nosso algoritmo de aprendizado por reforço agora consegue aprender e evoluir para encontrar soluções cada vez melhores.

Pela primeira vez, estamos realmente progredindo!

Código do vídeo:

https://github.com/inteligenciamilgrau/reforco

Comentários