Saindo das Soluções Viciadas | Aprendizado por Reforço
- Hobbert Evergreen

- 5 de set. de 2023
- 1 min de leitura
Atualizado: 10 de nov. de 2023
No vídeo anterior, discutimos o aprendizado por reforço e como enfrentamos um desafio: nosso algoritmo ficava preso em uma única solução, incapaz de sair desse "buraco".
Mas hoje, vamos resolver esse problema! Apresentamos um novo código com mais recompensas e um ambiente mais dinâmico. A chave para a solução é adicionar uma linha importante de exploração no código.
Explorar diferentes caminhos e soluções, mesmo que pareçam incorretos, nos permite escapar de soluções viciadas e alcançar melhores resultados. Vamos ver essa solução em ação e observar como nosso algoritmo de aprendizado por reforço agora consegue aprender e evoluir para encontrar soluções cada vez melhores.
Pela primeira vez, estamos realmente progredindo!
Código do vídeo:
https://github.com/inteligenciamilgrau/reforco
Comentários