top of page

Saindo das Soluções Viciadas | Aprendizado por Reforço

Atualizado: 10 de nov. de 2023

No vídeo anterior, discutimos o aprendizado por reforço e como enfrentamos um desafio: nosso algoritmo ficava preso em uma única solução, incapaz de sair desse "buraco".


Mas hoje, vamos resolver esse problema! Apresentamos um novo código com mais recompensas e um ambiente mais dinâmico. A chave para a solução é adicionar uma linha importante de exploração no código.



Explorar diferentes caminhos e soluções, mesmo que pareçam incorretos, nos permite escapar de soluções viciadas e alcançar melhores resultados. Vamos ver essa solução em ação e observar como nosso algoritmo de aprendizado por reforço agora consegue aprender e evoluir para encontrar soluções cada vez melhores.


Pela primeira vez, estamos realmente progredindo!


Código do vídeo:

https://github.com/inteligenciamilgrau/reforco

 
 
 

Comentários


bottom of page