Usando Aprendizado por Reforçoo com  Demonstrações e Habilidades para Jogar  Sonic com Recompensas Esparsas

Silva, Lucas Isaac Pissaia da

Use este identificador para citar ou linkar para este item: https://repositorio.ufpb.br/jspui/handle/123456789/31657

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Silva, Lucas Isaac Pissaia da	-
dc.date.accessioned	2024-09-02T13:15:53Z	-
dc.date.available	2023-12-11	-
dc.date.available	2024-09-02T13:15:53Z	-
dc.date.issued	2023-11-29	-
dc.identifier.uri	https://repositorio.ufpb.br/jspui/handle/123456789/31657	-
dc.description.abstract	Reinforcement learning can handle many types of environments, but it does so inefficiently, requiring millions of learning steps to achieve good per formance, which limits its use in the real world. Using demonstrations on pre training and skills, a sequence of actions that perform a sub-task, we trained an agent that can complete the first level and achieve progress in the second and third levels, which the agent has never seen before, of the game Sonic The Hedgehog. We used sparse rewards, with rewards being given only when a level is completed, something that common reinforcement learning techniques would not be able to do, andimageinput using Skill-based Model-based Reinforcement Learning, originally used in robotics. Our results show how the use of demons trations and skills can speed up training and enable the use of reinforcement learning in a sparse reward environment.	pt_BR
dc.description.provenance	Submitted by Michelle Barbosa (mi.2020@outlook.com.br) on 2024-09-02T13:15:53Z No. of bitstreams: 2 license_rdf: 805 bytes, checksum: c4c98de35c20c53220c07884f4def27c (MD5) Lucas Isaac Pissaia da Silva_TCC.pdf: 681033 bytes, checksum: ae8030abc7853abf1d80acd64b4f5168 (MD5)	en
dc.description.provenance	Made available in DSpace on 2024-09-02T13:15:53Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: c4c98de35c20c53220c07884f4def27c (MD5) Lucas Isaac Pissaia da Silva_TCC.pdf: 681033 bytes, checksum: ae8030abc7853abf1d80acd64b4f5168 (MD5) Previous issue date: 2023-11-29	en
dc.language	por	pt_BR
dc.publisher	Universidade Federal da Paraíba	pt_BR
dc.rights	Acesso aberto	pt_BR
dc.rights	Attribution-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nd/3.0/br/	*
dc.subject	Aprendizado por reforço	pt_BR
dc.subject	Aprendizado com demonstrações	pt_BR
dc.subject	Inteligência artificial	pt_BR
dc.subject	Aprendizado de máquina	pt_BR
dc.title	Usando Aprendizado por Reforçoo com Demonstrações e Habilidades para Jogar Sonic com Recompensas Esparsas	pt_BR
dc.type	TCC	pt_BR
dc.contributor.advisor1	Rêgo, Thais Gaudencio do	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/3166390632199101	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/9892141100774067	pt_BR
dc.description.resumo	Aprendizado por reforço consegue lidar com vários tipos de ambientes, no entanto, pode o fazer de forma ineficiente, exigindo milhões de passos de aprendizado para possuírem performance satisfatória, o que limita seu uso no mundo real. Usando demonstrações no pré-treino e habilidades, sequência de ações que executam uma sub tarefa, treinamos um agente que consegue completar o primeiro nível e progredir no segundo e terceiro nível, os quais o agente nunca viu antes, do jogo Sonic The Hedgehog. Usamos recompensas esparsas, com recompensa sendo dada somente quando um nível ´e completado, algo que técnicas comuns de aprendizado por reforço não conseguiriam fazer, e entrada imagética usando Skill-based Model-based Reinforcement Learning (Shi; Lim; Lee, 2022), originalmente usado em robótica. Os nossos resultados mostram como o uso de demonstrações e habilidades conseguem acelerar o treinamento e possibilitam o uso de aprendizado por reforço em ambiente com recompensa esparsa	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Computação Científica	pt_BR
dc.publisher.initials	UFPB	pt_BR
dc.subject.cnpq	CNPQ::OUTROS	pt_BR
Aparece nas coleções:	TCC - Ciência da Computação - CI

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Lucas Isaac Pissaia da Silva_TCC.pdf	TCC	665,07 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons

Repositório Institucional da UFPB