用XGBoost解决强化学习问题

 ✒️ @halomaster 📅 26 Feb 2023, 02:23 GMT⋮ 【AI】 

OpenAI Gym Cartpole环境的这种实现利用了XGBoost库中的一组模型,这些模型分为两层。 第一层的目的是在给定当前状态的情况下预测未来状态,因此使用四个 XGBRegressor 模型分别预测一个状态特征。因此,这些预测的组合构成了预测状态。训练数据由状态-操作对组成,每个模型都使用具有一个时间步长偏移的训练数据进行拟合,因此对于给定的模型,当前状态特征由先前的状态操作预测。使用自定义奖励函数选择操作。 第二层由一个XGBClassifier组成,它使用来自成功剧集的数据来学习在给定状态下要采取哪些操作。 在存储库的 jupyter 笔记本中,环境平均在 3.1 集后在 10 次单独运行中解决。 https://github.com/DanielSallander/Cartpole-XGBoost


[1] @halomaster • 14 Mar 2023, 00:24 GMT 
https://opencollective.com/xgboost


1 of 1 pages  1 replies