OpenAI Gym Cartpole环境的这种实现利用了XGBoost库中的一组模型,这些模型分为两层。
第一层的目的是在给定当前状态的情况下预测未来状态,因此使用四个 XGBRegressor 模型分别预测一个状态特征。因此,这些预测的组合构成了预测状态。训练数据由状态-操作对组成,每个模型都使用具有一个时间步长偏移的训练数据进行拟合,因此对于给定的模型,当前状态特征由先前的状态操作预测。使用自定义奖励函数选择操作。
第二层由一个XGBClassifier组成,它使用来自成功剧集的数据来学习在给定状态下要采取哪些操作。
在存储库的 jupyter 笔记本中,环境平均在 3.1 集后在 10 次单独运行中解决。
https://github.com/DanielSallander/Cartpole-XGBoost
[1] @halomaster • 14 Mar 2023, 00:24 GMT
https://opencollective.com/xgboost
1 of 1 pages 1 replies