單項選擇題

在強化學習中,什么是“動態(tài)規(guī)劃”(DynamicProgramming)()?

A.一種用于優(yōu)化策略的方法
B.一種用于計算狀態(tài)值的方法
C.一種用于選擇動作的規(guī)則
D.一種用于表示環(huán)境模型的數(shù)據(jù)結(jié)構(gòu)

微信掃碼免費搜題