l یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نمائیم . l دو استراتژی اصلی برای اینکار وجود دارد : .1 یکی استفاده از الگوریتم های ژنتیکی .2 و دیگری استفاده از روشهای آماری و dynamic programming l در RL روش دوم مد نظر است . فایل ورد 23 اسلاید ...