
یک اتوماتای یادگیر را میتوان بصورت یک شئ مجرد که دارای تعداد متناهی عمل است، در نظر گرفت. اتوماتای یادگیر با انتخاب یک عمل از مجموعه عمل¬های خود و اِعمال آن بر محیط، عمل میکند. عمل مذکور توسط یک محیط تصادفی ارزیابی میشود و اتوماتا از پاسخ محیط برای انتخاب عمل بعدی خود استفاده میکند. در طی این فرایند اتوماتا یاد میگیرد که عمل بهینه را انتخاب نماید. نحوه استفاده از پاسخ محیط به عمل انتخابی اتوماتا که در جهت انتخاب عمل بعدی اتوماتا استفاده میشود، توسط الگوریت ...