بیشترین پاداش را از محیط بگیر
۱۴۰۲/۰۱/۰۱
آشنایی با یادگیری تقویتی
نوع دیگری از یادگیری ماشین، یادگیری نیمه نظارتی یا یادگیری تقویتی است که از فرایند یادگیری انسان الهام گرفته شده است. هنگامیکه کودک تلاش میکند برای اولین بار دوچرخهسواری بیاموزد، در تجربههای اول که مدام زمین میخورد، با شکستهای متوالی مواجه خواهد شد. در هر شکست، مغز کودک یاد میگیرد خود را با محیط و شرایط محیطی تطبیق دهد، بهگونهای که بتواند تعادل کودک را حفظ کند. با تمرین و تکرار عضلات شکل هماهنگ و لازم برای حفظ تعادل را یاد میگیرند. هنگامیکه فرایند یادگیری به اتمام میرسد، دوچرخهسواری مانند راهرفتن یا نفسکشیدن بهصورت کاملاً خودکار انجام میشود.
در این مثال، کودک بهعنوان یک عامل هوشمند شناخته میشود که با تعامل با محیط قرار است یاد بگیرید دوچرخهسواری را بهدرستی انجام دهد. محیط مانند یک معلم است که نتیجه درستی یا نادرستی انجام عمل را از طریق پاداش یا جریمه به عامل بر میگرداند. فرض کنید مجموعه اعمالی که کودک میتواند انجام دهد، شامل «رکاب زدن، ترمزکردن، مایلشدن به چپ و مایلشدن به راست» باشد! کودک در ابتدا در حالت توقف قرار دارد و در هر لحظه باید یکی از اعمال را انتخاب کند. پس از انتخاب هر عمل، کودک از یک حالت به حالت دیگر میرود. فرض کنید کودک در حالت توقف است و عمل «مایلشدن به راست» را انتخاب میکند. در نتیجه این عمل، کودک به زمین میخورد. زمینخوردن کودک جریمهای است که محیط برای انجام یک عمل نامناسب (مایلشدن به راست) در آن حالت (حالت توقف) برای کودک در نظر میگیرد. در تلاش بعدی کودک یاد میگیرد در حالت توقف نباید عمل «مایلشدن به راست» را انجام دهد، زیرا میداند که با جریمه زمینخوردن مواجه میشود. فرایند یادگیری آنقدر ادامه مییابد که کودک یاد بگیرید در حالت توقف بهترین عملی که باید انجام دهد «رکابزدن» است. هنگام رکابزدن، دوچرخه به سمت جلو حرکت میکند، اما ممکن است قدری به سمت چپ یا راست متمایل شود. فرض کنید کودک در حالت متمایل به چپ قرار دارد. در این لحظه باید یاد بگیرید کمی به سمت راست متمایل شود تا در حالت تعادل باقی بماند. در حالت تعادل، محیط یک پاداش به او میدهد و این پاداش لذت دوچرخهسواری است. کودک در هر حالتی که باشد، سعی میکند عملی را انتخاب کند که بیشترین پاداش را از محیط دریافت کند. یادگیری تقویتی به انتخاب بهترین عمل در هر حالت گفته میشود و هدف از یادگیری مشخصکردن حالت بهینه است.
بنابراین در یادگیری تقویتی، عامل میآموزد چگونه با تعامل با محیط، رفتار خود را بهبود دهد. این عامل یک موجود خودکار است که از طریق حسگرهایش محیط را درک میکند و میتواند با استفاده از محرکهایش اعمالی را انجام دهد. بهطور مثال، یک ربات جمعآوریکننده زباله را در نظر بگیرید که با استفاده از چرخ در محیط حرکت میکند. با استفاده از دوربین محیط اطراف خود را میبیند و از طریق بازوهای رباتی، زبالهها را جمعآوری و در مخزن خود ذخیره میکند. هدف این ربات جمعآوری مقدار بیشتری زباله از محیط است. چندین محدودیت اساسی دراینباره وجود دارند:
1. انرژی ربات از طریق باتری قابل پرشدن (شارژ) تأمین میشود. بنابراین، ربات با بررسی مقدار انرژی باقیمانده، باید بهگونهای برنامهریزی کند که قبل از تمامشدن کامل باتری، خود را به محل پرشدن (شارژ) برساند.
2. در محیط موانعی مانند آتش قرار دارند که ربات در صورت برخورد با آنها مشتعل میشود و از بین میرود.
3. ظرفیت و حجم مخزن نگهداری زباله در ربات محدود است. پس از پرشدن مخزن ربات، باید به محل تخلیه زباله مراجعه و مخزن را تخلیه کرد.
4. دنیای واقعی دنیایی غیرقطعی است. به این معنا که دقیقاً همان تصمیمی که میگیریم، بهطور قطعی قابل اجرا نیست. بهطور مثال، ربات تصمیم میگیرد به سمت بالا حرکت کند. اما به احتمال 80 درصد به سمت بالا، 5 درصد به سمت چپ، 5 درصد به راست، و 5 درصد به پایین میرود. بهاحتمال 5 درصد هم در همان خانه باقی میماند. این حرکت غیرقطعی از مشکلات مکانیکی ربات ناشی میشود.
5. محیط پویاست و محل زباله، آتش و موانع در هر لحظه تغییر میکند.
بهمنظور سادهسازی موضوع، تنها چالش دوم را در نظر میگیریم و سعی میکنیم عمل بهینه برای هر حالت را پیدا کنیم. به این معنا که اگر ربات در یک حالت (خانه) باشد، کدام عمل از مجموعه اعمال گفتهشده (بالا، راست، چپ و پایین) را باید انتخاب کند تا در آینده بیشترین پاداش را از محیط دریافت کند. تصویر1، حالتهای ممکن و میزان پاداش محیط را در صورت یافتن زباله و همچنین میزان جریمه را در صورت برخورد با آتش نشان میدهد. در خانهای که آتش قرار دارد، مقدار جریمه دریافتی برابر با منفی یک و مقدار پاداش دریافتی در حالتی که زباله وجود داشته باشد، برابر با یک خواهد بود. (تصویر 1)
برای یافتن سیاست بهینه باید ارزش هر حالت (خانه) را بدانیم. ارزش هر حالت، میزان احتمال رسیدن به پاداش در آینده را مشخص میکند. برای محاسبه ارزش حالتها، از همسایگان حالت پاداش شروع میکنیم و مقدار ارزش آنها را برابر با یک قرار میدهیم. در مثال شکل بالا، تنها یک همسایه با حالت پاداش داریم. از آنجا که این حالت بهطور مستقیم ما را به حالت پاداش میرساند، بیشترین ارزش را خواهد داشت. سپس ارزش خانههای همسایه را با خانهای که در مرحله قبل ارزش آن را محاسبه کردیم به دست میآوریم. این خانهها، همسایگان دوگانه حالت پاداش هستند. بنابراین، مقدار پاداش آنها یک مقدار کاهش پیدا میکند. اگر فرض کنیم اندازه این کاهش برابر با 0.9 باشد، مقدار ارزش بهصورت ضریبی از 0.9 در خانههای کناری کاهش مییابد. این محاسبات تا تعیین ارزش همه خانهها ادامه مییابد. شکل شماره 2 این محاسبات را مرحله به مرحله نشان میدهد.
در پایان، حرکت بهینه بر اساس ارزش حالتها تعیین میشود، بهگونهای که در هر حالت مشخص میشود کدام عمل باید انجام شود. تصویر 3 این سیاست را بر اساس ارزشهای تعیینشده در تصویر 2 نشان میدهد. وقتی ربات تصمیم به حرکت میگیرد، میتواند یکی از دو عمل «راست» یا «بالا» را انتخاب کند. سپس عمل مناسب را بر اساس سیاست، تا رسیدن به پاداش، انجام خواهد داد.
- کاربران گرامی؛ برای مشاهده متن کامل این مطلب به فایل PDF پایین همین صفحه مراجعه فرمایید.
۲۵۲
کلیدواژه (keyword):
رشد هنرجو، هوش مصنوعی، آشنایی با یادگیری تقویتی،یادگیری نیمه نظارتی،یادگیری تقویتی، بیشترین پاداش را از محیط بگیر، امین نظری