یک سیستم الکترونیک قدرت مثل سیستم باک دارم که در سیمولینک متلب شبیه سازی شده است برای این سیستم به منظور ردیابی ورودی مرجع کنترلر یادگیری تقویتی عمیق
Deep reinforcement learning طراحی شده است که از الگوریتم DDPG و ساختار actor-critic نیز استفاده شده است . تابع پاداش از نوع معکوس خطا می باشد و خطای ردیابی و یادگیری به درستی انجام میگیرد اما باید تابع پاداش رو حتما از نوع تابع QR انتخاب کنم که با تغییر پارامترهای آموزش در مسأله قبل دیگر خطای ردیابی مناسب نیست و در این قسمت ایراد دارم.در ضمن از تولباکس یادگیری تقویتی در نرم افزار متلب استفاده شده است. اگر از دوستان کسی با پایتون هم می تواند مشکل را حل کند مشکلی ندارم.
با تشکر