چکيده
يادگيري تقويتي سلسله مراتبي، از مهم ترين روش هاي بهبود نتايج يادگيري تقويتي از نظر سرعت يادگيري و بهبود كيفيت آن است. اين نوع يادگيري باعث به وجود آمدن سطوح انتزاع و استفاده از آن ها براي تسريع فرآيند آموزش و اجرا شده و راه را براي ساخت عامل هاي هوشمند مقاوم به تغييرات محيط، هموار مي كند. همچنين اين روش ها به عامل ها اجازه مي دهند كه فرآيند يادگيري را در محيط¬هاي جديد نيز با سرعت بسيار بيشتري به پايان برسانند. از آنجا كه روش¬هاي متفاوتي براي اين نوع يادگيري توسعه پيدا كرده، بررسي رويكرد هاي جديد در اين زمينه اهميت بسيار زيادي دارد.
يادگيري تقويتي يكي از مهم ترين روش هاي موجود براي ساخت عامل هاي هوشمند پيچيده در بسياري از زمينه هاي كاربردي است و به همين دليل، رويكرد هايي مانند يادگيري تقويتي سلسله مراتبي كه مي-توانند كارايي آن را بهبود ببخشند، بسيار حائز اهميت مي باشند.