چکيده
يادگيري عميق و يادگيري تقويتي دو شاخه¬ي پرطرفدار يادگيري ماشين بوده و هر دو نقش حياتي در عرصه¬ي هوش مصنوعي ايفا مي¬كنند. يادگيري تقويتي به دنبال، يادگيري نگاشتي بين عمل و وضعيت عامل است تا بتواند پاداش دريافتي را بيشينه ¬كند. يادگيري تقويتي در مسائلي كه ابعاد فضاي حالت داده-هاي ورودي و يا عمل كم است، نتايج خوبي بدست آورده¬است. اما به دليل پيچيدگي¬هاي محاسباتي در مسائلي با ابعاد بالا قابل استفاده و پياده¬سازي نيست. يادگيري عميق، همان شبكه¬هاي عصبي عميق است كه قدرت بازنمايي داده¬هايي با ابعاد بالا را فراهم¬ كرده¬است.
تركيب اين دوشاخه سبب پيدايش شاخه¬ي جديدي به نام يادگيري تقويتي عميق شده كه يادگيري ماشين را به يادگيري انسان نزديك¬تر كرده¬است و مشكلات و چالش¬هاي پيش¬روي يادگيري تقويتي را تا حد خوبي مرتفع مي¬نمايد.
به تازگي يادگيري تقويتي عميق در برخي از مسائل پردازش زبان¬هاي طبيعي به¬كار برده¬شده و نتايج خوبي بدست آورده¬است. در مسائلي چون توليد گفتگو، رويكرد¬هاي پيشين داراي مشكلاتي نظير توليد پاسخ¬هاي گنگ، نامفهوم و تكراري¬ بوده¬است؛ كه به كارگيري رويكرد يادگيري تقويتي عميق توانسته مكالماتي منسجم¬تر، با معناتر و طولاني¬تري را توليدكند. و يا در مسائلي مانند ساده¬سازي جملات، رويكرد يادگيري تقويتي عميق، به جملاتي ساده¬تر، روان¬تر و نزديك¬تر به جمله¬ي اصلي دست پيدا كرده¬است.