• شماره ركورد
    33859
  • پديد آورنده

    محمد ميداني نيگجه

  • عنوان
    ارائه مدل مبتني بر يادگيري تقويتي براي بهينه‌سازي پيام‌رساني چندكاناله در خرده‌فروشي آنلاين
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي صنايع- سيستم‌هاي اطلاعاتي
  • سال تحصيل
    1402
  • تاريخ دفاع
    1404/7/13
  • استاد راهنما
    محمدرضا رسولي
  • استاد مشاور
    مهدي غضنفري
  • دانشكده
    مهندسي صنايع
  • چكيده
    پيام‌رساني مستقيم چندكاناله، يكي از راهبردهاي كليدي در بازاريابي ديجيتال به‌شمار مي‌رود كه به كسب‌وكارها در افزايش تعامل با مشتري و ارتقاء فروش كمك مي‌كند. با اين حال، روش‌هاي سنتي، از انعطاف‌پذيري كافي برخوردار نيستند و اغلب منجر به پيام‌رساني ناكارآمد و نرخ تبديل پايين مي‌شوند. در سال‌هاي اخير، روش‌هاي مبتني بر هوش مصنوعي مانند الگوريتم‌هاي بانديت و يادگيري تقويتي آنلاين، در زمينه‌هايي نظير هدف‌گيري تبليغات و سامانه‌هاي توصيه‌گر نتايج اميدواركننده‌اي نشان داده‌اند، اما اين روش‌ها به تعامل لحظه‌اي با كاربر نياز دارند كه اجراي آن در محيط‌هاي واقعي بازاريابي با هزينه بالا و ريسك عملياتي همراه است. همچنين، مدل‌هاي مبتني بر يادگيري تقويتي با چالش‌هايي نظير بيش‌برآورد مقدار پاداش و تغيير توزيع داده‌ها مواجه هستند كه توانايي تعميم آن‌ها از روي داده‌هاي تاريخي را محدود مي‌كند. براي رفع اين محدوديت‌ها، اين پژوهش از يادگيري تقويتي آفلاين، براي بهينه‌سازي فرآيند پيام‌رساني مستقيم چندكاناله استفاده كرده است. مدل پيشنهادي، با استفاده از داده‌هاي منتشر شده از تعاملات كاربران با يك فروشگاه آنلاين، به يادگيري سياست‌هايي مي‌پردازد كه زمان ارسال، محتواي پيام و انتخاب كانال ارتباطي را بدون نياز به آزمايش‌هاي زنده، به‌صورت هم‌زمان و تطبيقي بهينه مي‌كند. در اين راستا، يك تابع پاداش اختصاصي طراحي شد كه تعادل ميان تعامل فوري و پيامدهاي بلندمدت را حفظ مي‌كند. نتايج تجربي نشان مي‌دهند كه مدل مبتني بر يادگيري تقويتي، به‌طور معناداري از سياست‌هاي پايه مانند سياست تصادفي يا رويكردهاي ايستا عملكرد بهتري دارد. به‌طور خاص، مدل توانست بهبودي 486.80 درصدي در ميانگين پاداش نسبت به سياست تصادفي كسب كند كه نشان‌دهنده توانمندي اين رويكرد در بهينه‌سازي تصميم‌هاي پيام‌رساني در محيط‌هاي واقعي و بدون نياز به تعامل زنده است. پژوهش حاضر چارچوبي مقياس‌پذير، كارآمد از نظر داده، و ايمن براي تصميم‌سازي در بازاريابي ديجيتال فراهم مي‌آورد و مي‌تواند به‌عنوان جايگزيني عملي و پيشرفته براي روش‌هاي سنتي بهينه‌سازي كمپين‌ها مورد استفاده قرار گيرد.
  • تاريخ ورود اطلاعات
    1404/08/03
  • عنوان به انگليسي
    Development of a Reinforcement Learning Model for Optimizing Multichannel Direct Messaging in Online Retailing
  • تاريخ بهره برداري
    10/5/2026 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    محمد ميداني نيگجه

  • چكيده به لاتين
    Multichannel direct messaging is a key strategy in digital marketing that helps businesses boost customer engagement an‎d increase sales. However, traditional approaches lack flexibility an‎d often lead to inefficient messaging an‎d low conversion rates. In recent years, AI-based methods like ban‎dit algorithms an‎d online reinforcement learning have shown promising results in areas such as ad targeting an‎d recommender systems, but they require real-time user interaction, which is costly an‎d operationally risky in real-world marketing environments. Moreover, RL-based models face challenges such as overestimation bias an‎d distribution shift, which limit their ability to generalize from historical data. To address these limitations, this study employs offline reinforcement learning to optimize multichannel direct messaging. Using real interaction data from an online retailer, the proposed model learns policies that jointly an‎d adaptively optimize send time, message content, an‎d channel selec‎tion without live experimentation. A custom reward function is designed to balance immediate engagement with long-term outcomes. Empirical results show that the RL-based model significantly outperforms baseline strategies such as a ran‎dom policy an‎d other static approaches. Specifically, the model achieves a 486.80% improvement in average reward over the ran‎dom policy, demonstrating the effectiveness of this approach for optimizing messaging decisions in real-world settings without requiring online interaction. This research delivers a scalable, data-efficient, an‎d risk-aware decision-making framework for digital marketing an‎d can serve as a practical, advanced alternative to traditional campaign optimization methods.
  • كليدواژه هاي فارسي
    يادگيري تقويتي , بازاريابي شخصي‌سازي‌شده , تعامل با مشتري , پيام‌رساني مستقيم چندكاناله
  • كليدواژه هاي لاتين
    Reinforcement learning , Personalized Marketing , customer engagement , Multichannel Direct Messaging
  • Author
    Mohammad Meidani
  • SuperVisor
    Dr. Rasooli