شماره ركورد
33859
پديد آورنده
محمد ميداني نيگجه
عنوان
ارائه مدل مبتني بر يادگيري تقويتي براي بهينهسازي پيامرساني چندكاناله در خردهفروشي آنلاين
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي صنايع- سيستمهاي اطلاعاتي
سال تحصيل
1402
تاريخ دفاع
1404/7/13
استاد راهنما
محمدرضا رسولي
استاد مشاور
مهدي غضنفري
دانشكده
مهندسي صنايع
چكيده
پيامرساني مستقيم چندكاناله، يكي از راهبردهاي كليدي در بازاريابي ديجيتال بهشمار ميرود كه به كسبوكارها در افزايش تعامل با مشتري و ارتقاء فروش كمك ميكند. با اين حال، روشهاي سنتي، از انعطافپذيري كافي برخوردار نيستند و اغلب منجر به پيامرساني ناكارآمد و نرخ تبديل پايين ميشوند. در سالهاي اخير، روشهاي مبتني بر هوش مصنوعي مانند الگوريتمهاي بانديت و يادگيري تقويتي آنلاين، در زمينههايي نظير هدفگيري تبليغات و سامانههاي توصيهگر نتايج اميدواركنندهاي نشان دادهاند، اما اين روشها به تعامل لحظهاي با كاربر نياز دارند كه اجراي آن در محيطهاي واقعي بازاريابي با هزينه بالا و ريسك عملياتي همراه است. همچنين، مدلهاي مبتني بر يادگيري تقويتي با چالشهايي نظير بيشبرآورد مقدار پاداش و تغيير توزيع دادهها مواجه هستند كه توانايي تعميم آنها از روي دادههاي تاريخي را محدود ميكند. براي رفع اين محدوديتها، اين پژوهش از يادگيري تقويتي آفلاين، براي بهينهسازي فرآيند پيامرساني مستقيم چندكاناله استفاده كرده است. مدل پيشنهادي، با استفاده از دادههاي منتشر شده از تعاملات كاربران با يك فروشگاه آنلاين، به يادگيري سياستهايي ميپردازد كه زمان ارسال، محتواي پيام و انتخاب كانال ارتباطي را بدون نياز به آزمايشهاي زنده، بهصورت همزمان و تطبيقي بهينه ميكند. در اين راستا، يك تابع پاداش اختصاصي طراحي شد كه تعادل ميان تعامل فوري و پيامدهاي بلندمدت را حفظ ميكند. نتايج تجربي نشان ميدهند كه مدل مبتني بر يادگيري تقويتي، بهطور معناداري از سياستهاي پايه مانند سياست تصادفي يا رويكردهاي ايستا عملكرد بهتري دارد. بهطور خاص، مدل توانست بهبودي 486.80 درصدي در ميانگين پاداش نسبت به سياست تصادفي كسب كند كه نشاندهنده توانمندي اين رويكرد در بهينهسازي تصميمهاي پيامرساني در محيطهاي واقعي و بدون نياز به تعامل زنده است. پژوهش حاضر چارچوبي مقياسپذير، كارآمد از نظر داده، و ايمن براي تصميمسازي در بازاريابي ديجيتال فراهم ميآورد و ميتواند بهعنوان جايگزيني عملي و پيشرفته براي روشهاي سنتي بهينهسازي كمپينها مورد استفاده قرار گيرد.
تاريخ ورود اطلاعات
1404/08/03
عنوان به انگليسي
Development of a Reinforcement Learning Model for Optimizing Multichannel Direct Messaging in Online Retailing
تاريخ بهره برداري
10/5/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
محمد ميداني نيگجه
چكيده به لاتين
Multichannel direct messaging is a key strategy in digital marketing that helps businesses boost customer engagement and increase sales. However, traditional approaches lack flexibility and often lead to inefficient messaging and low conversion rates. In recent years, AI-based methods like bandit algorithms and online reinforcement learning have shown promising results in areas such as ad targeting and recommender systems, but they require real-time user interaction, which is costly and operationally risky in real-world marketing environments. Moreover, RL-based models face challenges such as overestimation bias and distribution shift, which limit their ability to generalize from historical data. To address these limitations, this study employs offline reinforcement learning to optimize multichannel direct messaging. Using real interaction data from an online retailer, the proposed model learns policies that jointly and adaptively optimize send time, message content, and channel selection without live experimentation. A custom reward function is designed to balance immediate engagement with long-term outcomes. Empirical results show that the RL-based model significantly outperforms baseline strategies such as a random policy and other static approaches. Specifically, the model achieves a 486.80% improvement in average reward over the random policy, demonstrating the effectiveness of this approach for optimizing messaging decisions in real-world settings without requiring online interaction. This research delivers a scalable, data-efficient, and risk-aware decision-making framework for digital marketing and can serve as a practical, advanced alternative to traditional campaign optimization methods.
كليدواژه هاي فارسي
يادگيري تقويتي , بازاريابي شخصيسازيشده , تعامل با مشتري , پيامرساني مستقيم چندكاناله
كليدواژه هاي لاتين
Reinforcement learning , Personalized Marketing , customer engagement , Multichannel Direct Messaging
Author
Mohammad Meidani
SuperVisor
Dr. Rasooli