شماره ركورد
34100
پديد آورنده
سارا چراغي
عنوان
رويكرد تركيبي مبتني بر يادگيري تقويتي براي مسأله مديريت موجودي يكپارچه دوسطحي از محصول فسادپذير با عمر ثابت و داراي جايگزين (موردكاوي: محصول خون)
مقطع تحصيلي
دكتري
رشته تحصيلي
مهندسي صنايع
سال تحصيل
1397
تاريخ دفاع
1404/08/24
استاد راهنما
آقاي دكتر عبدالرحمن حائري
استاد مشاور
آقاي دكتر سيد فريد قنادپور
دانشكده
مهندسي صنايع
چكيده
مديريت موجودي در زنجيره تأمين محصولات فسادپذير نظير محصولات خون، بهدليل عمر محدود و تنوع محصولات چالش¬برانگيز است. اتلاف اين محصولات بهدليل محدوديت منابع و هزينههاي عملياتي، پيامدهاي اقتصادي و انساني قابل توجهي دارد. از سوي ديگر، كمبود اين محصولات ميتواند منجر به لغو خدمات درماني حياتي و به خطر افتادن سلامت و حيات بيماران شود. بعلاوه، شرايط عدم قطعيت و رفتار نقاط مصرف¬كننده تحت اين شرايط قابل پيشبيني نيست. برخي از مراكز درماني در مواجهه با ريسك كمبود، تمايل به رفتار محافظهكارانه و سفارش بيش از نياز واقعي خود دارند. اين رفتار، در سطح شبكه زنجيره تامين ميتواند منجر به اتلاف منابع و اختلال در تخصيص بهينه موجودي بين ساير اعضاي شبكه شود. روشهاي سنتي مديريت موجودي و مواجهه با عدم قطعيت ناكارآمد، پرهزينه، بيشازحد محافظهكارانه و يا داراي خطا هستند؛ زيرا در بسياري از موارد عملي، يا داده تاريخي كافي براي برآورد دقيق توزيع پارامتر غيرقطعي وجود ندارد و يا پويايي محيط موجب كاهش اعتبار برآوردهاي پيشين مي-شود. در چنين شرايطي، بهويژه در زنجيره تأمين مذكور، كه تصميمات مي¬بايست در بازههاي زماني كوتاه و با دقت بالا اتخاذ شوند، طراحي چارچوب واكنش¬گرا و تطبيقپذير براي تصميمگيري در محيطهاي غيرقطعي و پويا، ضرورتي اجتنابناپذير است. يادگيري تقويتي بهعنوان شاخهاي از هوش مصنوعي و يادگيري ماشين، با يادگيري از تعامل با محيط، بهروزرساني تصميمات بر اساس بازخورد و سازگاري با شرايط متغير، تصميم بهينه براي هر وضعيتي كه سيستم مي¬تواند در آن قرار گيرد را مي¬يابد. اين رساله، با استفاده از مفهوم يادگيري تقويتي به دنبال بهينهسازي سفارشدهي و تخصيص محصولات در زنجيره تامين فسادپذير با توجه به چالش¬هاي مطرح شده است. به طور مشخص نوآوري¬ اين پژوهش عبارتست از: (1) ارائه چارچوب تصميم¬گيري تركيبي پويا و تطبيق¬پذير مبتني بر يادگيري تقويتي براي مديريت موجودي و توزيع محصولات فسادپذير، (2) در نظر گرفتن معيار عملكرد نقاط مصرف¬كننده (در اينجا ميزان اتلاف بيمارستان¬ها) در مدل يادگيري تقويتي به منظور بهبود تصميم¬گيري در مورد طرح تداركات، (3) در نظر گرفتن اولويت¬بندي بيمارستان¬ها به صورت پويا بر اساس عملكرد آن¬ها به منظور بهبود طرح توزيع.
بهمنظور ارزيابي عملكرد چارچوب پيشنهادي، چندين مساله آزمايشي و يك توپولوژي واقعي از شبكه بيمارستاني با محوريت محصول پلاكت خون مورد استفاده قرار گرفته است. نتايج حاصله بيانگر اين است كه چارچوب پيشنهادي، موجب صرفهجويي در هزينهها (%12.39)، كاهش اتلاف منابع (17.67%) و بهبود كيفيت انتقال محصولات (%15.47) بعنوان نمونه در يكي از بررسي¬ها شده است. اين رساله، افق جديدي در بهرهگيري از تكنيك¬هاي هوش مصنوعي براي تجويز تصميمات بهينه در زنجيرههاي تأمين فسادپذير ترسيم ميكند.
تاريخ ورود اطلاعات
1404/09/05
عنوان به انگليسي
A hybrid reinforcement learning-based approach to an integrated two-echelon perishable inventory management problem for a product with a fixed life time and substitutes (case study: blood supply chain)
تاريخ بهره برداري
11/22/2025 12:00:00 AM
دانشجوي وارد كننده اطلاعات
سارا چراغي
چكيده به لاتين
Perishable inventory management, especially for blood products, proves complex and challenging due to products’ limited shelf life and diversity. On one hand, wastages result in economic and human-related consequences. On the other hand, shortages may lead to cancellation of critical medical services which pose serious risk to patients’ health. Furthermore, uncertainty in critical parameters such as demand and consumer behavior under such a condition is hard to predict. Some physicians, in response to the risk of shortage, adopt conservative approach and overorder. It may seem rational locally, however, it can destroy the balance in optimal inventory allocation across the broader network with other hospitals. Traditional inventory management approaches, such as periodic-review inventory policies or those applied to deal with uncertainty like stochastic programming, fuzzy programming, robust optimization, or prediction models, often prove inefficient, costly, overly conservative or error-prone. This happens when, in many real-world scenarios, either historical data is insufficient to fit a distribution or environmental dynamics render previous estimates unreliable. In such contexts, the design of a responsive and adaptive decision-making framework becomes essential. Reinforcement learning, a branch of artificial intelligence and machine learning, offers a powerful alternative by learning from interaction with the environment, feedback-based updating to decisions, and adapting to changing conditions. It identifies the optimal decisions for every possible system state. This thesis applies reinforcement learning to optimize ordering and allocation decisions in a perishable supply chain, addressing the above-outlined challenges. Our contributions are threefold: (1) proposing a dynamic and adaptive decision-making framework based on reinforcement learning for inventory and distribution of perishable products, (2) incorporating consumer performance metrics (e.g., hospitals’ wastage) into the reinforcement learning model to enhance the procurement plan, and (3) dynamically prioritizing hospitals based on performance to improve fair distribution. To evaluate the proposed framework over referenced approaches in the literature, several test problems and a real topology are used. Computational results demonstrate that the proposed framework leads to cost savings (12.39%), reduced wastage (17.67%), and improved quality of received products (15.47%). This study opens new avenues for researchers who are willing to apply prescriptive artificial intelligence to optimize decision-making in perishable supply chains.
كليدواژه هاي فارسي
زنجيره تامين محصولات فسادپذير , پلاكت , مديريت موجودي , يادگيري تقويتي عميق , افق برنامه¬ريزي غلتان
كليدواژه هاي لاتين
perishable supply chains , platelets , inventory management , deep reinforcement learninig , rolling planning horizon
Author
Sara Cheraghi
SuperVisor
Abdorrahman Haeri