شماره ركورد
14976
عنوان
بررسي روشهاي نمونهگيري براي مسائل با دادهگان نامتوازن در دستهبندهاي مبتني بر يادگيري ماشين
سال تحصيل
1400
استاد راهنما
دكتر هاديشهريار شاهحسيني
چکيده
عدم توازن داده يكي از چالشهاي اصلي در دستهبندي يادگيري ماشين است، بهويژه در حوزههايي همچون كشف تقلب، تشخيص پزشكي و شناسايي ناهنجاري كه دستههاي اقليت اهميت زيادي دارند. دستهبندهاي استاندارد معمولاً نسبت به دسته اكثريت سوگيري نشان ميدهند و در شناسايي موارد نادر اما حياتي عملكرد ضعيفي دارند. اين سمينار، مهمترين روشهاي نمونهبرداري براي مقابله با مشكل داده نامتوازن را بهصورت جامع بررسي كرده و بر مداخلات در سطح داده و سطح الگوريتم تمركز دارد. در سطح داده، تكنيكهاي كمنمونهگيري و بيشنمونهگيري از جمله Random Over-Sampling (ROS) و روشهاي تركيبي پيچيده مانند SMOTE و گونههاي آن تحليل شده و مكانيسمها، مزايا و محدوديتهاي آنها تبيين ميگردد. همچنين، راهكارهاي سطح الگوريتم، از جمله يادگيري حساس به هزينه و تنظيم آستانه تصميم نيز مورد بحث قرار گرفتهاند. اين مرور به بررسي پيشرفتهاي اخير در نمونهبرداري آنلاين و تطبيقي با استفاده از الگوريتمهاي تركيبي از جمله شبكههاي مولد متخاصم GAN نيز ميپردازد. در اين سمينار همچنين تعامل بين راهبردهاي نمونهبرداري، سنجههاي ارزيابي مدل مانند يادآوري، دقت، F-measure و (ROC-AUC) در مقابله با عدم توازن دستهها مورد تأكيد قرار گرفته است. دستورالعملهاي كاربردي براي انتخاب روش نمونهبرداري مناسب بر اساس ويژگيهاي مسئله، حجم داده و محدوديتهاي زمانواقعي ارائه ميشود. افزون بر اين، شكافها و چالشهاي پژوهشي فعلي نظير مواجهه با عدم توازن شديد، تغيير مفهوم در محيطهاي پويا، و ريسك بيشبرازش به كلاس اقليت بررسي شده است. اين مرور با ارائه پيشنهادهايي براي مسيرهاي آتي، مانند چارچوبهاي تركيبي و تطبيقي، تلفيق با معماريهاي يادگيري عميق، و توسعه معيارهاي ارزيابي متناسب با عملكرد دستهي اقليت، به پايان ميرسد. در مجموع اين سمينار، مروري جامع و بهروز بر تكنيكهاي نمونهبرداري و پيامدهاي عملي آنها در مسائل دستهبندي داده نامتوازن در يادگيري ماشين ارائه ميدهد.
نام دانشجو
سيدسروش صدرائي
تاريخ ارائه
5/28/2025 12:00:00 AM
متن كامل
87301
پديد آورنده
سيد سروش صدرائي
تاريخ ورود اطلاعات
1404/06/29
عنوان به انگليسي
A Review on Sampling Methods for Imbalanced Data Problems in Machine Learning Classification
كليدواژه هاي فارسي
داده نامتوازن، يادگيري ماشين،كلاس اقليت، نمونهگيري، بيشنمونهگيري، ROS ، SMOTE ، يادگيري حساس به هزينه، سنجههاي ارزيابي، GAN، بيشبرازش، روشهاي تركيبي