• شماره ركورد
    14976
  • عنوان
    بررسي روش‌هاي نمونه‌گيري براي مسائل با داده‌‌گان نامتوازن در دسته‌بندهاي مبتني بر يادگيري ماشين
  • سال تحصيل
    1400
  • استاد راهنما
    دكتر هادي‌شهريار شاه‌حسيني
  • چکيده
    عدم توازن داده‌ يكي از چالش‌هاي اصلي در دسته‌بندي يادگيري ماشين است، به‌ويژه در حوزه‌هايي همچون كشف تقلب، تشخيص پزشكي و شناسايي ناهنجاري كه دسته‌هاي اقليت اهميت زيادي دارند. دسته‌بندهاي استاندارد معمولاً نسبت به دسته اكثريت سوگيري نشان مي‌دهند و در شناسايي موارد نادر اما حياتي عملكرد ضعيفي دارند. اين سمينار، مهم‌ترين روش‌هاي نمونه‌برداري براي مقابله با مشكل داده‌ نامتوازن را به‌صورت جامع بررسي كرده و بر مداخلات در سطح داده و سطح الگوريتم تمركز دارد. در سطح داده، تكنيك‌هاي كم‌نمونه‌گيري و بيش‌نمونه‌گيري از جمله Random Over-Sampling (ROS) و روش‌هاي تركيبي پيچيده مانند SMOTE و گونه‌هاي آن تحليل شده و مكانيسم‌ها، مزايا و محدوديت‌هاي آن‌ها تبيين مي‌گردد. همچنين، راهكارهاي سطح الگوريتم، از جمله يادگيري حساس به هزينه و تنظيم آستانه تصميم نيز مورد بحث قرار گرفته‌اند. اين مرور به بررسي پيشرفت‌هاي اخير در نمونه‌برداري آنلاين و تطبيقي با استفاده از الگوريتم‌هاي تركيبي از جمله شبكه‌هاي مولد متخاصم GAN نيز مي‌پردازد. در اين سمينار همچنين تعامل بين راهبردهاي نمونه‌برداري، سنجه‌هاي ارزيابي مدل مانند يادآوري، دقت، F-measure و (ROC-AUC) در مقابله با عدم توازن دسته‌ها مورد تأكيد قرار گرفته است. دستورالعمل‌هاي كاربردي براي انتخاب روش نمونه‌برداري مناسب بر اساس ويژگي‌هاي مسئله، حجم داده و محدوديت‌هاي زمان‌واقعي ارائه مي‌شود. افزون بر اين، شكاف‌ها و چالش‌هاي پژوهشي فعلي نظير مواجهه با عدم توازن شديد، تغيير مفهوم در محيط‌هاي پويا، و ريسك بيش‌برازش به كلاس اقليت بررسي شده است. اين مرور با ارائه پيشنهادهايي براي مسيرهاي آتي، مانند چارچوب‌هاي تركيبي و تطبيقي، تلفيق با معماري‌هاي يادگيري عميق، و توسعه معيارهاي ارزيابي متناسب با عملكرد دسته‌ي اقليت، به پايان مي‌رسد. در مجموع اين سمينار، مروري جامع و به‌روز بر تكنيك‌هاي نمونه‌برداري و پيامدهاي عملي آن‌ها در مسائل دسته‌بندي داده نامتوازن در يادگيري ماشين ارائه مي‌دهد.
  • نام دانشجو

    سيدسروش صدرائي

  • تاريخ ارائه
    5/28/2025 12:00:00 AM
  • متن كامل
    87301
  • پديد آورنده

    سيد سروش صدرائي

  • تاريخ ورود اطلاعات
    1404/06/29
  • عنوان به انگليسي
    A Review on Sampling Methods for Imbalanced Data Problems in Machine Learning Classification
  • كليدواژه هاي فارسي
    داده نامتوازن، يادگيري ماشين،كلاس اقليت، نمونه‌گيري، بيش‌نمونه‌گيري، ROS ، SMOTE ، يادگيري حساس به هزينه، سنجه‌هاي ارزيابي، GAN، بيش‌برازش، روش‌هاي تركيبي