-
شماره ركورد
31466
-
پديد آورنده
محمد جواد ميرشكاري حقيقي
-
عنوان
بهبود كيفيت مجموعه داده با تمركز بر پيدا كردن برچسب هاي داراي خطا در يادگيري با ناظر
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر
-
سال تحصيل
1403
-
تاريخ دفاع
1403/7/15
-
استاد راهنما
محمد رضا محمدي
-
استاد مشاور
ندارم
-
دانشكده
مهندسي كامپيوتر
-
چكيده
موفقيت چشمگير شبكه هاي عصبي عميق عمدتاً به مجموعه داده هاي وسيع و برچسب گذاري شده نسبت داده ميشود با اين حال تهيه چنين داده هايي هم هزينه بر و هم زمان بر .است به عنوان يك جايگزين روش هايي مانند جمع سپاري و استخراج برچسب از متون همراه تصاوير وب براي كاهش هزينه و زمان به كار گرفته مي شود. جمع سپاري به مشاركت افراد غير متخصص براي برچسب گذاري داده ها تكيه دارد كه به رغم سرعت بيشتر به دليل تفاوت در تخصص مشاركت كنندگان باعث بروز خطاها و ناسازگاريها ميشود. همچنين استخراج برچسبها از متون ،وب هر چند كارآمدتر است، به دليل نويز موجود در داده هاي وب، دچار اشتباهات ميشود. متاسفانه اين روشها منجر به ورود نويز به مجموعه داده هاي واقعي شدهاند و وجود برچسب هاي نادرست در فرآيند يادگيري منجر به كاهش دقت و كارايي مدل ميشود و اهميت توسعه روشهاي مقاوم براي شناسايي و مديريت برچسبهاي نادرست را برجسته مي سازد مقابله با اين چالش نيازمند رويكردهايي براي شناسايي و اصلاح برچسبهاي نادرست است تا دقت و استحكام مدلهاي يادگيري عميق در كاربردهاي عملي حفظ شود. در اين پژوهش به منظور ارائه راهكاري براي اصلاح برچسبهاي نادرست در مجموعه داده ها، ابتدا به ارزيابي سنجه هايي براي تفكيك داده هاي نويزي پرداخته ايم و در ادامه، سنجه پايداري براي تفكيك داده هاي نويزي معرفي شده است. سپس به منظور اصلاح برچسبهاي نادرست و يادگيري در فضاي ،نويزي با استفاده از اين سنجه در كنار چارچوب اصلاح برچسب نادرست و انتخاب نمونه هاي مطمئن در كنار يادگيري نيمه نظارتي به آموزش يك مدل مقاوم در برابر فضاي نويزي پرداخته ايم.در ادامه روش پيشنهادي را از دو جنبه ي توانايي آن در اصلاح برچسبهاي نادرست و يادگيري در فضاي نويزي ارزيابي كرده ايم براي اين ارزيابي از مجموعه داده هايي با نويز مصنوعي و طبيعي مانند CIFAR10N و ANIMAL10N استفاده شده است. ودر نويزهاي مصنوعي دقت مدل در داده هاي آزمون به طور ميانگين 0/88٪ در نويزهاي كمتر از 50٪ و در نويزهاي طبيعي به طور ميانگين 0/14٪ بهبود يافته است، همچنين روش پيشنهادي توانسته در نويزهاي مصنوعي مختلف به طور ميانگين تا 73 برچسبهاي نادرست را اصلاح كند و به امتياز F1 98/29 در تشخيص برچسبهاي نادرست دست يابد.
-
تاريخ ورود اطلاعات
1403/08/07
-
عنوان به انگليسي
Improving dataset quality by focusing on finding noisy labels in supervised learning
-
تاريخ بهره برداري
10/6/2025 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
محمدجواد ميرشكاري حقيقي
-
چكيده به لاتين
The success of deep neural networks largely relies on large, labeled datasets, which are costly and time-consuming to acquire. To address this, methods like crowdsourcing and extracting labels from web texts are used to reduce costs and time. Crowdsourcing involves non-experts for data labeling, leading to potential errors and inconsistencies. Similarly, while extracting labels from web texts is efficient, it often suffers from errors due to noise in web data.Unfortunately, these methods have resulted in noise entering real-world datasets, and the presence of incorrect labels in the learning process leads to a decrease in model accuracy and efficiency, highlighting the importance of developing robust methods for identifying and managing incorrect labels. Addressing this challenge requires approaches for identifying and correcting incorrect labels to maintain the accuracy and robustness of deep learning models in practical applications. In this research, to provide a solution for correcting incorrect labels in datasets, we first evaluate metrics for separating noisy data, followed by the introduction of a stability metric for distinguishing noisy data. Then, in order to correct incorrect labels and learn in a noisy space, we focus on training a robust model in a noisy environment using this metric alongside a framework for correcting incorrect labels and selecting reliable samples, combined with semi-supervised learning.Subsequently, we evaluate the proposed method from two aspects: its ability to correct incorrect labels and learn in a noisy space. For this evaluation, we utilize datasets with both artificial and natural noise, such as CIFAR10N and ANIMAL10N.In the case of artificial noise, the model's accuracy on test data has improved on average by 0.88% for noise levels below 50%, while in natural noise, it has improved by an average of 0.14%. Additionally, the proposed method has successfully corrected on average up to 73% of incorrect labels across various artificial noise levels, achieving an F1 score of 98.29 in detecting incorrect labels.
-
كليدواژه هاي فارسي
برچسبهاي نادرست , مجموعه دادههاي نويزي , شبكههاي عصبي عميق , اصلاح برچسب , مدل مقاوم , پايداري برچسب
-
كليدواژه هاي لاتين
incorrect labels , noisy datasets , deep neural network , label correction , semi-supervised learning , robust model , label stability
-
Author
mohammad javad mirshekari haghighi
-
SuperVisor
Dr.mohammad reza mohammadi
-
لينک به اين مدرک :