-
شماره ركورد
16998
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
16998
-
پديد آورنده
محسن حاجي قرباني
-
عنوان
يادگيري نيمه ناظر روي اسناد فارسي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
هوش مصنوعي و رباتيك
-
تاريخ دفاع
ارديبهشت ماه 1395
-
استاد راهنما
دكتر بهروز مينايي
-
دانشكده
كامپيوتر
-
چكيده
چكيده
امروزه با افزايش روزافزون حجم اطلاعات، وجود سيستمي براي ردهبندي خودكار متون، ضروري به نظر ميرسد. در 10 سال اخير، مديريت مبتني بر محتواي متون به علت رشد سريع و در دسترس قرار گرفتن اسناد متني به شكل ديجيتالي از اهميتي دوچندان برخوردار شده است. ردهبندي متون به عمل برچسبگذاري موضوعي متون زبان طبيعي بر مبناي يك مجموعه از پيش تعيينشده، اطلاق ميشود. هماكنون ردهبندي متون در بسياري از زمينهها از شاخص گذاري متون بر مبناي يك واژهنامه كنترلشده تا فيلتر كردن متون، توليد خودكار فراداده، ابهامزدايي از كلمه، توليد كاتالوگهاي سلسلهمراتبي از منابع موجود در وب و بهطوركلي در هر موردي كه سازماندهي مستندات يا توزيع انتخابي و تطبيقي خاصي از مستندات مدنظر باشد، كاربرد دارد.
استفاده از روشهاي دادهكاوي براي ردهبندي خودكار دادههاي متني بدون ساختار در سالهاي اخير بسيار چشمگير بوده است. دليل اصلي استفاده از روشهاي دادهكاوي براي اسناد متني، توليد ساختار مناسب از آنها است. ازجمله روشهاي موجود براي ساختاربندي كردن اين مجموعه دادهها عبارتاند از: روشهاي يادگيري به انظارت (ردهبندي) و روشهاي يادگيري بدون نظارت (خوشهبندي). يادگيري نيمه نظارتي نيز نوعي از روشهاي يادگيري ماشين است كه حد واصل يادگيري به انظارت (جايي كه دادهها حاوي برچسب باشند) و يادگيري بدون نظارت (جايي كه دادهها فاقد برچسب باشند) قرار دارد. در اين نوع يادگيري نسبت معمولاً كمي از دادهها برچسبگذاري شدهاند و حجم عظيمي از دادهها نيز فاقد برچسب ميباشند، كه در آن، ماشين با يادگيري دادههاي برچسبگذاري شده به يادگيري دادههاي فاقد برچسب خواهد پرداخت.
با توجه به اينكه حجم بسيار زيادي از دادههاي موجود و قابلدسترس در اسناد مختلف متني، عليرغم تعداد بسيار كمي از آنها، فاقد برچسب آموزشي ميباشند، روشهاي يادگيري با ناظر با چالش بزرگي براي ردهبندي متون روبرو ميشوند. لذا استفاده از روشهاي يادگيري نيمه نظارتي با استفاده از تعداد زياد داده بدون برچسب در جهت ساخت ردهبند كارآمدتر براي ردهبندي اين اسناد ايده مناسبي به نظر ميرسد. در زمينه يادگيري نيمه نظارتي روي اسناد فارسي، فعاليتهاي چنداني انجامنشده است و در مجموعه قليل كارهاي انجامشده، روش مؤثري براي ردهبندي متون فارسي در مواقعي كه حجم عظيمي از دادهها فاقد برچسب و تعداد اندكي از آن برچسبگذاري شده باشند، ارائه نشده است. در اين پژوهش، ضمن بررسي روشهاي يادگيري نيمه نظارتي براي ردهبندي اسناد متني در زبان فارسي، از يك روش مبتني بر گراف شامل استفاده از تابع هارمونيك و ميدان تصادفي گوسي براي اين مسئله بهره گرفته شد. نتايج تجربي بروري مجموعه دادههاي جمعآوريشده از اسناد فارسي تحت وب حاكي از آن است كه روش بكار گرفتهشده در اين پژوهش عملكرد قابلتوجهي بر روي دقت و بازخواني ردهبندي متون فارسي نسبت به برخي از روشهاي پايه دارد.
كلمات كليدي: دادهكاوي، متنكاوي، پردازش زبان طبيعي، يادگيري نيمه نظارتي
-
تاريخ ورود اطلاعات
1396/01/16
-
تاريخ بهره برداري
1/1/1900 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
اعظم صادقي
-
لينک به اين مدرک :