محسن حاجي قرباني

عنوان

يادگيري نيمه ناظر روي اسناد فارسي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

هوش مصنوعي و رباتيك

تاريخ دفاع

ارديبهشت ماه 1395

استاد راهنما

دكتر بهروز مينايي

دانشكده

كامپيوتر

چكيده

چكيده امروزه با افزايش روزافزون حجم اطلاعات، وجود سيستمي براي رده‌بندي خودكار متون، ضروري به نظر مي‌رسد. در 10 سال اخير، مديريت مبتني بر محتواي متون به علت رشد سريع و در دسترس قرار گرفتن اسناد متني به شكل ديجيتالي از اهميتي دوچندان برخوردار شده است. رده‌بندي متون به عمل برچسب‌گذاري موضوعي متون زبان طبيعي بر مبناي يك مجموعه از پيش تعيين‌شده، اطلاق مي‌شود. هم‌اكنون رده‌بندي متون در بسياري از زمينه‌ها از شاخص گذاري متون بر مبناي يك واژه‌نامه كنترل‌شده تا فيلتر كردن متون، توليد خودكار فراداده، ابهام‌زدايي از كلمه، توليد كاتالوگ‌هاي سلسله‌مراتبي از منابع موجود در وب و به‌طوركلي در هر موردي كه سازمان‌دهي مستندات يا توزيع انتخابي و تطبيقي خاصي از مستندات مدنظر باشد، كاربرد دارد. استفاده از روش‌هاي داده‌كاوي براي رده‌بندي خودكار داده‌هاي متني بدون ساختار در سال‌هاي اخير بسيار چشم‌گير بوده است. دليل اصلي استفاده از روش‌هاي داده‌كاوي براي اسناد متني، توليد ساختار مناسب از آن‌ها است. ازجمله روش‌هاي موجود براي ساختاربندي كردن اين مجموعه داده‌ها عبارت‌اند از: روش‌هاي يادگيري به انظارت (رده‌بندي) و روش‌هاي يادگيري بدون نظارت (خوشه‌بندي). يادگيري نيمه نظارتي نيز نوعي از روش‌هاي يادگيري ماشين است كه حد واصل يادگيري به انظارت (جايي كه داده‌ها حاوي برچسب باشند) و يادگيري بدون نظارت (جايي كه داده‌ها فاقد برچسب باشند) قرار دارد. در اين نوع يادگيري نسبت معمولاً كمي از داده‌ها برچسب‌گذاري شده‌اند و حجم عظيمي از داده‌ها نيز فاقد برچسب مي‌باشند، كه در آن، ماشين با يادگيري داده‌هاي برچسب‌گذاري شده به يادگيري داده‌هاي فاقد برچسب خواهد پرداخت. با توجه به اينكه حجم بسيار زيادي از داده‌هاي موجود و قابل‌دسترس در اسناد مختلف متني، علي‌رغم تعداد بسيار كمي از آن‌ها، فاقد برچسب آموزشي مي‌باشند، روش‌هاي يادگيري با ناظر با چالش بزرگي براي رده‌بندي متون روبرو مي‌شوند. لذا استفاده از روش‌هاي يادگيري نيمه نظارتي با استفاده از تعداد زياد داده بدون برچسب در جهت ساخت رده‌بند كارآمدتر براي رده‌بندي اين اسناد ايده مناسبي به نظر مي‌رسد. در زمينه يادگيري نيمه نظارتي روي اسناد فارسي، فعاليت‌هاي چنداني انجام‌نشده است و در مجموعه قليل كارهاي انجام‌شده، روش مؤثري براي رده‌بندي متون فارسي در مواقعي كه حجم عظيمي از داده‌ها فاقد برچسب و تعداد اندكي از آن برچسب‌گذاري شده باشند، ارائه نشده است. در اين پژوهش، ضمن بررسي روش‌هاي يادگيري نيمه نظارتي براي رده‌بندي اسناد متني در زبان فارسي، از يك روش مبتني بر گراف شامل استفاده از تابع هارمونيك و ميدان تصادفي گوسي براي اين مسئله بهره گرفته شد. نتايج تجربي بروري مجموعه داده‌هاي جمع‌آوري‌شده از اسناد فارسي تحت وب حاكي از آن است كه روش بكار گرفته‌شده در اين پژوهش عملكرد قابل‌توجهي بر روي دقت و بازخواني رده‌بندي متون فارسي نسبت به برخي از روش‌هاي پايه دارد. كلمات كليدي: داده‌كاوي، متن‌كاوي، پردازش زبان طبيعي، يادگيري نيمه نظارتي

تاريخ ورود اطلاعات

1396/01/16

تاريخ بهره برداري

1/1/1900 12:00:00 AM

دانشجوي وارد كننده اطلاعات

اعظم صادقي

Name: اعظم صادقي
Author: محسن حاجي قرباني

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=16998&Field=0&DTC=6