-
شماره ركورد
15331
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
15331
-
پديد آورنده
مهدي دهقاني سانيج
-
عنوان
ارائهي روشي جهت ساخت و استفادهي نمايهسازي معكوس پويا در موتورهاي جستجو
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
نرم افزار
-
سال تحصيل
اسفند ماه1393
-
تاريخ دفاع
اسفند ماه1393
-
استاد راهنما
دكتر حسن نادري
-
دانشكده
كامپيوتر
-
چكيده
چكيده
امروزه مباحث زيادي در مورد حجم وسيع اطلاعاتي كه به صورت پويا و لحظه¬اي در حال افزايش و تغيير هستند مطرح است كه از جملهي اين بحثها ميتوان به انجام عمليات جستوجو در ميان اسناد اشاره كرد. موتورهاي جست¬وجوي متنييكي از كارآمدترين ابزارهاي موجود براي جست¬وجو در حجم زياد از اطلاعات است. كارآيي بالاي اين موتورها بدليل استفاده از ساختمان¬داده¬ي " نمايه¬ي معكوس" در قلب آنها است. سرعت اين نمايه¬ها وابسته به حجم داده¬اي است كه در خود ذخيره كرده¬اند. از اين رو محققين سعي در يافتن روش¬هايي براي كاهش حجم اين نمايه¬ها هستند تا به وسيله¬ي آن بتوانند سرعت موتورهاي جست¬وجو را افزايش دهند. تحقيقات جديد انجام شده نشان مي¬دهد كه يافتن ترتيب مناسبي از اسناد براي تخصيص شناسه¬ي جديد به آنها مي¬تواند حجم نمايه¬ي معكوس را تا حد زيادي كاهش دهد.
در اين پايان¬نامه ابتدا يك مدل جديد براي نمايش مجموعه اسناد در قالب يك گراف دوبخشي ارائه شده است. هر يال از اين گراف متناظر با يك پستينگ از نمايه¬ي معكوس است و وزن آن برابر حجمي است كه آن پستينگ بر روي ديسك اشغال كرده است. با مدل ارائه شده مسأله¬ي شناسه¬گذاري مجدد اسناد به مسآله¬ي برچسب گذاري در نظريه گراف¬ها تبديل مي¬شود. پس از آن الگوريتمي ارائه شده است كه با تخصيص شناسه¬ي جديد به رأس¬هاي گراف، مجموع وزن يال¬هاي گراف را كاهش مي¬دهد. طبيعتاً با كاهش مجموع وزن يال¬ها، حجم نمايه¬ي متناظر با آن نيز كاهش مي¬يابد. بدليل تعداد بالاي رأس¬ها و يال-هاي گراف موردنظر، تعداد پردازش¬هاي لازم براي يافتن شناسه¬هاي جديد بسيار زياد است. براي كاهش تعداد پردازش¬ها و متناسب با آن كاهش زمان اجراي الگوريتم ارائه شده، يك الگوريتم خلاصه¬سازي گراف نيز ارائه شده است. در اين الگوريتم رأس¬هايي از گراف كه تأثير زيادي در عمليات شناسه¬گذاري ندارند از گراف حذف شده و در نتيجه سرعت اجراي الگوريتم بالاتر مي¬رود.
نتايج حاصل از پياده¬سازي اين روش و نمودارهاي ارائه شده نشان مي¬دهد كه با تخصيص مجدد شناسه به اسناد حجم نمايه¬ي معكوس را مي¬توان بين 15% تا 45% كاهش داد.
همچنين با اجراي اين الگوريتم بر روي نمايه¬ي معكوس پويا مي¬توان حجم نمايه¬ي نهايي را تا 30% كاهش داد.كه اين امر تأثير مستقيم در بالا رفتن سرعت بازيابي اطلاعات در نمايه¬ي معكوس دارد.
واژههاي كليدي:نمايه ي معكوس، فشرده سازي، برچسب گذاري گراف، شناسه گذاري مجدد اسناد
-
لينک به اين مدرک :