-
شماره ركورد
11065
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
11065
-
پديد آورنده
حامد كردستانچي
-
عنوان
ارائه سازوكاري جهت پيشبيني زبان منابع موجود در وب قبل از واكشي آنها در فرآيند خزش
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
كامپيوتر - نرمافزار
-
سال تحصيل
ديماه 1391
-
تاريخ دفاع
ديماه 1391
-
استاد راهنما
دكتر حسن نادري
-
چكيده
چكيده
از ديرباز خزش وب به عنوان اصليترين روش گردآوري اطلاعات در موتورهاي جستجو مطرح بوده و كارايي خزش سهم بسزايي در كيفيت نتايج موتورهاي جستجو داشته است. يكي از اساسيترين مسائل مطرح در كارايي خزش، نحوهي امتيازدهي و اولويتبندي پيوندهاي خزش نشده ميباشد. عوامل و پارامترهاي مختلفي در اين امتيازدهي موثرند كه در بين آنها ميتوان از زبان صفحات وب به عنوان يكي از عوامل مهم در خزش عمومي و يك عامل حياتي در خزش ويژهي زباني نام برد. چالش موجود در ارزيابي زبان براي يك پيوند در فرآيند خزش، نبود صفحهي وب مربوط به پيوند ميباشد. در خزش پس از واكشي يك صفحهي وب، پيوندهاي خروجي آن استخراج ميگردند، اما از آنجا كه صفحات وب مربوط به پيوندهاي استخراج شده حاضر نميباشند، بايد از پيشبيني براي سنجش زبان آنها استفاده كرد.
در اين پاياننامه ابتدا دو سازوكار پيشبيني يكي مبتني بر نشانيِ وب و ديگري مبتني بر زمينهي پيوندِ بهينه ارائه شده است. در سازوكار مبتني بر نشانيِ وب، استفاده از يادگيري ماشين در ارتباط با مجموعه ويژگيهاي ساده (مرتبط با نام ميزبان)، كلمهاي و چندگرمي مورد بررسي قرار گرفته است. نتايج ارزيابيها نشان ميدهد كه ويژگيهاي چندگرمي در تركيب با ويژگيهاي ساده بيشترين كارايي را جهت پيشبيني زبان از خود نشان ميدهند به صورتي كه كارايي گزارش شده از نظر معيار-اِف قابل قياس با كارايي تشخيص زبان پس از واكشي بوده و بلكه از نظر زماني بسيار سريعتر ميباشد. در سازوكار مبتني بر زمينهي پيوند، يك چارچوب جديد جهت جمعآوري نمونههاي آزموني ارائه شده و ضمناً فرضيهاي جديد در مورد ارتباط پديدههاي «زمينهي پيوند بهينه» و «محليت زباني» ارائه و اثبات شده است. در انتها يك سازوكار تركيبي پيشبيني كه از تركيب خروجيهاي دو سازوكار ذكر شده به همراه اطلاعات صفحهي حامل پيوند استفاده ميكند، ارائه گشته و تاثير هريك از سازوكارهاي ارائه شده در خزش ويژهي زباني مورد ارزيابي و بررسي قرار گرفته است. نتايج ارزيابي نشان ميدهد كه در كل سازوكار تركيبي پيشبيني در مقايسه با ساير سازوكارها از تاثيرگزاري بيشتري در بهبود كارايي خزش ويژهي زباني برخوردار است. ضمناً لازم به ذكر است كه يك مطالعهي مقايسهاي نيز در مورد عملكرد ابزارهاي تشخيص زبان متون براي تشخيص زبان صفحات وب به عنوان پيشنيازي براي تشخيص زبان زمينهي پيوند و ارزيابي خزش ويژهي زباني انجام شده است.
واژههاي كليدي: خزش وب، خزش ويژهي زباني، تشخيص زبان، صفحه وب، نشانيِ وب، زمينهي پيوند
-
لينک به اين مدرک :