شماره ركورد
11065
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
11065
پديد آورنده
حامد كردستانچي
عنوان
ارائه سازوكاري جهت پيشبيني زبان منابع موجود در وب قبل از واكشي آنها در فرآيند خزش
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
كامپيوتر - نرمافزار
سال تحصيل
ديماه 1391
تاريخ دفاع
ديماه 1391
استاد راهنما
دكتر حسن نادري
چكيده
چكيده
از ديرباز خزش وب به عنوان اصليترين روش گردآوري اطلاعات در موتورهاي جستجو مطرح بوده و كارايي خزش سهم بسزايي در كيفيت نتايج موتورهاي جستجو داشته است. يكي از اساسيترين مسائل مطرح در كارايي خزش، نحوهي امتيازدهي و اولويتبندي پيوندهاي خزش نشده ميباشد. عوامل و پارامترهاي مختلفي در اين امتيازدهي موثرند كه در بين آنها ميتوان از زبان صفحات وب به عنوان يكي از عوامل مهم در خزش عمومي و يك عامل حياتي در خزش ويژهي زباني نام برد. چالش موجود در ارزيابي زبان براي يك پيوند در فرآيند خزش، نبود صفحهي وب مربوط به پيوند ميباشد. در خزش پس از واكشي يك صفحهي وب، پيوندهاي خروجي آن استخراج ميگردند، اما از آنجا كه صفحات وب مربوط به پيوندهاي استخراج شده حاضر نميباشند، بايد از پيشبيني براي سنجش زبان آنها استفاده كرد.
در اين پاياننامه ابتدا دو سازوكار پيشبيني يكي مبتني بر نشانيِ وب و ديگري مبتني بر زمينهي پيوندِ بهينه ارائه شده است. در سازوكار مبتني بر نشانيِ وب، استفاده از يادگيري ماشين در ارتباط با مجموعه ويژگيهاي ساده (مرتبط با نام ميزبان)، كلمهاي و چندگرمي مورد بررسي قرار گرفته است. نتايج ارزيابيها نشان ميدهد كه ويژگيهاي چندگرمي در تركيب با ويژگيهاي ساده بيشترين كارايي را جهت پيشبيني زبان از خود نشان ميدهند به صورتي كه كارايي گزارش شده از نظر معيار-اِف قابل قياس با كارايي تشخيص زبان پس از واكشي بوده و بلكه از نظر زماني بسيار سريعتر ميباشد. در سازوكار مبتني بر زمينهي پيوند، يك چارچوب جديد جهت جمعآوري نمونههاي آزموني ارائه شده و ضمناً فرضيهاي جديد در مورد ارتباط پديدههاي «زمينهي پيوند بهينه» و «محليت زباني» ارائه و اثبات شده است. در انتها يك سازوكار تركيبي پيشبيني كه از تركيب خروجيهاي دو سازوكار ذكر شده به همراه اطلاعات صفحهي حامل پيوند استفاده ميكند، ارائه گشته و تاثير هريك از سازوكارهاي ارائه شده در خزش ويژهي زباني مورد ارزيابي و بررسي قرار گرفته است. نتايج ارزيابي نشان ميدهد كه در كل سازوكار تركيبي پيشبيني در مقايسه با ساير سازوكارها از تاثيرگزاري بيشتري در بهبود كارايي خزش ويژهي زباني برخوردار است. ضمناً لازم به ذكر است كه يك مطالعهي مقايسهاي نيز در مورد عملكرد ابزارهاي تشخيص زبان متون براي تشخيص زبان صفحات وب به عنوان پيشنيازي براي تشخيص زبان زمينهي پيوند و ارزيابي خزش ويژهي زباني انجام شده است.
واژههاي كليدي: خزش وب، خزش ويژهي زباني، تشخيص زبان، صفحه وب، نشانيِ وب، زمينهي پيوند