• شماره ركورد
    11065
  • شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
    11065
  • پديد آورنده

    حامد كردستانچي

  • عنوان
    ارائه‌ سازوكاري جهت پيش‌بيني زبان منابع موجود در وب قبل از واكشي آن‌ها در فرآيند خزش
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    كامپيوتر - نرم‌افزار
  • سال تحصيل
    دي‌ماه 1391
  • تاريخ دفاع
    دي‌ماه 1391
  • استاد راهنما
    دكتر حسن نادري
  • چكيده
    چكيده از ديرباز خزش وب به عنوان اصلي‌ترين روش گردآوري اطلاعات در موتورهاي جستجو مطرح بوده و كارايي خزش سهم بسزايي در كيفيت نتايج موتورهاي جستجو داشته است. يكي از اساسي‌ترين مسائل مطرح در كارايي خزش، نحوه‌ي امتيازدهي و اولويت‌بندي پيوندهاي خزش نشده مي‌باشد. عوامل و پارامترهاي مختلفي در اين امتيازدهي موثرند كه در بين آن‌ها مي‌توان از زبان صفحات وب به عنوان يكي از عوامل مهم در خزش عمومي و يك عامل حياتي در خزش ويژه‌ي زباني نام برد. چالش موجود در ارزيابي زبان براي يك پيوند در فرآيند خزش، نبود صفحه‌ي وب مربوط به پيوند مي‌باشد. در خزش پس از واكشي يك صفحه‌ي وب، پيوندهاي خروجي آن استخراج مي‌گردند، اما از آنجا كه صفحات وب مربوط به پيوندهاي استخراج شده حاضر نمي‌باشند، بايد از پيش‌بيني براي سنجش زبان آن‌ها استفاده كرد. در اين پايان‌نامه ابتدا دو سازوكار پيش‌بيني يكي مبتني بر نشانيِ وب و ديگري مبتني بر زمينه‌ي پيوندِ بهينه ارائه شده است. در سازوكار مبتني بر نشانيِ‌ وب، استفاده از يادگيري ماشين در ارتباط با مجموعه‌ ويژگي‌هاي‌ ساده (مرتبط با نام ميزبان)، كلمه‌اي و چندگرمي مورد بررسي قرار گرفته است. نتايج ارزيابي‌ها نشان مي‌دهد كه ويژگي‌هاي چندگرمي در تركيب با ويژگي‌هاي ساده بيشترين كارايي را جهت پيش‌بيني زبان از خود نشان مي‌دهند به صورتي كه كارايي گزارش شده از نظر معيار-اِف قابل قياس با كارايي تشخيص زبان پس از واكشي بوده و بلكه از نظر زماني بسيار سريع‌تر مي‌باشد. در سازوكار مبتني بر زمينه‌ي پيوند، يك چارچوب جديد جهت جمع‌آوري نمونه‌هاي آزموني ارائه شده و ضمناً فرضيه‌اي جديد در مورد ارتباط پديده‌هاي «زمينه‌ي پيوند بهينه» و «محليت زباني» ارائه و اثبات شده است. در انتها يك سازوكار تركيبي پيش‌بيني كه از تركيب خروجي‌هاي دو سازوكار ذكر شده به همراه اطلاعات صفحه‌ي حامل پيوند استفاده مي‌كند، ارائه گشته و تاثير هريك از سازوكارهاي ارائه شده در خزش ويژه‌ي زباني مورد ارزيابي و بررسي قرار گرفته است. نتايج ارزيابي نشان مي‌دهد كه در كل سازوكار تركيبي پيش‌بيني در مقايسه با ساير سازوكارها از تاثيرگزاري بيشتري در بهبود كارايي خزش ويژه‌ي زباني برخوردار است. ضمناً لازم به ذكر است كه يك مطالعه‌ي مقايسه‌اي نيز در مورد عملكرد ابزارهاي تشخيص زبان متون براي تشخيص زبان صفحات وب به عنوان پيش‌نيازي براي تشخيص زبان زمينه‌ي پيوند و ارزيابي خزش ويژه‌ي زباني انجام شده است. واژه‌هاي كليدي: خزش وب، خزش ويژه‌ي زباني، تشخيص زبان، صفحه وب، نشانيِ‌ وب، زمينه‌ي پيوند