• شماره ركورد
    10853
  • شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
    10853
  • پديد آورنده

    علي هاديان

  • عنوان
    شناسايي و حذف صفحات فريب به صورت شخصي‌شده
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    كامپيوتر
  • سال تحصيل
    آبان ماه1391
  • تاريخ دفاع
    آبان ماه1391
  • استاد راهنما
    دكتر بهروز مينايي بيدگلي
  • چكيده
    چكيده شناساييصفحات فريبيكي از مهم‌ترين مسائل مطرح براي موتورهاي جستجو است. اين صفحات با هدف فريب الگوريتم‌هاي رتبه‌بندي موتورهاي جستجو و حضور در ليست اولين نتايج آن طراحي شده‌اند. از اين رو، وجود پالايه فريب‌شناس در موتورهاي جستجو مي‌تواند كيفيت نتايج جستجو را به نحو موثري بهبود داده و از هدر رفتن منابع جلوگيري كند. در اين پروژه، يك سامانه براي پالايش موثر صفحات فريب در موتور جستجو پيشنهاد شده است. اين پالايه مي‌تواند پس از دريافت هر صفحه بر روي آن اعمال شود و از اين رو كاملاً مقياس‌پذير است. در ابتدا، فرآيند تهيه دادگان اوليه با برچسب‌‌گذاريصفحات فريب و غير فريب از بين نتايج جستجو‌هاي كاربران انجام مي‌شود. اين كار باعث مي‌شود كه داده‌هاي آموزشي حتي‌الامكان به داده‌هاي مورد ارزيابي نزديك باشند. همچنين به منظور بهبود كيفيت مجموعه آموزشي و عملكرد كاربران، يك روش سريع براي حذف نتايج تقريباً مشابه از ليست نتايج با پردازش متن بريده‌ي صفحات پيشنهاد شده است. در ادامه، يك پالايه دو مرحله‌اي براي شناساييصفحات فريب ارائه شده است. در اين پالايه، مناسب‌ترين روش‌‌هاي مطرح در اين حوزه انتخاب شده و به عنوان رده‌بندهاي پايه مورد استفاده قرار گرفته‌اند. سپس يك مدل تجميعي براي ادغام نتايج اين رده‌بند‌ها و اعلام پيش‌بيني نهايي پيشنهاد شده است. خروجي نهايي اين سامانه در مقايسه با مدل‌‌هاي پايه افزايش قابل توجهي داشته است. با توجه به كيفيت متفاوت نظرات كاربران، جمع‌آوري مجموعه آموزشي براي سامانه فريب‌شناس، سخت‌ترين مرحله كار محسوب مي‌شود. مشابه كارهاي قبلي، در اين پروژه نيز كيفيت همه نمونه‌ها در دادگان اوليه مناسب نبود. از اين رو يك روش مبتني بر سنجش اشخاص (شخصي‌سازي) براي ساخت دادگان با كيفيت بهتر پيشنهاد شده است. به همين منظور، از ضريب كاپاي كوهن براي سنجش ميزان توافق كاربران با يكديگر در برچسب‌گذاري صفحات بهره جسته و از ميانگين مقدار اين ضريب براي هر كاربر به عنوان تخميني برايكيفيت خروجيآن كاربر استفاده شده است. با حذف كاربراني كه كمترين توافق را با ساير كاربران داشته‌اند، كيفيت عملكرد سيستم در مقايسه با حالت قبلي (سامانه پيشنهادي در حالت پايه) بهبود قابل توجهي داشته است. واژه‌هاي كليدي:بازيابي خصمانه اطلاعات، شناساييصفحات فريب، شخصي‌سازي