چكيده
چكيده
شناساييصفحات فريبيكي از مهمترين مسائل مطرح براي موتورهاي جستجو است. اين صفحات با هدف فريب الگوريتمهاي رتبهبندي موتورهاي جستجو و حضور در ليست اولين نتايج آن طراحي شدهاند. از اين رو، وجود پالايه فريبشناس در موتورهاي جستجو ميتواند كيفيت نتايج جستجو را به نحو موثري بهبود داده و از هدر رفتن منابع جلوگيري كند.
در اين پروژه، يك سامانه براي پالايش موثر صفحات فريب در موتور جستجو پيشنهاد شده است. اين پالايه ميتواند پس از دريافت هر صفحه بر روي آن اعمال شود و از اين رو كاملاً مقياسپذير است.
در ابتدا، فرآيند تهيه دادگان اوليه با برچسبگذاريصفحات فريب و غير فريب از بين نتايج جستجوهاي كاربران انجام ميشود. اين كار باعث ميشود كه دادههاي آموزشي حتيالامكان به دادههاي مورد ارزيابي نزديك باشند. همچنين به منظور بهبود كيفيت مجموعه آموزشي و عملكرد كاربران، يك روش سريع براي حذف نتايج تقريباً مشابه از ليست نتايج با پردازش متن بريدهي صفحات پيشنهاد شده است.
در ادامه، يك پالايه دو مرحلهاي براي شناساييصفحات فريب ارائه شده است. در اين پالايه، مناسبترين روشهاي مطرح در اين حوزه انتخاب شده و به عنوان ردهبندهاي پايه مورد استفاده قرار گرفتهاند. سپس يك مدل تجميعي براي ادغام نتايج اين ردهبندها و اعلام پيشبيني نهايي پيشنهاد شده است. خروجي نهايي اين سامانه در مقايسه با مدلهاي پايه افزايش قابل توجهي داشته است.
با توجه به كيفيت متفاوت نظرات كاربران، جمعآوري مجموعه آموزشي براي سامانه فريبشناس، سختترين مرحله كار محسوب ميشود. مشابه كارهاي قبلي، در اين پروژه نيز كيفيت همه نمونهها در دادگان اوليه مناسب نبود. از اين رو يك روش مبتني بر سنجش اشخاص (شخصيسازي) براي ساخت دادگان با كيفيت بهتر پيشنهاد شده است. به همين منظور، از ضريب كاپاي كوهن براي سنجش ميزان توافق كاربران با يكديگر در برچسبگذاري صفحات بهره جسته و از ميانگين مقدار اين ضريب براي هر كاربر به عنوان تخميني برايكيفيت خروجيآن كاربر استفاده شده است. با حذف كاربراني كه كمترين توافق را با ساير كاربران داشتهاند، كيفيت عملكرد سيستم در مقايسه با حالت قبلي (سامانه پيشنهادي در حالت پايه) بهبود قابل توجهي داشته است.
واژههاي كليدي:بازيابي خصمانه اطلاعات، شناساييصفحات فريب، شخصيسازي