• شماره ركورد
    14618
  • شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
    14618
  • پديد آورنده

    مهدي نقوي

  • عنوان
    خزش برخط وب‌نوشت‌هاي فارسي جهت رصد مستمر فضاي وب
  • مقطع تحصيلي
    دكتري
  • رشته تحصيلي
    نرم‌افزار
  • سال تحصيل
    خرداد1394
  • تاريخ دفاع
    خرداد1394
  • استاد راهنما
    دكتر محسن شريفي
  • دانشكده
    كامپيوتر
  • چكيده
    چكيده تبديل فضا‌هاي سنتي به فضاي مدرن و تغيير سازوكارهاي زندگي اجتماعي امروزي با توجه به حجم بسيار زياد اطلاعات و ابزارهاي جديد ارتباطي، آگاهي از روند رخدادهاي فضاي مجازي را با چالش‌هاي اساسياز جمله چالش رصد به هنگام فضاي وب مواجه كرده است. رصد فضاي وب هر كشور در تصميم‌سازي‌هاي حياتي آن كشور نقش مؤثر دارد. در اين رساله روش جديدي ارائه شده است كه اشراف اطلاعاتي بر فضاي مجازي فارسي را از طريق رصد برخط و پيوسته وب‌نوشت‌هاي فارسي مقدور مي‌نمايد. در اين راستا روش‌هاي نويني براي بررسي، واكشي، تحليل و استخراج اطلاعات وب‌نوشت‌هاي فارسيبه‌صورت برخط ارائه شده است. با توجه به حجم زياد وب‌نوشت‌ها و تغييرات آن‌ها، بررسي، واكشي و تحليل آن‌ها با روش‌هاي معمول نياز به زمان زياد، منابع فراوان پهناي باند و سخت‌افزار دارد. لذا خزش كانوني حول تغييرات وب‌نوشت‌ها به عنوان يك راه‌حل جهت رصد پيوسته فضاي وب فارسي و مقابله با چالش‌هاي آن ارائه شده است. علاوه بر محدودسازي دامنه هدف، RSS صفحات وب‌نوشت‌ به جاي بررسي صفحات كامل بررسي و تحليل شده و به‌روزرساني‌هاي آن‌ها كشف مي‌شوند. پس از دستيابي به RSS وب‌نوشت‌هاي تغيير يافته، با تحليل برخط آن‌ها، روندهاي داغ وب‌نوشت‌ها بر اساس استخراج عبارت‌هايكليدي و امتيازدهي به آن‌ها كشف شده، روندهاي وابسته به يكديگر كشف و ادغام مي‌شوند. براي پرهيز از كاهش سرعت تحليل و مختل شدن فرآيند برخط آن، وابستگي بين روندها را در پردازش ثانويه، پس از دستيابي به روندها، به دست مي‌آوريم. براي محاسبه ميزان وابستگي روندها به يكديگر روش جديدي پيشنهاد شده است كه در آن از آدرس‌هاي منابع مشترككه روندها از آن مستخرج شده‌اند، استفاده مي‌شود. پس از كشف و ادغام روندها، آن‌ها را آشكارسازيكرده تا انتشار برخط روندهاي داغ عينيت يابد. همزمان براي تكميل و اصلاح اطلاعات مراحل قبلي، حول روندهايكشف شده خزش كانوني صورت گرفته و بر اساس اطلاعات جديد، اطلاعات موجود تكميل و اصلاح مي‌شود. ويژگي‌هاي اصلي روش ارائه شده جهت خزش برخط و رصد مستمر وب فارسي، عدم نياز به منابع پردازشي و پهناي باند زياد و همكاري ميزبانان جهت باخبر نمودن به‌روزرساني‌ها و در اختيار قرار دادن اطلاعات است. همچنين نتايج به دست آمده از بكارگيري پياده‌سازي‌هاي روش‌هاي ارائه شده در اين رساله بر روي حدود 118 ميليون صفحه وب‌نوشت ثبت شده در ايران، بر تشخيص و كشف روندهاي داغ به‌صورت برخط و با استفاده از منابع محدود دلالت داشته و بهبود قابل توجهي را در زمان تشخيص و كشف روندهاي داغ نسبت به روش‌هاي موجود و تحقيقات اخير نشان مي‌دهد. واژه‌هايكليدي:روند وب،رصد فضايمجازي، رصد برخط وب، خزشگر كانوني، وب‌نوشت فارسي، عبارت كليدي.