• شماره ركورد
    8179
  • پديد آورنده

    محمدسجاد نقي زاده

  • عنوان
    پياده‌سازي يك سكوي خزش و تحليل منابع متني
  • مقطع تحصيلي
    كارشناسي
  • رشته تحصيلي
    مهندسي كامپيوتر
  • سال فارغ التحصيلي
    1401
  • استاد راهنما
    حسين رحماني
  • دانشجوي وارد كننده اطلاعات

    محمدسجاد نقي زاده

  • تاريخ ورود اطلاعات
    1401/08/23
  • دانشكده
    دانشكده كامپيوتر
  • عنوان به انگليسي
    Implementing a crawling platform and analyzing text resources
  • چكيده
    در سال‌هاي اخير تحليل و پردازش داده‌هاي متني توجه بسيار زيادي به خود جلب كرده‌است. از طرفي در دنياي امروز حجم داده‌هايي كه ذخيره مي‌شوند روزبه‌روز در حال افزايش است. درك و پردازش اين مقدار از داده‌ها كه غالباً بدون ساختار هستند براي انسان غيرممكن است؛ بنابراين براي پردازش اين طيف وسيع از متن، به كامپيوتر نياز است.براي تحليل متن در كامپيوتر نياز به مراحل مختلفي است كه از جمله آن‌ها مي‌توان به موارد زير اشاره نمود: 1. جمع‌آوري داده‌ها از منابع متني. 2.انجام پيش پردازش‌هاي لازم بر روي داده‌ها. 3.انجام تحليل‌هاي لازم بر روي داده‌هاي جمع‌آوري شده. براي انجام فرايند فوق نياز به يك سكوي خزش است. از سكوهاي خزش در كاربردهاي ديگري همانند نمايه‌سازي محتويات وبسايت‌ها به منظور به كارگيري در موتورهاي جست‌وجو، خودكارسازي تعمير و نگهداري وب‌سايت‌ها و همچنين براي جمع‌آوري اطلاعات مختلف از صفحات وب نيز استفاده مي‌شوند. سكوهاي خزش به صورت منظم وبسايت‌هاي هدف را بررسي كرده، داده‌هاي جديد را استخراج و سپس به نمايه‌سازي داده‌ها مي‌پردازند. پس از جمع‌آوري و پيش‌پردازش داده‌هاي متني به منظور تحليل آن‌ها نياز به استخراج ويژگي است. از جمله روش‌هاي استخراج ويژگي‌ها مي‌توان به روش‌هاي تعبيه كلمات اشاره نمود كه بردارهاي ويژگي معنايي را از متن استخراج مي‌كنند. پس از استخراج ويژگي مي‌توان از متن‌ها در حوزه‌هاي مختلفي نظير خوشه‌بندي اسناد، تحليل موضوعي اسناد و ردهبندي اسناد استفاده نمود. با توجه به مطالب بيان شده در اين پروژه اهداف زير مد نظر است: الف) تعيين يك چارچوب مناسب براي انجام فرايند خزش. ب) طراحي و پياده سازي يك سكو خزش. ج) تحليل داده استخراج شده از منابع متني هدف.
  • كليدواژه ها
    خزش , خزشگر , پردازش متن , داده كاوي , يادگيري عميق