-
شماره ركورد
8179
-
پديد آورنده
محمدسجاد نقي زاده
-
عنوان
پيادهسازي يك سكوي خزش و تحليل منابع متني
-
مقطع تحصيلي
كارشناسي
-
رشته تحصيلي
مهندسي كامپيوتر
-
سال فارغ التحصيلي
1401
-
استاد راهنما
حسين رحماني
-
دانشجوي وارد كننده اطلاعات
محمدسجاد نقي زاده
-
تاريخ ورود اطلاعات
1401/08/23
-
دانشكده
دانشكده كامپيوتر
-
عنوان به انگليسي
Implementing a crawling platform and analyzing text resources
-
چكيده
در سالهاي اخير تحليل و پردازش دادههاي متني توجه بسيار زيادي به خود جلب كردهاست. از طرفي در دنياي امروز حجم دادههايي كه ذخيره ميشوند روزبهروز در حال افزايش است. درك و پردازش اين مقدار از دادهها كه غالباً بدون ساختار هستند براي انسان غيرممكن است؛ بنابراين براي پردازش اين طيف وسيع از متن، به كامپيوتر نياز است.براي تحليل متن در كامپيوتر نياز به مراحل مختلفي است كه از جمله آنها ميتوان به موارد زير اشاره نمود:
1. جمعآوري دادهها از منابع متني.
2.انجام پيش پردازشهاي لازم بر روي دادهها.
3.انجام تحليلهاي لازم بر روي دادههاي جمعآوري شده.
براي انجام فرايند فوق نياز به يك سكوي خزش است. از سكوهاي خزش در كاربردهاي ديگري همانند نمايهسازي محتويات وبسايتها به منظور به كارگيري در موتورهاي جستوجو، خودكارسازي تعمير و نگهداري وبسايتها و همچنين براي جمعآوري اطلاعات مختلف از صفحات وب نيز استفاده ميشوند.
سكوهاي خزش به صورت منظم وبسايتهاي هدف را بررسي كرده، دادههاي جديد را استخراج و سپس به نمايهسازي دادهها ميپردازند. پس از جمعآوري و پيشپردازش دادههاي متني به منظور تحليل آنها نياز به استخراج ويژگي است. از جمله روشهاي استخراج ويژگيها ميتوان به روشهاي تعبيه كلمات اشاره نمود كه بردارهاي ويژگي معنايي را از متن استخراج ميكنند. پس از استخراج ويژگي ميتوان از متنها در حوزههاي مختلفي نظير خوشهبندي اسناد، تحليل موضوعي اسناد و ردهبندي اسناد استفاده نمود.
با توجه به مطالب بيان شده در اين پروژه اهداف زير مد نظر است:
الف) تعيين يك چارچوب مناسب براي انجام فرايند خزش.
ب) طراحي و پياده سازي يك سكو خزش.
ج) تحليل داده استخراج شده از منابع متني هدف.
-
كليدواژه ها
خزش , خزشگر , پردازش متن , داده كاوي , يادگيري عميق
-
لينک به اين مدرک :