شماره ركورد
14099
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
14099
پديد آورنده
سعيد عادل مهربان
عنوان
خوشهبندي توزيعشده و موازي دادههاي با حجم بسيار زياد كاربرد در دادههاي شبكه
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
هوش مصنوعي
سال تحصيل
دي ماه 1391
تاريخ دفاع
دي ماه 1391
استاد راهنما
دكتر احمد اكبري
دانشكده
كامپيوتر
چكيده
چكيده
مسئلهٔ پردازش و تحليل دادههاي عظيم به لطف فراهم شدن امكانات آن در حال رشد است. امروزه براي نگهداري، پردازش و تحليل دادههاي عظيم، بسترهاي متنوّعي نظير هدوپ، اسپارك، پرستو و ايمپالا معرّفي شدهاند كه هر يك نتيجهٔ سالها فعّاليّت در حوزهٔ دادههاي عظيم به شمار ميروند. پژوهشگران ميتوانند به كمك اين بسترهاي متنوّع، انواع روشهاي تحليل و پردازش را بر روي دادههايي با حجم بسيار زياد انجام دهند. تنها مسئلهاي كه باقي ميماند، استفاده از روشهايي متناسب با مدلهاي پردازشي اين بسترها نظير مدل نگاشتكاهش است.
خوشهبندي به عنوان يكي از روشهاي بيناظر تشخيص الگوهاي پنهان شناخته ميشود و تحليل حجم عظيم دادههاي شبكه ميتواند به حل شدن مشكلاتي نظير نرخ فراوان مثبتهاي اشتباه در تشخيص ناهنجاري منجر گردد. از اين رو در اين پژوهش روشي جهت خوشهبندي توزيعشده و موازي دادههاي با حجم زياد با تمركز بر دادههاي شبكه ارائه شده است. روش پيشنهادي در دسته روشهاي خوشهبندي مبتني بر چگالي قرار دارد چرا كه اين روشها براي خوشهبندي دادههاي شبكه از كيفيت مناسبي برخوردار هستند.
روش پيشنهادي شامل چهار مرحلهٔ تقسيم فضاي داده، خوشهبندي محلّي، ادغام نتايج و برچسبزني دوباره است كه همگي اين مراحل در مدل نگاشتكاهش ارائه شدهاند. از اين رو ميتوان تمامي مراحل خوشهبندي را در چارچوبي يكپارچه اجرا كرد. در ارائهٔ روش خوشهبندي محلّي تمركز بر ارائهٔ روشي جهت شناسايي خوشههاي با چگالي متفاوت بوده است چرا كه دادههاي مربوط به خوشههاي مختلف شبكه چنين خصوصيتي دارند. نتايج ارزيابي بصري و معيارهاي ارزيابي خوشهبندي به خوبي توانايي اين روش را در شناسايي خوشهها اثبات ميكنند. نتايج ارزيابي خوشهبندي دادههاي شبكه نيز نشان ميدهد روش خوشهبندي توزيعشده كه در اين پژوهش ارائه شده است به نسبت روشهاي رقيب، خوشههايي با كيفيت به مراتب بهتر ارائه ميكند.
در نهايت ضمن ارزيابي تأثير پارامتر انعطافپذيري، به عنوان پارامتر اصلي روش پيشنهادي، رهنمودهايي جهت انتخاب مقدار اين پارامتر ارائه شده است تا مقدار اين پارامتر با توجّه به ويژگيهاي كيفي مورد انتظار براي خوشههاي موجود در داده، اين پارامتر انتخاب گردد.
واژههايكليدي:دادههاي عظيم، خوشهبندي مبتني بر چگالي، خوشهبندي توزيعشده، دادهكاوي