• شماره ركورد
    14839
  • شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
    14839
  • پديد آورنده

    محمد ديانت

  • عنوان
    حفظ حريم خصوصي در داده كاوي با استفاده از تركيب روش‌هاي گمنام‌سازي و تصادفي‌سازي
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    كامپيوتر - گرايش نرم‌افزار
  • سال تحصيل
    مهر 1394
  • تاريخ دفاع
    مهر 1394
  • استاد راهنما
    دكتر محمد عبداللهي ازگمي
  • چكيده
    چكيده حفظ حريم خصوصي از نيازهاي اساسي بشر و از جمله مفاهيم بسيار مهمي است كه امروزه از آن به‌عنوان يك حق اساسي ياد مي‌شود. در ابتدايي‌ترين روش‌هاي حفظ حريم خصوصي در مرحله انتشار داده‌ها، حذف كردن يا تغيير دادن شبه‌شناسه‌هاست و پس‌ از اين كار، مالك داده، داده‌هاي خود را جهت داده كاوي، با اطمينان خاطر به متخصصان تحويل مي‌دهد. در بسياري از برنامه‌هاي كاربردي، اطلاعات شناسايي، از ركوردهاي ثبت‌شده حذف مي‌گردند. بااين‌حال، با استفاده از شبه‌شناسه‌ها مي‌توان اطلاعات اصلي را شناسايي كرد. در روش‌هاي پايه‌اي حفظ حريم خصوص ازجمله روش تصادفي‌سازي، به‌منظور پنهان‌سازي مقادير اصلي صفات ركوردها، اختلال لازم به داده‌‌ها اضافه مي‌گردد. بااين‌حال، اين روش از حمله ورودي خروجي شناخته‌شده و نمونه حمله شناخته‌شده رنج مي‌برد. در مدل گمنام‌سازي نيز اطلاعات هر فرد موجود در جدول منتشرشده را نمي‌توان از حداقل K-1 فرد ديگر در اين جدول تشخيص داد، هر شبه‌شناسه ارائه‌شده در جدول منتشرشده، بايد در K ركورد ديگر نيز نمايش داده شود. در اين مدل نيز حمله همگن و حمله با دانش پس‌زمينه نيز محتمل خواهد بود. لذا در اين پايان‌نامه سعي در ارائه روشي كارآمد و تركيبي با استفاده از روش‌هاي گمنام‌سازي و تصادفي‌سازي جهت حفظ حريم خصوصي داده‌ها، با كمترين ميزان كاهش دقت داده كاوي و نيز كاهش زمان و حافظه موردنياز خواهيم داشت. در طرح پيشنهادي با توجه به مجموعه داده ورودي T شامل t ركورد و K صفت A1, A2 … AK ، تعداد K ماتريس گذر Pt*t جهت تصادفي‌سازي اطلاعات شبه‌شناسه‌ها در نظر گرفته مي‌شود و از ماتريس نگاشت M1*K جهت انتخاب ماتريس نگاشت صفات و اعمال آن بر روي ماتريس T و توليد مجموعه خصوصي D استفاده مي‌گردد. در اين روش، به ازاي هر شبه‌شناسه، يك ماتريس Pn*n كه n برابر با تعداد ركوردها است، در نظر خواهيم گرفت، لذا با عنايت به اينكه، با افزايش تعداد شبه‌شناسه‌ها و ركوردهاي اطلاعاتي، زمان ساخت و حافظه مصرفي موردنياز ماتريس‌هاي تصادفي‌سازي، افزايش مي‌يابد، جدول اطلاعاتي به افراز‌هاي عمودي و افقي تقسيم مي‌شود. در نتيجه با افراز عمودي و افقي اطلاعات، ماتريس Pn*n به ماتريس Pn/y*n/x كه شامل x افراز عمودي و y افراز افقي خواهد بود، تبديل مي‌شود. نتايج حاصل نشان مي‌دهد با افراز اطلاعات، زمان موردنياز براي ساخت ماتريس‌هاي تصادفي‌سازي، 70 برابر و حافظه مصرفي آن 17 برابر كاهش مي‌يابد، ضمناً زمان تصادفي‌سازي اطلاعات و زمان بازيابي اطلاعات تصادفي‌سازي شده، حدود 25% كاهش خواهد يافت. واژه‌هاي كليدي: داده كاوي، حفظ حريم خصوصي، گمنام‌سازي، تصادفي‌سازي