شماره ركورد
14839
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
14839
پديد آورنده
محمد ديانت
عنوان
حفظ حريم خصوصي در داده كاوي با استفاده از تركيب روشهاي گمنامسازي و تصادفيسازي
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
كامپيوتر - گرايش نرمافزار
سال تحصيل
مهر 1394
تاريخ دفاع
مهر 1394
استاد راهنما
دكتر محمد عبداللهي ازگمي
چكيده
چكيده
حفظ حريم خصوصي از نيازهاي اساسي بشر و از جمله مفاهيم بسيار مهمي است كه امروزه از آن بهعنوان يك حق اساسي ياد ميشود. در ابتداييترين روشهاي حفظ حريم خصوصي در مرحله انتشار دادهها، حذف كردن يا تغيير دادن شبهشناسههاست و پس از اين كار، مالك داده، دادههاي خود را جهت داده كاوي، با اطمينان خاطر به متخصصان تحويل ميدهد.
در بسياري از برنامههاي كاربردي، اطلاعات شناسايي، از ركوردهاي ثبتشده حذف ميگردند. بااينحال،
با استفاده از شبهشناسهها ميتوان اطلاعات اصلي را شناسايي كرد. در روشهاي پايهاي حفظ حريم خصوص ازجمله روش تصادفيسازي، بهمنظور پنهانسازي مقادير اصلي صفات ركوردها، اختلال لازم به دادهها اضافه ميگردد. بااينحال، اين روش از حمله ورودي خروجي شناختهشده و نمونه حمله شناختهشده رنج ميبرد. در مدل گمنامسازي نيز اطلاعات هر فرد موجود در جدول منتشرشده را نميتوان از حداقل K-1 فرد ديگر در اين جدول تشخيص داد، هر شبهشناسه ارائهشده در جدول منتشرشده، بايد در K ركورد ديگر نيز نمايش داده شود. در اين مدل نيز حمله همگن و حمله با دانش پسزمينه نيز محتمل خواهد بود. لذا در اين پاياننامه سعي در ارائه روشي كارآمد و تركيبي با استفاده از روشهاي گمنامسازي و تصادفيسازي جهت حفظ حريم خصوصي دادهها، با كمترين ميزان كاهش دقت داده كاوي و نيز كاهش زمان و حافظه موردنياز خواهيم داشت.
در طرح پيشنهادي با توجه به مجموعه داده ورودي T شامل t ركورد و K صفت A1, A2 … AK ، تعداد K ماتريس گذر Pt*t جهت تصادفيسازي اطلاعات شبهشناسهها در نظر گرفته ميشود و از ماتريس نگاشت M1*K جهت انتخاب ماتريس نگاشت صفات و اعمال آن بر روي ماتريس T و توليد مجموعه خصوصي D استفاده ميگردد. در اين روش، به ازاي هر شبهشناسه، يك ماتريس Pn*n كه n برابر با تعداد ركوردها است، در نظر خواهيم گرفت، لذا با عنايت به اينكه، با افزايش تعداد شبهشناسهها و ركوردهاي اطلاعاتي، زمان ساخت و حافظه مصرفي موردنياز ماتريسهاي تصادفيسازي، افزايش مييابد، جدول اطلاعاتي به افرازهاي عمودي و افقي تقسيم ميشود. در نتيجه با افراز عمودي و افقي اطلاعات، ماتريس Pn*n به ماتريس Pn/y*n/x كه شامل x افراز عمودي و y افراز افقي خواهد بود، تبديل ميشود.
نتايج حاصل نشان ميدهد با افراز اطلاعات، زمان موردنياز براي ساخت ماتريسهاي تصادفيسازي،
70 برابر و حافظه مصرفي آن 17 برابر كاهش مييابد، ضمناً زمان تصادفيسازي اطلاعات و زمان بازيابي اطلاعات تصادفيسازي شده، حدود 25% كاهش خواهد يافت.
واژههاي كليدي: داده كاوي، حفظ حريم خصوصي، گمنامسازي، تصادفيسازي