شماره ركورد
22798
پديد آورنده
عليرضا صادقي نسب
عنوان
يك تكنيك مقياسپذير و سودمندي-مبنا براي گمنامسازي كلاندادههاي جرياني
مقطع تحصيلي
كارشناسي ارشذ
رشته تحصيلي
نرمافزار
سال تحصيل
97-99
تاريخ دفاع
1399/7/30
استاد راهنما
دكتر محمد عبدالهي ازگمي
دانشكده
كامپيوتر
چكيده
كلانداده اصطلاحي است كه براي مجموعهدادههاي بسيار حجيم و با ساختار پيچيده به كار ميرود. اين مشخصات به همراه خود، چالشهايي در نحوه ذخيرهسازي، بررسي و اعمال روشهاي سنتي موجود و استخراج نتايج را به همراه دارند. با رشد چشمگير دادهها در سالهاي اخير، حريم خصوصي به يكي از دغدغههاي اصلي اين حوزه تبديل شده است؛ با اين حال همواره ميان حريم خصوصي و امنيت دادههاي كلان با استفاده گسترده آنها، يك مغايرت وجود دارد. براي رفع اين مشكل، مدلها و الگوريتمهاي گوناگوني توسعه داده شدهاند اما اكثر آنها از يك معضل رنج ميبرند؛ رشد سريع ابعاد دادهها. از اين رو الگوريتمها و روشهاي سنتي و متداول پاسخگو اين نوع دادهها نيستند. امروزه، دادههاي جرياني، نقش بسيار پررنگي را در جهان پيرامون ايفا ميكنند. بهداشت و درمان، بازارهاي مالي و اينترنت اشياء از جمله زمينههايي هستند كه وابستگي بسياري به دادههاي جرياني دارند. حفظ حريم خصوصي در اين دادهها چالشبرانگيز است زيرا اين نوع دادهها برخلاف دادههاي ذخيره شده در پايگاهدادهها، ايستا نيستند. دو مؤلفه كيفيت دادههاي گمنام شده و سن دادهها، در دادههاي جرياني، حائز اهميت است. حفظ سودمندي اين دادهها يعني بالا بردن ميزان مؤلفه اول و پايين آوردن ميزان مؤلفه دوم، چالش اصلي الگوريتمها و روشهاي امروزي است. ارائه روشي كه بتواند به اين مهم دست پيدا كند؛ در اين حوزه، بسيار راهگشا و كاربردي است. در اين پاياننامه، روشي ارائه شده است كه هدف اصلي آن، حفظ سودمندي دادههاي جرياني است. همچنين ايجاد يك بستر و زيرساخت جهت مقياسپذير كردن سامانه، موجب تطبيقپذيري هر چه بيشتر با دادههاي جرياني بسيار حجيم ورودي گرديده است. براي ارزيابي روش پيشنهادي، از دو متغير بهره برده شده است: ميزان ميانگين اتلاف دادهها و ميزان ميانگين تاخير دادهها كه به ترتيب بيانگر مؤلفههاي اول و دوم سودمندي دادههاي جرياني هستند. نتايج به دست آمده از مقايسه روش پيشنهادي با سه روش برجسته در اين حوزه، نشان ميدهد كه كارائي اين روش از سايرين به مراتب بهتر و بيشتر است.
تاريخ ورود اطلاعات
1399/09/06
عنوان به انگليسي
A Scalable and Utility-Based Technique for Big Data Stream Anonymization
تاريخ بهره برداري
10/22/2021 12:00:00 AM
دانشجوي وارد كننده اطلاعات
عليرضا صادقي نسب
چكيده به لاتين
Big Data is a term used for very large and complex datasets. These characteristics bring with them challenges in how to store, analyze, and apply existing traditional methods and extract results. With the significant growth of data in recent years, privacy has become one of the main concerns in this area; However, there is always a trade off between the privacy and security of big data with its widespread use. To solve this problem, various models and algorithms have been developed, but most of them suffer from one problem; Rapid growth of data dimensions. Therefore, traditional algorithms and methods are not responsive to this type of data.
Today, streaming data plays a very important role in the world around us. Healthcare, financial markets, and the Internet of Things are examples of areas that are highly dependent on streaming data. The privacy of this data is challenging because this type of data is not static unlike the data stored in databases. The two components of anonymous data quality and data age are important in streaming data. Maintaining the utility of this data which means increasing the amount of the first component and decreasing the amount of the second one, is the main challenge of today's algorithms and methods. Represnting a way to achieve this important; In this area, is very instructive and practical.
In this dissertation, a method is presented whose main purpose is to maintain the utility of streaming data. Also, providing a platform and infrastructure to make the system scalable, has made it more adaptable to very large input data. To evaluate the proposed method, two variables have been used: the average information loss rate and the average data delay rate, which represent the first and second components of the stream data utility, respectively. The results obtained by comparing the proposed method with three prominent methods in this field, show that the efficiency of this method is much better and more than others.
كليدواژه هاي فارسي
كلاندادهها , دادههاي جرياني , حفظ حريم خصوصي , گمنامسازي دادهها , خوشهبندي