• شماره ركورد
    22798
  • پديد آورنده

    عليرضا صادقي نسب

  • عنوان
    يك تكنيك مقيا‌س‌پذير و سودمندي-مبنا براي گمنام‌سازي كلان‌داده‌هاي جرياني
  • مقطع تحصيلي
    كارشناسي ارشذ
  • رشته تحصيلي
    نرم‌افزار
  • سال تحصيل
    97-99
  • تاريخ دفاع
    1399/7/30
  • استاد راهنما
    دكتر محمد عبدالهي ازگمي
  • دانشكده
    كامپيوتر
  • چكيده
    كلان‌داده اصطلاحي است كه براي مجموعه‌داده‌هاي بسيار حجيم و با ساختار پيچيده به كار مي‌رود. اين مشخصات به همراه خود، چالش‌هايي در نحوه ذخيره‌سازي، بررسي و اعمال روش‌هاي سنتي موجود و استخراج نتايج را به همراه دارند. با رشد چشمگير داده‌ها در سال‌هاي اخير، حريم خصوصي به يكي از دغدغه‌هاي اصلي اين حوزه تبديل شده است؛ با اين حال همواره ميان حريم خصوصي و امنيت داده‌هاي كلان با استفاده گسترده آنها، يك مغايرت وجود دارد. براي رفع اين مشكل، مدل‌ها و الگوريتم‌هاي گوناگوني توسعه داده شده‌اند اما اكثر آنها از يك معضل رنج مي‌برند؛ رشد سريع ابعاد داده‌ها. از اين رو الگوريتم‌ها و روش‌هاي سنتي و متداول پاسخگو اين نوع داده‌ها نيستند. امروزه، داده‌هاي جرياني، نقش بسيار پررنگي را در جهان پيرامون ايفا مي‌كنند. بهداشت و درمان، بازارهاي مالي و اينترنت اشياء از جمله زمينه‌هايي هستند كه وابستگي بسياري به داده‌هاي جرياني دارند. حفظ حريم خصوصي در اين داده‌ها چالش‌برانگيز است زيرا اين نوع داده‌ها برخلاف داده‌هاي ذخيره شده در پايگاه‌داده‌ها، ايستا نيستند. دو مؤلفه كيفيت داده‌هاي گمنام شده و سن داده‌ها، در داده‌هاي جرياني، حائز اهميت است. حفظ سودمندي اين داده‌ها يعني بالا بردن ميزان مؤلفه اول و پايين آوردن ميزان مؤلفه دوم، چالش اصلي الگوريتم‌ها و روش‌هاي امروزي است. ارائه روشي كه بتواند به اين مهم دست پيدا كند؛ در اين حوزه، بسيار راهگشا و كاربردي است. در اين پايان‌نامه، روشي ارائه شده است كه هدف اصلي آن، حفظ سودمندي داده‌هاي جرياني است. همچنين ايجاد يك بستر و زيرساخت جهت مقياس‌پذير كردن سامانه، موجب تطبيق‌پذيري هر چه بيشتر با داده‌هاي جرياني بسيار حجيم ورودي گرديده است. براي ارزيابي روش پيشنهادي، از دو متغير بهره برده شده است: ميزان ميانگين اتلاف داده‌ها و ميزان ميانگين تاخير داده‌ها كه به ترتيب بيانگر مؤلفه‌هاي اول و دوم سودمندي داده‌هاي جرياني هستند. نتايج به دست آمده از مقايسه روش پيشنهادي با سه روش برجسته در اين حوزه، نشان مي‌دهد كه كارائي اين روش از سايرين به مراتب بهتر و بيشتر است.
  • تاريخ ورود اطلاعات
    1399/09/06
  • عنوان به انگليسي
    A Scalable and Utility-Based Technique for Big Data Stream Anonymization
  • تاريخ بهره برداري
    10/22/2021 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    عليرضا صادقي نسب

  • چكيده به لاتين
    Big Data is a term used for very large and complex datasets. These characteristics bring with them challenges in how to store, analyze, and apply existing traditional methods and extract results. With the significant growth of data in recent years, privacy has become one of the main concerns in this area; However, there is always a trade off between the privacy and security of big data with its widespread use. To solve this problem, various models and algorithms have been developed, but most of them suffer from one problem; Rapid growth of data dimensions. Therefore, traditional algorithms and methods are not responsive to this type of data. Today, streaming data plays a very important role in the world around us. Healthcare, financial markets, and the Internet of Things are examples of areas that are highly dependent on streaming data. The privacy of this data is challenging because this type of data is not static unlike the data stored in databases. The two components of anonymous data quality and data age are important in streaming data. Maintaining the utility of this data which means increasing the amount of the first component and decreasing the amount of the second one, is the main challenge of today's algorithms and methods. Represnting a way to achieve this important; In this area, is very instructive and practical. In this dissertation, a method is presented whose main purpose is to maintain the utility of streaming data. Also, providing a platform and infrastructure to make the system scalable, has made it more adaptable to very large input data. To evaluate the proposed method, two variables have been used: the average information loss rate and the average data delay rate, which represent the first and second components of the stream data utility, respectively. The results obtained by comparing the proposed method with three prominent methods in this field, show that the efficiency of this method is much better and more than others.
  • كليدواژه هاي فارسي
    كلان‌داده‌ها , داده‌هاي جرياني , حفظ حريم خصوصي , گمنام‌سازي داده‌ها , خوشه‌بندي