• شماره ركورد
    20913
  • شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
    20913
  • پديد آورنده

    فائزه رجبي فر

  • عنوان
    سنجش تنوع مجمعي از درختان تصميم به كمك تركيب معيارهاي اندازه گيري تنوع و شباهت ساختاري، براي رده بندي جريان داده ها
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    نرم افزار
  • سال تحصيل
    1394
  • تاريخ دفاع
    1397/12/14
  • استاد راهنما
    دكتر عين اله خنجري
  • دانشكده
    كامپيوتر
  • چكيده
    چكيده رده¬بندي جريان داده¬ها موضوع مهم و كاربردي است كه در رويدادهاي شبكه، جريان درخواست¬هاي ارسالي به هر وب سايت و غيره كاربرد دارد. يادگيري رده¬بندها از جريان¬هاي داده¬ با توجه به محدوديت حافظه و زمان پردازش كوتاه، از چالش¬هاي داده¬كاوي اين نوع داده‌ها است. براي مواجهه با اين نوع چالش-ها، روش¬هاي رده¬بندي مبتني بر مجمع، يعني مجمعي از مدل¬هاي رده¬بندي جريان داده¬ها، با هدف بهبود دقت و كيفيت رده¬بندي مورد استفاده قرار مي‌گيرد. دقت بالاي پيش¬بيني و تنوع اجزاي رده¬بندهاي مجمع كه از ويژگي‌هاي كليدي سيستم‌هاي گروهي به شمار مي‌رود، به هم مرتبط است. در همين راستا تجزيه و تحليل تنوع، فراهم كردن تنوع و در نتيجه ارائه معياري براي سنجش تنوع مجمعي از رده‌بندها در جريان داده¬ها، براي شناسايي دقيق¬تر وقوع تغيير مفهوم، نظارت بر تغييرات جريان¬هاي برچسب‌دار و يا هرس استخر بزرگي از رده¬بندها، بسيار كاربردي و حائز اهميت است. معيارهاي تنوع زيادي براي سيستم‌هاي تصميم‌گيري معمول كه در محيط‌هاي ايستا كار مي‌كنند و همچنين الگوريتم‌هاي فراواني براي تضمين تنوع مجمع‌ها، پيشنهاد شده است. متاسفانه، اين اندازه‌گيري‌ها و الگوريتم‌ها نمي‌توانند در سيستم‌هايي كه جريان‌هاي داده‌ را پردازش مي‌كنند، اعمال شوند. در اين پايان‌نامه ارزيابي تنوع، بر اساس الگوريتم رده‌بندي مجمع جنگل تصادفي جرياني و با به‌كارگيري معيار سنجش تنوع انتروپي روي جريان‌هاي داده، پيشنهاد شده است. تلاش مي‌كنيم ابتدا با مقايسه ساختاري درختان و نتيجه حاصل از معيارهاي تشابه ساختاري آنها، براي انتخاب مجمعي از درختان منحصر به فرد، متراكم¬تر و ترجيحا يك مدل بهتر از لحاظ دقت، مورد مطالعه قرار داده و ايجاد نماييم. در ادامه به كمك معيار اندازه¬گيري تنوع انتروپي، تنوع رده‌بند‌هاي اجزاي مجمع مورد ارزيابي و سنجش قرار داده مي‌شود. تركيب هر دو معيار كه روش پيشنهادي در اين پايان‌نامه مي‌باشد، با انتخاب مجموعه‌هاي متفاوت از ويژگي‌هاي داده توسط جنگل تصادفي جرياني و استفاده از هر كدام از آنها در آموزش رده‌بندها، علاوه بر تنوع بخشي به داده‌هاي ورودي، مي‌تواند تنوع بخشي را در خروجي رده‌بندهاي مجمع، توسط معيار اندازه‌گيري تنوع انتروپي، ايجاد نمايد. عملكرد روش پيشنهادي از طريق آزمايشاتي و در مقايسه با روش پايه بررسي شده و نتايج نشان مي‌دهد اين روش علاوه بر ارزيابي تنوع اجزاي مجمع، دقت رده‌بندي جريان‌هاي داده‌ را افزايش داده و ايجاد سيستم‌هاي رده‌بندي مجمع بزرگ و موثر براي رده‌بندي دقيق‌تر اين داده‌ها‌ را آسان مي‌كند. كلمات كليدي: رده¬بندي جريان‌هاي داده¬، اندازه¬گيري تنوع، مجمع، تشابه درختان تصميم، جنگل‌هاي تصادفي.
  • تاريخ ورود اطلاعات
    1398/04/16
  • عنوان به انگليسي
    Measurement of diversity of ensemble of decision trees by the aid of combination of the criteria of diversity and structural similarity to classify data streams
  • تاريخ بهره برداري
    3/4/2020 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    فايزه رجبي فر

  • چكيده به لاتين
    Abstract Classification of data stream is an important and applied subject that is used in network logs and stream of sent queries to any website etc. Given the limitation of memory and short processing time, learning of classifiers from data stream is one of the challenges in data mining for such types of data. In order to expose to these types of challenges, ensemble- based classification techniques are utilized to improve precision and quality of classification i.e. an ensemble composed of data stream classification models. The high accuracy of in predication and diversity of components of classifiers of ensemble is deemed as key features in group systems which are related together. In this regard, analysis and providing the diversity and thus presentation of a criterion for measurement of diversity is very functional and important in ensemble of classifiers in data stream to recognize occurrence of change in concept more precisely, monitoring changes in labeled streams and or pruning of a large pool of classifiers. Many diversity criteria have been proposed for usual decision-making systems that operate in static media and also a lot of algorithms to guarantee for diversity of ensembles. Unfortunately, such measurements and algorithms could not be employed for the systems which process data streams. The assessment of diversity has been suggested in this thesis based on ensemble classification algorithm for streaming random forest using entropy diversity measurement criterion on data stream. We initially try to compare trees structurally and study on the result from their structural similarity criteria to select an ensemble of unique and denser trees and preferably of more accurate model and to build this model. Then diversity of classifiers of elements of ensemble is evaluated and measured by the aid of diversity measurement criterion of entropy. Using composition of both criteria as the suggested technique in this thesis, by selection of different groups of data features with streaming random forest and using each of them in learning of classifiers, may also create diversity in output classifiers of ensemble in addition to input data by diversity measurement criterion of entropy. Performance of suggested method is examined by a series of tests and compared to the basic technique and the findings indicate this technique increases precision of classification of data stream rather than assessment of diversity of elements of ensemble and facilitates creating classification of systems of large and effective ensemble to rate data more accurately. Keywords: Data Streams Classification, Measure Diversity, Ensemble, Similarity Decision Trees, Random Forests.