-
شماره ركورد
20913
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
20913
-
پديد آورنده
فائزه رجبي فر
-
عنوان
سنجش تنوع مجمعي از درختان تصميم به كمك تركيب معيارهاي اندازه گيري تنوع و شباهت ساختاري، براي رده بندي جريان داده ها
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
نرم افزار
-
سال تحصيل
1394
-
تاريخ دفاع
1397/12/14
-
استاد راهنما
دكتر عين اله خنجري
-
دانشكده
كامپيوتر
-
چكيده
چكيده
رده¬بندي جريان داده¬ها موضوع مهم و كاربردي است كه در رويدادهاي شبكه، جريان درخواست¬هاي ارسالي به هر وب سايت و غيره كاربرد دارد. يادگيري رده¬بندها از جريان¬هاي داده¬ با توجه به محدوديت حافظه و زمان پردازش كوتاه، از چالش¬هاي داده¬كاوي اين نوع دادهها است. براي مواجهه با اين نوع چالش-ها، روش¬هاي رده¬بندي مبتني بر مجمع، يعني مجمعي از مدل¬هاي رده¬بندي جريان داده¬ها، با هدف بهبود دقت و كيفيت رده¬بندي مورد استفاده قرار ميگيرد. دقت بالاي پيش¬بيني و تنوع اجزاي رده¬بندهاي مجمع كه از ويژگيهاي كليدي سيستمهاي گروهي به شمار ميرود، به هم مرتبط است. در همين راستا تجزيه و تحليل تنوع، فراهم كردن تنوع و در نتيجه ارائه معياري براي سنجش تنوع مجمعي از ردهبندها در جريان داده¬ها، براي شناسايي دقيق¬تر وقوع تغيير مفهوم، نظارت بر تغييرات جريان¬هاي برچسبدار و يا هرس استخر بزرگي از رده¬بندها، بسيار كاربردي و حائز اهميت است. معيارهاي تنوع زيادي براي سيستمهاي تصميمگيري معمول كه در محيطهاي ايستا كار ميكنند و همچنين الگوريتمهاي فراواني براي تضمين تنوع مجمعها، پيشنهاد شده است. متاسفانه، اين اندازهگيريها و الگوريتمها نميتوانند در سيستمهايي كه جريانهاي داده را پردازش ميكنند، اعمال شوند. در اين پاياننامه ارزيابي تنوع، بر اساس الگوريتم ردهبندي مجمع جنگل تصادفي جرياني و با بهكارگيري معيار سنجش تنوع انتروپي روي جريانهاي داده، پيشنهاد شده است. تلاش ميكنيم ابتدا با مقايسه ساختاري درختان و نتيجه حاصل از معيارهاي تشابه ساختاري آنها، براي انتخاب مجمعي از درختان منحصر به فرد، متراكم¬تر و ترجيحا يك مدل بهتر از لحاظ دقت، مورد مطالعه قرار داده و ايجاد نماييم. در ادامه به كمك معيار اندازه¬گيري تنوع انتروپي، تنوع ردهبندهاي اجزاي مجمع مورد ارزيابي و سنجش قرار داده ميشود. تركيب هر دو معيار كه روش پيشنهادي در اين پاياننامه ميباشد، با انتخاب مجموعههاي متفاوت از ويژگيهاي داده توسط جنگل تصادفي جرياني و استفاده از هر كدام از آنها در آموزش ردهبندها، علاوه بر تنوع بخشي به دادههاي ورودي، ميتواند تنوع بخشي را در خروجي ردهبندهاي مجمع، توسط معيار اندازهگيري تنوع انتروپي، ايجاد نمايد. عملكرد روش پيشنهادي از طريق آزمايشاتي و در مقايسه با روش پايه بررسي شده و نتايج نشان ميدهد اين روش علاوه بر ارزيابي تنوع اجزاي مجمع، دقت ردهبندي جريانهاي داده را افزايش داده و ايجاد سيستمهاي ردهبندي مجمع بزرگ و موثر براي ردهبندي دقيقتر اين دادهها را آسان ميكند.
كلمات كليدي: رده¬بندي جريانهاي داده¬، اندازه¬گيري تنوع، مجمع، تشابه درختان تصميم، جنگلهاي تصادفي.
-
تاريخ ورود اطلاعات
1398/04/16
-
عنوان به انگليسي
Measurement of diversity of ensemble of decision trees by the aid of combination of the criteria of diversity and structural similarity to classify data streams
-
تاريخ بهره برداري
3/4/2020 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
فايزه رجبي فر
-
چكيده به لاتين
Abstract
Classification of data stream is an important and applied subject that is used in network logs and stream of sent queries to any website etc. Given the limitation of memory and short processing time, learning of classifiers from data stream is one of the challenges in data mining for such types of data. In order to expose to these types of challenges, ensemble- based classification techniques are utilized to improve precision and quality of classification i.e. an ensemble composed of data stream classification models. The high accuracy of in predication and diversity of components of classifiers of ensemble is deemed as key features in group systems which are related together. In this regard, analysis and providing the diversity and thus presentation of a criterion for measurement of diversity is very functional and important in ensemble of classifiers in data stream to recognize occurrence of change in concept more precisely, monitoring changes in labeled streams and or pruning of a large pool of classifiers. Many diversity criteria have been proposed for usual decision-making systems that operate in static media and also a lot of algorithms to guarantee for diversity of ensembles. Unfortunately, such measurements and algorithms could not be employed for the systems which process data streams. The assessment of diversity has been suggested in this thesis based on ensemble classification algorithm for streaming random forest using entropy diversity measurement criterion on data stream. We initially try to compare trees structurally and study on the result from their structural similarity criteria to select an ensemble of unique and denser trees and preferably of more accurate model and to build this model. Then diversity of classifiers of elements of ensemble is evaluated and measured by the aid of diversity measurement criterion of entropy. Using composition of both criteria as the suggested technique in this thesis, by selection of different groups of data features with streaming random forest and using each of them in learning of classifiers, may also create diversity in output classifiers of ensemble in addition to input data by diversity measurement criterion of entropy. Performance of suggested method is examined by a series of tests and compared to the basic technique and the findings indicate this technique increases precision of classification of data stream rather than assessment of diversity of elements of ensemble and facilitates creating classification of systems of large and effective ensemble to rate data more accurately.
Keywords: Data Streams Classification, Measure Diversity, Ensemble, Similarity Decision Trees, Random Forests.
-
لينک به اين مدرک :