زهرا چرك چي

عنوان

خوشه‌‌بندي بر اساس تابع توزيع آميخته چوله تي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

آمار رياضي

سال تحصيل

1398-1400

تاريخ دفاع

1400/7/24

استاد راهنما

دكتر رحمان فرنوش

استاد مشاور

دكتر رضا احمدي

دانشكده

رياضي

چكيده

پيشرفت تكنولوژي باعث به ‌وجود آمدن حجم زيادي از داده‌ها شده است كه اطلاعاتي از آن‌ها نداريم. خوشه‌بندي بر اساس مدل، روشي براي استخراج اطلاعات و تجزيه و تحليل داده‌ها است كه داده‌ها با برازش يك توزيع آماري آميخته، به گروهي از اشياء دسته‌بندي مي‌شوند؛ به طوري كه اشياء در يك دسته بسيار شبيه به هم هستند. به دليل وجود داده‌هاي چوله با دم‌هاي سنگين، توزيع آميخته چوله تي به عنوان يك مدل مناسب براي خوشه‌بندي در نظر گرفته شده است. پس از معرفي توزيع آميخته چوله تي و برآورد پارامترهاي آن با استفاده از الگوريتم ECM ، به خوشه‌بندي داده‌ها پرداخته مي‌شود كه تعيين تعداد خوشه توسط شاخص‌هاي DBI و SI و ارزيابي خوشه توسط شاخص‌هاي خلوص و رَند صورت مي‌گيرد. خوشه‌بندي داده‌هاي شبيه سازي شده، آنزيم خون و اسكناس سوئيس نشان مي‌دهد كه توزيع آميخته چوله تي، مدل بهتري براي خوشه‌بندي داده‌هاي چوله با دم‌هاي سنگين در مقايسه با توزيع آميخته چوله نرمال است. نتايج به‌ دست آمده در اين پژوهش، توسط نرم افزار آماري R انجام شده است و تمامي مدل‌ها، در حالت يك متغيره و چند متغيره مي‌باشند.

تاريخ ورود اطلاعات

1400/08/15

عنوان به انگليسي

Clustering based on mixture of skew-t distribution function

تاريخ بهره برداري

10/16/2022 12:00:00 AM

دانشجوي وارد كننده اطلاعات

زهرا چرك چي

Name: زهرا چرك چي
Author: زهرا چرك چي

چكيده به لاتين

Advances in technology have created a large amount of data from which we have no information. Model-based clustering is a method of extracting information and analyzing data in which data is categorized into a group of objects by fitting a mixture statistical distribution; So that objects in a category are very similar to each other. Due to the presence of skew data with heavy tails, the mixture skew-t distribution has been considered as a suitable model for clustering. After introducing the mixture skew-t distribution and estimating its parameters using ECM algorithm, data clustering has been done, which determines the number of clusters by DBI and SI indices and cluster evaluation is done by purity and rand indices. Clustering of simulated data, blood enzymes, and Swiss banknotes shows that the mixture skew-t distribution is a better model for clustering skew data with heavy-tails than the mixture skew normal distribution. The results obtained in this thesis have performed by R statistical software and all models are in univariate and multivariate mode.

كليدواژه هاي فارسي

خوشه‌بندي بر اساس مدل , توزيع آميخته مقياس چوله نرمال , توزيع آميخته يك متغيره چوله تي , توزيع آميخته چند متغيره چوله تي , الگوريتم ECM

كليدواژه هاي لاتين

Model-based clustering , scale mixture of skew normal distribution , mixture of univariate skew-t distribution , mixture of multivariate skew-t distribution , ECM algorithm

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=25611&Field=0&DTC=6