نسيم دميرچي

عنوان

پيشنهاد مقاله در ويكي‌پدياي فارسي با استفاده از مدل‌سازي عناوين نهان

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

نرم افزار

تاريخ دفاع

اسفند ۱۳۹۶

استاد راهنما

دكتر بهروز مينايي بيدگلي

دانشكده

كامپيوتر

چكيده

چكيده در سال‎هاي اخير سيستم‌هاي جمع‌سپاري رشد چشمگيري داشته‌اند و كاربران زيادي در اقصي نقاط جهان به توليد محتوا در اين سيستم‌ها كمك مي‌كنند. در اين ميان ويكي‌پديا را مي‌توان يكي از موفق‌ترين نمونه‌هاي چنين سيستم‌هايي دانست. به سبب گستردگي ويكي‌پديا كاربران از جمله ويرايش‌كنندگان با حجم زيادي از اطلاعات در حوزه‌هاي گوناگون رو‌به‌رو هستند. براي جلوگيري از سردرگمي كاربرها و تسهيل در يافتن مقالاتي كه در حوزه‌ي علاقه و تخصص آن‌ها باشد و در راستاي بهبود بيشتر ويكي‌پديا مي‌توان از سيستم‌هاي پيشنهاد‌دهنده استفاده كرد. يافتن مقالات مناسب براي هر كاربر جهت ويرايش از دو طريق امكان پذير است. يكي از طريف يافتن كاربراني كه سليقه‌ي مشابهي با كاربر هدف دارند. ديگري يافتن مقالاتي كه مشابه مقالات مورد علاقه‌ي كاربر هدف است. يافتن مقالات مشابه به دليل ماهيت متني و نداشتن ويژگي‌هايي مشابه با ساير كاربردهاي معمول در سيستم‌هاي پيشنهاددهنده نياز به استفاده از روش‌هاي متن‌كاوي و مقايسه‌ي مقالات از طريق محتواي آن‌ها دارد. اساس كار سيستم پيشنهادي استفاده از روش تجزيه‌ي ماتريس است كه با استفاده از ماتريس كاربر –قلم هم مقالات و هم كاربران را توسط بردارهايي از فاكتورهاي نهان توصيف مي‌كند. علاوه بر اين با استفاده از همسايه‌هاي اقلام سعي در بهبود بردار فاكتورهاي نهان داريم. يافتن همسايه‌هاي اقلام هم با استفاده از ويژگي اقلام مثل رده‌هاي موجود در هم مقاله محاسبه مي‌شود و هم از متن مقالات تاثير پذير است. جهت مقايسه‌ي متن مقالات از مدل‌سازي عناوين نهان استفاده مي‌كنيم و به اين ترتيب مقالات را نه تنها از نظر داشتن كلمات مشترك بلكه در سطح معنايي مقايسه مي‌كنيم. با استفاده از مجموعه داده‌هاي ويكي‌پديا مدل را آموزش داده و احتمال داشتن هر عنوان براي مقالات محاسبه شده و اقلام را با استفاده از عنوان‌هاي مشتركشان مقايسه مي‌كنيم. براي سنجش عملكرد از معيارهاي RMSE جهت مقايسه‌ي رتبه‌ي پيش‌بيني شده با رتبه‌ي واقعي و NDCG به عنوان معياري براي k پيشنهاد برتر استفاده كرديم. نتايج حاصل نشان مي‌دهند كيفيت عملكرد سيستم در مقايسه با روش تجزيه‌ي ماتريس متداول بهبود قابل توجهي داشته است.

تاريخ ورود اطلاعات

1397/02/17

تاريخ بهره برداري

5/7/2018 12:00:00 AM

دانشجوي وارد كننده اطلاعات

نسيم دميرچي

Name: نسيم دميرچي
Author: نسيم دميرچي

چكيده به لاتين

Abstract: In recent years, Wikipedia has grown substantially and users are involved with a large amount of data, so it is better to use recommender systems to avoid user confusion for editing articles. The Content Based approaches utilize a series of discrete characteristics of an item in order to recommend additional items with similar properties, while the Collaborative Filtering approaches predict the interests of users by collaboratively learning from interests of related users. For the problem of article recommendation in Wikipedia, we can use both approaches. For collaborative filtering, we use matrix factorization method, and then with Content Based methods and finding similarity between articles we improve item’s latent vector. for finding similar items we use Latent Dirichlet Allocation to find the distribution of topics over articles and other features such as categories, then compute similarity with shared characteristics between articles. For evaluation, RMSE is used to compare the predicted rates with real rates and NDCG is used for top-k recommedation evaluation. in both cases results have improved, comparing to the system base on matrix factorization.

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=18778&Field=0&DTC=6