شماره ركورد
18778
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
۱۸۷۷۸
پديد آورنده
نسيم دميرچي
عنوان
پيشنهاد مقاله در ويكيپدياي فارسي با استفاده از مدلسازي عناوين نهان
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
نرم افزار
تاريخ دفاع
اسفند ۱۳۹۶
استاد راهنما
دكتر بهروز مينايي بيدگلي
دانشكده
كامپيوتر
چكيده
چكيده
در سالهاي اخير سيستمهاي جمعسپاري رشد چشمگيري داشتهاند و كاربران زيادي در اقصي نقاط جهان به توليد محتوا در اين سيستمها كمك ميكنند. در اين ميان ويكيپديا را ميتوان يكي از موفقترين نمونههاي چنين سيستمهايي دانست. به سبب گستردگي ويكيپديا كاربران از جمله ويرايشكنندگان با حجم زيادي از اطلاعات در حوزههاي گوناگون روبهرو هستند. براي جلوگيري از سردرگمي كاربرها و تسهيل در يافتن مقالاتي كه در حوزهي علاقه و تخصص آنها باشد و در راستاي بهبود بيشتر ويكيپديا ميتوان از سيستمهاي پيشنهاددهنده استفاده كرد.
يافتن مقالات مناسب براي هر كاربر جهت ويرايش از دو طريق امكان پذير است. يكي از طريف يافتن كاربراني كه سليقهي مشابهي با كاربر هدف دارند. ديگري يافتن مقالاتي كه مشابه مقالات مورد علاقهي كاربر هدف است. يافتن مقالات مشابه به دليل ماهيت متني و نداشتن ويژگيهايي مشابه با ساير كاربردهاي معمول در سيستمهاي پيشنهاددهنده نياز به استفاده از روشهاي متنكاوي و مقايسهي مقالات از طريق محتواي آنها دارد.
اساس كار سيستم پيشنهادي استفاده از روش تجزيهي ماتريس است كه با استفاده از ماتريس كاربر –قلم هم مقالات و هم كاربران را توسط بردارهايي از فاكتورهاي نهان توصيف ميكند. علاوه بر اين با استفاده از همسايههاي اقلام سعي در بهبود بردار فاكتورهاي نهان داريم. يافتن همسايههاي اقلام هم با استفاده از ويژگي اقلام مثل ردههاي موجود در هم مقاله محاسبه ميشود و هم از متن مقالات تاثير پذير است. جهت مقايسهي متن مقالات از مدلسازي عناوين نهان استفاده ميكنيم و به اين ترتيب مقالات را نه تنها از نظر داشتن كلمات مشترك بلكه در سطح معنايي مقايسه ميكنيم.
با استفاده از مجموعه دادههاي ويكيپديا مدل را آموزش داده و احتمال داشتن هر عنوان براي مقالات محاسبه شده و اقلام را با استفاده از عنوانهاي مشتركشان مقايسه ميكنيم. براي سنجش عملكرد از معيارهاي RMSE جهت مقايسهي رتبهي پيشبيني شده با رتبهي واقعي و NDCG به عنوان معياري براي k پيشنهاد برتر استفاده كرديم. نتايج حاصل نشان ميدهند كيفيت عملكرد سيستم در مقايسه با روش تجزيهي ماتريس متداول بهبود قابل توجهي داشته است.
تاريخ ورود اطلاعات
1397/02/17
تاريخ بهره برداري
5/7/2018 12:00:00 AM
دانشجوي وارد كننده اطلاعات
نسيم دميرچي
چكيده به لاتين
Abstract:
In recent years, Wikipedia has grown substantially and users are involved with a large amount of
data, so it is better to use recommender systems to avoid user confusion for editing articles. The
Content Based approaches utilize a series of discrete characteristics of an item in order to recommend additional items with similar properties, while the Collaborative Filtering approaches predict
the interests of users by collaboratively learning from interests of related users. For the problem
of article recommendation in Wikipedia, we can use both approaches. For collaborative filtering,
we use matrix factorization method, and then with Content Based methods and finding similarity
between articles we improve item’s latent vector. for finding similar items we use Latent Dirichlet
Allocation to find the distribution of topics over articles and other features such as categories, then
compute similarity with shared characteristics between articles.
For evaluation, RMSE is used to compare the predicted rates with real rates and NDCG is used for
top-k recommedation evaluation. in both cases results have improved, comparing to the system base
on matrix factorization.