-
شماره ركورد
25398
-
پديد آورنده
فيروزه ميرامبك
-
عنوان
ارائه الگوريتمي براي پاسخ به پرسش انجمني در زبان عربي و فارسي مبتني بر بازنمايي معنايي متون
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
كامپيوتر-نرم افزار
-
سال تحصيل
1398-1400
-
تاريخ دفاع
1400/7/14
-
استاد راهنما
بهروز مينايي بيدگلي
-
دانشكده
دانشكده مهندسي كامپيوتر
-
چكيده
با توسعه وب 2.0، محبوبيت سيستم هاي مبتني بر محتواي توليد شده توسط كاربر به طور مداوم در حال افزايش است. مثالي از اين نوع سيستم ها كه در چند سال گذشته كاملاً برجسته شده است، سامانه هاي پرسش و پاسخ انجمني است. سامانه پرسش و پاسخ انجمني يك سرويس تحت وب است كه در آن افراد مي توانند با پرسيدن پرسش هاي خود به دنبال اطلاعات باشند و با ارائه پاسخ به پرسش هاي ديگر افراد جامعه، دانش خود را به اشتراك بگذارند. هدف اصلي سامانه هاي پرسش و پاسخ انجمني ارائه مناسب ترين پاسخ در مورد سوالات اخيراً ارسال شده در كوتاهترين زمان ممكن است.
در اين پروژه، ما روي مسئله ي شناسايي پرسش هاي تكراري در سامانه هاي پرسش و پاسخ انجمني اسلامي تمركز كرديم. تعيين اينكه آيا دو پرسش داده شده از نظر معنايي معادل هستند، با توجه به ساختارهاي مختلفي كه سوالات مي توانند داشته باشند، يك كار كاملاً چالش برانگيز است. همچنين در چند سال اخير، شناسايي جفت پرسش هاي تكراري در زبان عربي و فارسي و به خصوص در سامانه هاي اسلامي نيز اهميت ويژه اي يافته است. با اين حال، تعداد كمي از سامانه هاي پرسش و پاسخ عربي و فارسي و به خصوص اسلامي قادر به شناسايي پرسش هاي تكراري هستند. ما براي اين كار يك مدل مبتني بر يادگيري عميق به نام Attentive Siamese MaBi-LSTM ارائه داديم. البته مدل پيشنهادي ما مستقل از زبان و حوزه ي مجموعه داده است؛ يعني مدل پيشنهادي ما براي هر زبان و حوزه اي قابل استفاده است. مدل پيشنهادي ما با كمك يكي از جانمايي كلمات word2vec و FastText بردار كلمات را به دست مي آورد و با استفاده از Siamese Bi-LSTM به همراه مكانيسم attention نمايش معنايي پرسش ها را به دست مي آورد. از فاصله ي منهتن نيز براي به دست آوردن ميزان شباهت بين دو پرسش استفاده مي كند. همچنين يك رويكرد تركيبي معرفي كرديم كه از تركيب دو مدل آموزش ديده بر روي هر كدام از جانمايي كلمات به دست مي آيد. با آزمايش روي دو مجموعه داده ي فارسي و عربي خود مشاهده كرديم كه رويكرد تركيبي مدل پيشنهادي ما به ترتيب به مقدارهاي 91.49 و 88.12 درصد در معيارهاي صحت و F1 براي مجموعه داده عربي و به مقدارهاي 83.36 و 74.12 درصد در معيارهاي صحت و F1 براي مجموعه داده فارسي دست يافته است كه نشان مي دهد مدل پيشنهادي ما بر روي هر دو مجموعه داده به خوبي عمل كرده است.
-
تاريخ ورود اطلاعات
1400/07/27
-
عنوان به انگليسي
Presenting an algorithm for Community Question Answering in the Arabic and Persian languages, based on semantic text representation
-
تاريخ بهره برداري
10/6/2022 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
فيروزه ميرامبك
-
چكيده به لاتين
With the development of Web 2.0, popularity of systems based on user-generated content is continuously increasing. An example that has become quite prominent in the past few years is Community Question Answering (CQA). CQA is a web-based service where people can seek information by asking a question and share knowledge by providing answers on questions asked by the rest of the community. The main goal of CQA systems is to provide the most suitable answers on the recently posted questions in the shortest possible time.
In this project, we focus on the problem of duplicate question detection in Islamic Community Question Answering systems. Determining whether two given questions are semantically similar is a fairly challenging task given the different structures and forms that the questions can take. Also in recent years, identifying duplicate questions in Islamic systems has become important. However, few Arabic and especially Islamic Question Answering systems are able to detect duplicate questions. To do this, we developed a deep learning approach called Attentive Siamese MaBi-LSTM (‘‘Ma’’ for Manhattan distance). Our proposed model obtains the word vectors with the help of one of the word embeddings i.e., word2vec and FastText and obtains the semantic representation of the questions using Siamese Bi-LSTM along with the attention mechanism. We also introduce a combinatorial approach that is obtained by combining two trained models on each word embedding. With experiments on our Persian and Arabic datasets, we saw that the combinatorial approach of our proposed model has achieved values of 91.49 and 88.12% in accuracy and F1 metrics for Arabic dataset and 83.36 and 74.12% in accuracy and F1 metrics for Persian dataset respectively, which shows that our proposed model worked well on both datasets.
-
كليدواژه هاي فارسي
وب 2.0 , پرسش و پاسخ انجمني , شناسايي پرسش هاي تكراري , سامانه هاي اسلامي
-
كليدواژه هاي لاتين
Web 2.0 , Community Question Answering , Duplicate Question Detection , Islamic Systems
-
لينک به اين مدرک :