شماره ركورد
34503
پديد آورنده
امال طاهر
عنوان
رويكرد شبكه عصبي عميق براي پاسخگويي به سوالات جامعه عربي
مقطع تحصيلي
ارشد
رشته تحصيلي
مهندسي كامپيوتر-گرايش نرم افزار
سال تحصيل
1402
تاريخ دفاع
1404/7/1
استاد راهنما
بهروز مينايي
استاد مشاور
ندارم
دانشكده
مهندسي كامپيوتر
چكيده
سيستمهاي پرسش و پاسخ مبتني بر جامعه (CQA) با بازيابي پاسخهاي موجود يا توليد پاسخهاي جديد، به سوالات كاربران پاسخ ميدهند. چشمانداز CQA انگليسي در سالهاي اخير شاهد گسترش چشمگيري بوده است، در حالي كه CQA عربي تاكنون رشد قابل توجهي نداشته است، كه عمدتاً به دليل تنوع زباني ذاتي در زبان عربي و كمبود مجموعه دادههاي برچسبگذاري شده است. تحقيقات قبلي، هر دو رويكرد مبتني بر بازيابي و مولد را بررسي كردهاند كه هر كدام محدوديتهاي خود را دارند: روشهاي مبتني بر بازيابي در غياب پرسشهاي مشابه مستعد شكست هستند، در حالي كه روشهاي مولد ممكن است پاسخهاي نادرست يا نامنسجم توليد كنند.
با توجه به توسعه CQA عربي، اين پاياننامه يك روش تركيبي را پيشنهاد ميكند كه در آن از درك زبان طبيعي (NLU) براي طبقهبندي شباهت معنايي و از توليد زبان طبيعي (NLG) براي توليد پاسخ استفاده ميشود. مدل توسعهيافته در اين پاياننامه با استفاده از مجموعه دادههاي Semeval-2016 Task3 عربي براي هر دو زبان طبيعي و طبيعي آموزش داده شده و ارزيابي شده است. اين مدلها بر اساس مبدلهاي تنظيمشده با تنظيم پارامتر-كارآمد مبتني بر QLoRA بودند.
مدل Falcon3-7B-Instruct با امتياز F1 ماكرو 0.375 و امتياز F1 وزني 0.561، قويترين عملكرد را براي NLU نشان داد و پس از آن ) AraBERTv2 ماكرو F1 = 0.340، F1 وزني = 0.558) قرار گرفت. بهترين كيفيت پاسخهاي NLG توسط Google mT5-Large توليد شد، با معيارهاي ارزيابي ROUGE-1 = 0.330، ROUGE-2 = 0.249، ROUGE-L = 0.300، BLEU = 0.213 و BERTScore F1 = 0.678. هر يك از اين امتيازات هنگام ارزيابي وظايف توليدي، به طور قابل توجهي بالاتر از امتيازات مربوطه براي Falcon3-7B-Instruct عمل كردند.
نتايج نشان ميدهد كه با استفاده از تركيبي از مدلهاي طبقهبندي مبتني بر بازيابي و مدلهاي زبان مولد، سيستمهاي CQA عربي ميتوانند هم مؤثرتر و هم انعطافپذيرتر شوند. سيستم پيشنهادي از مدلهايي استفاده ميكند كه هم براي درك زبان عصبي (NLU) و هم براي توليد زبان عصبي (NLG) مؤثر هستند و در عين حال از نقاط قوت آنها بهره ميبرد و همچنين با محدوديتهاي روشهاي مبتني بر بازيابي يا توليد مقابله ميكند.
تاريخ ورود اطلاعات
1404/11/20
عنوان به انگليسي
Deep Neural Network Approach for Arabic Community Question Answering
تاريخ بهره برداري
1/26/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
امال طاهر
چكيده به لاتين
Systems that allow users to ask questions and get answers from the community, often termed Community-based Question Answering (CQA) systems, can either retrieve answers that other users have posted or generate new answers. The CQA space in English has grown greatly in the last few years, but CQA in Arabic has not yet scaled for much growth, mainly because of the variability of the Arabic language and the lack of labeled datasets. Prior research has scrutinized both retrieval-based and generative approaches, each of which presents its own limitations: retrieval-based methods are susceptible to failure in the absence of similar queries, while generative methods may produce inaccurate or incoherent responses.
In light of developing the Arabic CQA, this thesis proposes a hybrid method in which Natural Language Understanding (NLU) is used for classification of semantic similarity and Natural Language Generation (NLG) to generate the answer. The model developed in this thesis has been trained and evaluated using the Semeval-2016 Task 3 Arabic Community QA dataset, for both NLU and NLG. The models were based on tuned transformers with QLorA-based parameter-efficient tuning.
The Falcon3-7B-Instruct model showed the strongest performance for NLU with a macro F1-score of 0.375 and a weighted F1-score of 0.561, followed by AraBERTv2 (macro F1 = 0.340, weighted F1 = 0.558). The best quality of NLG responses was generated by Google mT5-Large, with the evaluation metrics measured as ROUGE-1 = 0.330, ROUGE-2 = 0.249, ROUGE-L = 0.300, BLEU = 0.213, and BERTScore F1 = 0.678. Each of these scores performed significantly higher than the corresponded scores for Falcon3-7B-Instruct when evaluating generative tasks.
The results indicate that by utilizing a combination of retrieval-based classification and generative language models, Arabic CQA systems can become both more effective and flexible. The proposed system makes use of models that are effective for both neural language understanding (NLU) and neural language generation (NLG) while taking advantage of their strengths as well as countering the limitations of retrieval- or generation-based methods.
كليدواژه هاي فارسي
CQA عربي , درك زبان طبيعي , توليد زبان طبيعي , Falcon3-7B-Instruct , Google mT5-Large , Semeval-2016
كليدواژه هاي لاتين
Arabic CQA , Natural Language Understanding , Natural Language Generation , Falcon3-7B-Instruct , Google mT5-Large , Semeval-2016
Author
Amal Taher
SuperVisor
Dr.Behrouz Minaei