شماره ركورد
33185
پديد آورنده
مرتضي علوان
عنوان
تشخيص زبان عراقي از بين ديگر زبانهاي كشورهاي عربي زبان
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي كامپيوتر- نرمافزار
سال تحصيل
1401
تاريخ دفاع
1403/12/1
استاد راهنما
حسن نادري
استاد مشاور
/
دانشكده
مهندسي كامپيوتر
چكيده
در گذشته اخير، استفاده بي رويه از رسانه هاي اجتماعي و دسترسي آسان به اينترنت منجر به تغيير چشم انداز چشم انداز داده هاي متني در دسترس آنلاين شده است. اين تغيير به ويژه در زبان عربي قابل توجه است، جايي كه افزايش تعداد كاربران از بخش هاي مختلف منجر به افزايش قابل توجه متون عربي در گويش هاي مختلف شده است. هر گويش از نظر صرف شناسي، نحو، واژگان و تلفظ ويژگي هاي منحصر به فردي دارد. بنابراين، محققاني كه بر شناخت زبان و پردازش زبان طبيعي تمركز مي كنند، به طور فزاينده اي علاقه مند به تمايز بين اين گويش هاي عربي هستند. تنوع گويش هاي عربي چالش مهمي براي شناسايي است. در مطالعه ما، كه هدف آن شناسايي گويش عراقي از بقيه گويشهاي عربي است، آزمايشهاي متعددي با استفاده از مجموعه دادهاي جديد برگرفته از نظرات كاربران در توييتر انجام شد كه شامل گويشهاي مختلف عربي مانند مصري، خليجي، اردني، يمني و عراق، و 18 كشور مختلف در منطقه خاورميانه و شمال آفريقا را پوشش مي دهد. مطالعه ما همچنين رويكرد جديدي را براي تشخيص گويش معرفي كرد، بهويژه گويش عربي عراقي را در مقايسه با ساير گويشهاي عربي با استفاده از شبكههاي حافظه كوتاهمدت (LSTM) هدف قرار ميدهد. سيستم پيشنهادي به دقت F1 81.14% دست يافت كه نشان دهنده عملكرد پايدار بدون بهينه سازي بيشتر است. ما همچنين از مدل SVM روي همان داده ها استفاده كرديم و دقت در مقايسه با LSTM پايين بود و تنها 60٪ بود. بنابراين، LSTM به دليل دقت بالاي آن در نتايج براي داده هاي تست و داده هاي ناشناخته ترجيح داده شد. تركيب LSTM و يك مدل مبتني بر فرهنگ لغت به طور قابل توجهي دقت را بهبود بخشيد، زماني كه نقاط قوت دو مدل با هم تركيب شدند، در حالي كه نقاط ضعف هر يك را از بين بردند، و بنابراين به عنوان كانديداي خوبي در طبقهبندي متن وقتي با تكنيكهايي براي جلوگيري از برازش بيش از حد تركيب ميشدند. اين مدل به دقت 96 درصد، امتياز f1 96.2 درصد و دقت 96.4 درصد دست يافت.
تاريخ ورود اطلاعات
1403/12/27
عنوان به انگليسي
Distinguishing the Iraqi language from other languages of Arabic- countries
تاريخ بهره برداري
2/19/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
مرتضي علوان
چكيده به لاتين
Not too long ago, the wide adoption of social media and the ready availability of the internet have altered the scene of text data for many languages, and in this case, Arabic, it is quite evident because the volume of users from different industries has tremendously increased along with the Arabic spoken in different dialects. Morphology, syntax, vocabulary, and pronunciation differ for each dialect, which makes each of them distinct. Thus, researchers working in the area of language identification and natural language processing face a great challenge in classifying the different Arabic dialects. The diversity among Arabic dialects poses a significant challenge for identification. In our study, Which aims to identify the Iraqi dialect from the rest of the Arabic dialects, a set of tests were completed on data and comments derived from the Twitter website, which consists of Arabic dialects such as Egyptian, Gulf, Jordanian, Yemeni and Iraqi, and included 18 countries in the north AFRICA Region and MIDDLE east . Our study also introduced a new approach to dialect recognition, specifically targeting the Iraqi Arabic dialect compared to other Arabic dialects using LONG Short-term memory (LSTM) networks. The proposed system achieved an F1 Accuracy of 81.14%, indicating stable performance without further optimization. We also used SVM Model on the same data and the accuracy was low compared to LSTM and was only 60%. Therefore, LSTM was preferred for its high accuracy in results for test data and unknown data. The combination of LSTM and a dictionary-based model significantly improved accuracy, when the strengths of the two models were combined, while canceling out the weaknesses of each, and thus served as a good candidate in text classification when combined with techniques to prevent over fitting .The model achieved 96% accuracy, 96.2% f1 score, and 96.4% precision.
كليدواژه هاي فارسي
شناسايي متن عربي , رسانه هاي اجتماعي
كليدواژه هاي لاتين
Arabic text identification , social media
Author
Morteza Alvan
SuperVisor
Dr. Hassan Naderi