-
شماره ركورد
33149
-
پديد آورنده
نوره الجبورى
-
عنوان
طبقه بندي گويش عربي عراقي با استفاده از مدل هاي LSTM
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
نرم افزار
-
سال تحصيل
1401
-
تاريخ دفاع
1403/12/7
-
استاد راهنما
دكتر نادرى حسن
-
استاد مشاور
دكتر مينائى بهروز
-
دانشكده
مهندس كمبيوتر/نرم افزار
-
چكيده
اين مطالعه به بررسي اثربخشي مدلهاي يادگيري متعارف و عميق در شناخت گويش عربي عراقي از دادههاي متني پرداخته است. شناسايي دقيق گويش هاي منطقه اي به دليل گسترش پلت فرم هاي ديجيتال اهميت بيشتري يافته است. ارتباط آن را مي توان در حوزه هاي متعددي مانند تحليل احساسات، نظارت بر رسانه هاي اجتماعي و حفظ فرهنگي مشاهده كرد.
در اين كار، يك مجموعه داده ساخته شد كه در آن نمونههايي از پلتفرمهاي رسانههاي اجتماعي جمعآوري شد و براي تسهيل آموزش مدل براي طبقهبندي سه گويش عراقي آماده و پيش پردازش شد. اين كار رويكردهاي مختلفي را براي طبقهبندي گويشهاي عراقي با استفاده از مدلهاي متعارف، يادگيري ماشيني، يادگيري عميق، ترانسفورماتورها و مدلهاي تركيبي اجرا كرد كه رويكردهاي متفاوتي را با هم تركيب ميكردند. فراپارامترهاي مدلها براي دستيابي به بهترين دقت و عملكرد در ارزيابي مجموعه دادههاي ديده نشده تنظيم شدند. اين مطالعه عملكرد TF-IDF SVM، مدل مبتني بر فرهنگ لغت، مدل مبتني بر LSTM، مدل هيبريدي LSTM، و ترانسفورماتورهاي مبتني بر BERT از پيش آموزشديدهشده در زبان عربي عمومي را بررسي كرد.
نتايج مدل تركيبي و مدل ترانسفورماتور از عملكرد يادگيري ماشين خالص، يادگيري عميق و مدلهاي مبتني بر فرهنگ لغت فراتر رفت. مدل هيبريدي قدرت هر دو را براي دستيابي به دقت بالاتر و امتياز f1 تركيب كرد. مدل ترانسفورماتور از قدرت خود در برخورد با ورودي هاي متوالي از طريق مكانيسم هاي توجه و پوشش استفاده كرد كه در آن دقت بالايي مشابه مدل هيبريدي به دست آوردند. مدل يادگيري عميق خالص به دليل شباهت هاي زياد بين گويش ها و وجود نقاط پرت در مجموعه داده، به بالاترين دقت دست پيدا نكرد. اين فرهنگ لغت به دقت پاييني دست يافت، زيرا نميتوانست بافت ترتيبي كلمات مورد استفاده در هر گويش را ثبت كند.
-
تاريخ ورود اطلاعات
1403/12/13
-
عنوان به انگليسي
Iraqi Arabic dialect classification using LSTM models
-
تاريخ بهره برداري
2/25/2026 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
نور سعدي الجبوري
-
چكيده به لاتين
This study investigated the effectiveness of conventional and deep learning models in recognizing the Iraqi Arabic dialect from text data. Accurately identifying regional dialects has become more important due to the spread of digital platforms. Its relevance can be seen in multiple domains, such as sentiment analysis, social media monitoring, and cultural preservation.
In this work, a dataset was built where samples were collected from social media platforms, and are prepared and preprocessed to facilitate model training to classify three Iraqi dialects. The work implemented different approaches to classify the Iraqi dialects using conventional, machine learning, deep learning, Transformers, and hybrid models which combined different approaches. The models’ hyperparameters were tuned to achieve the best accuracy and performance in the evaluation of unseen datasets. The study investigated the performance of TF-IDF SVM, dictionary-based model, LSTM-based model, Hybrid LSTM model, and BERT-based transformers pre-trained on the general Arabic language.
The hybrid model and the transformers model results exceeded the performance of the pure machine learning, deep learning, and dictionary-based models. The hybrid model combined the strength of both to achieve higher accuracy and f1-score. The transformers model utilized their strength in dealing with sequential input through attention and masking mechanisms where they achieved high accuracy similar to the hybrid model. The pure deep learning model did not achieve the highest accuracy due to the large similarities between the dialects and the existence of outliers in the dataset. The dictionary-based achieved low accuracy because it could not capture the sequential context of words used in each dialect.
-
كليدواژه هاي فارسي
يادگيري ماشيني، يادگيري عميق، LSTM، ترانسفورماتورها، گويش، زبان، طبقه بندي، LLM.
-
كليدواژه هاي لاتين
Machine Learning, Deep Learning, LSTM, Transformers, Dialect, Language, Classification, LLM.
-
Author
noora aljubouri
-
SuperVisor
Dr. Naderi hassan
-
لينک به اين مدرک :