شماره ركورد
34356
پديد آورنده
مريم اورعي
عنوان
تشخيص افسردگي از روي متن در شبكه هاي اجتماعي روي زبان فارسي
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي كامپيوتر
سال تحصيل
1401
تاريخ دفاع
1404٫05٫14
استاد راهنما
دكتر محمد رضا جاهد مطلق
استاد مشاور
دكتر حسين رحماني
دانشكده
مهندسي كامپيوتر
چكيده
در اين پژوهش، با هدف شناسايي نشانههاي افسردگي در زبان فارسي، يك
مجموعه داده گسترده از شبكه اجتماعي ايكس (توييتر سابق) در بازه زماني سالهاي 2016 تا 2024 گردآوري گرديد. مجموعه داده حاصل شامل دو ميليون جمله فارسي است كه از ميان آنها 600000 جمله مورد پالايش و اصلاح برچسب قرار گرفت. جملات بر اساس برچسبهاي 1 (مرتبط با فرد افسرده) و 2 (مرتبط با فرد غير افسرده) دستهبندي شدهاند. فرآيند برچسبگذاري در سه مرحله شامل استفاده از عبارات استخراجشده از پرسشنامههاي روانشناختي (مانند PHQ-9، بك و SDS)، اصلاح برچسب توسط مدلهاي هوش مصنوعي، و بررسي انساني دادهها انجام شد. سپس با هدف ارزيابي عملكرد مدلهاي يادگيري عميق، چندين مدل مورد آزمايش قرار گرفتند كه در نهايت مدل ديستيل برت، بهعنوان نسخه سبكشده برت، با توجه به دقت بالا و نياز كمتر به منابع پردازشي، عملكرد بهتري از خود نشان داد. در مرحلهي ارزيابي، از دادههاي تصادفي متعادل و برچسبخورده بهصورت توافق سهجانبه بين كارشناسان آموزشديده استفاده شد. نتايج بهدستآمده نشان داد كه مدل نهايي به دقت 83٪ دست يافته و از نظر معيارهاي ارزيابي همچون دقت، صحت، بازخواني و اف1 عملكرد مطلوبي داشته است.
اين تحقيق گامي مؤثر در راستاي توسعه منابع زبان فارسي در حوزه تحليل احساسات و سلامت روان ديجيتال محسوب ميشود و ميتواند پايهاي براي پژوهشهاي آتي در حوزه شناسايي افسردگي از متن باشد.
تاريخ ورود اطلاعات
1404/10/21
عنوان به انگليسي
Examining the methods of diagnosing depression from the text in social networks on Persian language
تاريخ بهره برداري
8/19/2025 12:00:00 AM
دانشجوي وارد كننده اطلاعات
مريم اورعي
چكيده به لاتين
In this study, with the goal of detecting signs of depression in the Persian language, a large-scale dataset was collected from the social media platform X (formerly Twitter), covering the period from 2016 to 2024. The dataset consists of two million Persian sentences, out of which 600,000 were manually reviewed and relabeled. Sentences were categorized based on two labels: 1 (related to a depressed individual) and 2 (not related to a depressed individual). The labeling process was conducted in three phases: extraction of phrases from psychological questionnaires (such as PHQ-9, Beck, and SDS),
AI-assisted label refinement, and human annotation. Several deep learning models were evaluated, and DistilBERT, a lightweight version of BERT, demonstrated superior performance due to its high accuracy and lower computational requirements. For evaluation, a balanced and randomly sampled
test set was created, with labels agreed upon by three trained annotators. The final model achieved an accuracy of 83%, showing strong results across evaluation metrics including accuracy, precision, recall, and F1 score. This research contributes significantly to the development of Persian language
resources in the domain of sentiment analysis and digital mental health, and it can serve as a foundation for future studies focused on depression detection from textual data.
كليدواژه هاي فارسي
بيماريهاي رواني , افسردگي , رفتارهاي اجتماعي , رسانههاي اجتماعي
كليدواژه هاي لاتين
Mental Illness , Depression , Social Behaviour , Social Media
Author
Maryam Oraei
SuperVisor
Dr. Mohammed Reza Jahed Motlagh