مريم اورعي

عنوان

تشخيص افسردگي از روي متن در شبكه هاي اجتماعي روي زبان فارسي

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر

سال تحصيل

1401

تاريخ دفاع

1404٫05٫14

استاد راهنما

دكتر محمد رضا جاهد مطلق

استاد مشاور

دكتر حسين رحماني

دانشكده

مهندسي كامپيوتر

چكيده

در اين پژوهش، با هدف شناسايي نشانه‌هاي افسردگي در زبان فارسي، يك مجموعه داده گسترده از شبكه اجتماعي ايكس (توييتر سابق) در بازه زماني سال‌هاي 2016 تا 2024 گردآوري گرديد. مجموعه داده حاصل شامل دو ميليون جمله فارسي است كه از ميان آن‌ها 600000 جمله مورد پالايش و اصلاح برچسب قرار گرفت. جملات بر اساس برچسب‌هاي 1 (مرتبط با فرد افسرده) و 2 (مرتبط با فرد غير افسرده) دسته‌بندي شده‌اند. فرآيند برچسب‌گذاري در سه مرحله شامل استفاده از عبارات استخراج‌شده از پرسشنامه‌هاي روان‌شناختي (مانند PHQ-9، بك و SDS)، اصلاح برچسب توسط مدل‌هاي هوش مصنوعي، و بررسي انساني داده‌ها انجام شد. سپس با هدف ارزيابي عملكرد مدل‌هاي يادگيري عميق، چندين مدل مورد آزمايش قرار گرفتند كه در نهايت مدل ديستيل برت، به‌عنوان نسخه سبك‌شده برت، با توجه به دقت بالا و نياز كم‌تر به منابع پردازشي، عملكرد بهتري از خود نشان داد. در مرحله‌ي ارزيابي، از داده‌هاي تصادفي متعادل و برچسب‌خورده به‌صورت توافق سه‌جانبه بين كارشناسان آموزش‌ديده استفاده شد. نتايج به‌دست‌آمده نشان داد كه مدل نهايي به دقت 83٪ دست يافته و از نظر معيارهاي ارزيابي همچون دقت، صحت، بازخواني و اف1 عملكرد مطلوبي داشته است. اين تحقيق گامي مؤثر در راستاي توسعه منابع زبان فارسي در حوزه تحليل احساسات و سلامت روان ديجيتال محسوب مي‌شود و مي‌تواند پايه‌اي براي پژوهش‌هاي آتي در حوزه‌ شناسايي افسردگي از متن باشد.

تاريخ ورود اطلاعات

1404/10/21

عنوان به انگليسي

Examining the methods of diagnosing depression from the text in social networks on Persian language

تاريخ بهره برداري

8/19/2025 12:00:00 AM

دانشجوي وارد كننده اطلاعات

مريم اورعي

Name: مريم اورعي
Author: مريم اورعي

چكيده به لاتين

In this study, with the goal of detecting signs of depression in the Persian language, a large-scale dataset was collected from the social media platform X (formerly Twitter), covering the period from 2016 to 2024. The dataset consists of two million Persian sentences, out of which 600,000 were manually reviewed an‎d relabeled. Sentences were categorized based on two labels: 1 (related to a depressed individual) an‎d 2 (not related to a depressed individual). The labeling process was conducted in three phases: extraction of phrases from psychological questionnaires (such as PHQ-9, Beck, an‎d SDS), AI-assisted label refinement, an‎d human annotation. Several deep learning models were eva‎luated, an‎d DistilBERT, a lightweight version of BERT, demonstrated superior performance due to its high accuracy an‎d lower computational requirements. For eva‎luation, a balanced an‎d ran‎domly sampled test set was created, with labels agreed upon by three trained annotators. The final model achieved an accuracy of 83%, showing strong results across eva‎luation metrics including accuracy, precision, recall, an‎d F1 score. This research contributes significantly to the development of Persian language resources in the domain of sentiment analysis an‎d digital mental health, an‎d it can serve as a foundation for future studies focused on depression detection from textual data.

كليدواژه هاي فارسي

بيماري‌هاي رواني , افسردگي , رفتارهاي اجتماعي , رسانه‌هاي اجتماعي

كليدواژه هاي لاتين

Mental Illness , Depression , Social Behaviour , Social Media

Author

Maryam Oraei

SuperVisor

Dr. Mohammed Reza Jahed Motlagh

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=34356&Field=0&DTC=6