شماره ركورد
34925
پديد آورنده
على حسن
عنوان
تحليل دادههاي مبتني بر هوش مصنوعي براي تشخيص خطاهاي حسابداري با استفاده از مدلهاي زبان بزرگ پاياننامه براي دريافت درجه كارشناسي ارشد
مقطع تحصيلي
كارشناسى ارشد
رشته تحصيلي
مهندسى كامپيوتر - نرم افزار
سال تحصيل
1402
تاريخ دفاع
1405/2/27
استاد راهنما
حسن نادرى
استاد مشاور
ندارم
دانشكده
مهندسى كامپيوتر
چكيده
يكپارچگي بازارهاي سرمايه به قابليت اطمينان افشاي اطلاعات مالي شركتها بستگي دارد Nevertheless fundamental accounting distortions and fraud in financial statements is still undermined investor confidence and challenged traditional audit frameworks. The confidence of investors is weakened, and the old audit frameworks are being questioned; a serious issue is presented by these persistent problems. در حالي كه تحقيقات قبلي عمدتاً بر نسبتهاي مالي ساختاريافته و تكنيكهاي يادگيري ماشيني مرسوم متكي بودهاند، بخشهاي روايي پروندههاي شركتي - به ويژه بحث و تحليل مديريت (MD&A) - با وجود داشتن سيگنالهاي زباني غني از فريب، همچنان مورد استفاده قرار نميگيرند اين پاياننامه به بررسي اثربخشي مدلهاي زبان بزرگ (LLM) مبتني بر ترانسفورماتور در تشخيص تحريفهاي حسابداري با استفاده از افشاي اطلاعات مالي متني ميپردازد
اين مطالعه يك چارچوب تجربي كنترلشده براي طبقهبندي تقلب دودويي با استفاده از معماريهاي ترانسفورماتور تنظيمشده دقيق، از جمله مدلهاي مبتني بر رمزگذار و مبتني بر رمزگشا، توسعه ميدهد Structured pruning (P1-P5) evaluates so incremental normalisation strategies where augmented generation is added; retrieval augmentation game (RAG) then enriched input text with cheating index phrases; selected ones boost domain know-how gains are measured. همه مدلها تحت يك پروتكل اعتبارسنجي طبقهبنديشده آموزش داده شده و ارزيابي ميشوند و عملكرد آنها با استفاده از دقت، صحت، فراخواني، امتياز F1 و تحليل ماتريس سردرگمي براي در نظر گرفتن عدم تعادل شديد كلاس، اندازهگيري ميشود
نتايج تجربي نشان ميدهد كه مدلهاي مبتني بر ترانسفورماتور ميتوانند به طور مؤثر الگوهاي زباني مرتبط با تقلب را در پروندههاي مالي تنها با استفاده از متن شناسايي كنند Bidirectional encoder architectures are found to be better than decoder‑style models in classification stability and minority class detection; the results show higher performance. The improvement is often attributed to the ability of the encoder to keep context information; however the stability can vary when data is highly unbalanced the results are still more reliable than the alternatives. It is suggested that these architectures should be preferred for tasks where minority classes are important. مدلهاي تطبيق يافته با دامنه، دستاوردهاي بيشتري را نشان ميدهند كه ارزش پيشآموزش ويژه امور مالي را تأييد ميكند حذف پيشپردازش نشان ميدهد كه نرمالسازي حداقلي، اطلاعات زمينهاي حياتي براي عملكرد ترانسفورماتور را حفظ ميكند، در حالي كه ريشهيابي تهاجمي و حذف كلمات توقف ممكن است نتايج را كاهش دهد رويكرد غنيسازي مبتني بر بازيابي، بهبودهاي متوسط اما مداومي را در فراخواني تقلب ارائه ميدهد و يك چارچوب تركيبي قابل تفسير ارائه ميدهد كه شاخصهاي حسابرسي نمادين و نمايشهاي زبان عصبي را به هم پيوند ميدهد
يافتهها از اين فرضيه نظري پشتيباني ميكنند كه عناصر رفتاري تقلب - مانند فشار، توجيه منطقي و مبهمسازي - به عنوان نشانههاي زباني قابل اندازهگيري در افشاي شركتها آشكار ميشوند از نظر عملي، اين تحقيق امكانسنجي ابزارهاي غربالگري روايي با كمك هوش مصنوعي را براي پشتيباني از حسابرسان و تنظيمكنندگان در اولويتبندي ريسك و نظارت مستمر نشان ميدهد اگرچه محدوديتهايي، بهويژه در مورد مديريت عدم تعادل و ادغام چندوجهي، همچنان پابرجاست، اما اين پاياننامه پايهاي مقياسپذير و شفاف براي بهكارگيري مدلهاي زباني بزرگ در تشخيص تقلب مالي مدرن ايجاد ميكند
تاريخ ورود اطلاعات
1405/03/02
عنوان به انگليسي
AI-Based Data Analytics for Detecting Accounting Misstatements Using Large Language Models
تاريخ بهره برداري
5/23/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
علي حسن
چكيده به لاتين
Capital markets rely on trustworthy financial reporting, but accounting errors and fraud continue to undermine investor confidence and challenge traditional auditing approaches. Prior research has largely focused on numerical data and conventional models, while textual disclosures—especially MD&A sections—remain underexplored despite containing linguistic signals of manipulation. This thesis investigates whether transformer-based large language models (LLMs) can detect accounting misstatements from financial text and compares their performance with traditional methods.
A controlled binary fraud classification framework is developed using fine-tuned encoder and decoder transformer models. Several preprocessing ablations (P1–P5) test normalization strategies, and a lightweight retrieval-augmented generation (RAG) component injects fraud-related domain phrases. Models are evaluated under stratified validation using accuracy, precision, recall, F1-score, and confusion matrices to address class imbalance.
Results show that transformer models can identify subtle fraud-related language patterns from text alone. Bidirectional encoder models outperform decoder-based approaches, particularly in minority-class detection and stability. Finance-specific pretraining further improves performance, and minimal preprocessing preserves contextual information better than aggressive stemming or stopword removal. The RAG component provides modest but consistent gains in fraud recall by integrating symbolic audit cues with neural representations.
Overall, the findings suggest that fraud-related behavioral signals can be detected in corporate narratives using modern language models, offering potential support for auditors and regulators. However, challenges remain, including data imbalance and multimodal integration. This work represents an early step toward scalable, text-based fraud detection in financial reporting.
كليدواژه هاي فارسي
نسل افزودهشده با بازيابي (RAG) , مدلهاي زبان بزرگ مبتني بر ترانسفورماتور (LLM) , مساحت زير منحني ROC (AUC) , مدلهاي زبان بزرگ (LLM)
كليدواژه هاي لاتين
retrieval-augmented generation (RAG) , transformer-based large language models (LLMs) , Area Under the ROC Curve (AUC) , large language models (LLMs)
Author
Ali Hasan
SuperVisor
Dr. Hassan Naderi