محمد الموسوي

عنوان

تركيب ترانسفورمر بينايي و آداپتور LoRA براي رده بندي بيماري هاي شبكيه پيشرفته

مقطع تحصيلي

ارشد

رشته تحصيلي

مهندسي كامپيوتر

سال تحصيل

1401

تاريخ دفاع

3/7/1403

استاد راهنما

دكتر محسن سرياني

استاد مشاور

ندارد

دانشكده

مهندسي كامپيوتر

چكيده

اين پايان‌نامه يك مدل پيشرفته براي رده‌بندي چند رده‌اي و چندبرچسبي در تشخيص بيماري‌هاي شبكيه ارائه مي‌دهد كه از معماري نوآورانه‌اي شامل Vision Transformer (ViT) به همراه Low-Rank Adaptation (LoRA) استفاده مي‌كند. سيستم پيشنهادي براي غلبه بر محدوديت‌هاي شبكه‌هاي عصبي پيچشي سنتي (CNNs) طراحي شده است و از مكانيزم توجه خودكار در ترانسفورمرها و قابليت‌هاي بهينه‌سازي كارآمد LoRA بهره مي‌برد تا مدل را براي طبقه‌بندي تصاوير شبكيه بهينه‌سازي كند. اين مدل با استفاده از مجموعه داده ODIR-2019 ارزيابي شده و نتايج چشمگيري از جمله دقت 0.97 و F1-score معادل 0.85 به دست آورده است كه نشان‌دهنده توانايي مدل در تشخيص مؤثر بيماري‌هاي مختلف شبكيه مانند رتينوپاتي ديابتي، گلوكوم و دژنراسيون ماكولاي مرتبط با سن است. استفاده از LoRA نه تنها نيازهاي محاسباتي را به حداقل رساند، بلكه تعميم‌پذيري بدون بيش‌برازش را نيز تضمين كرد، همان‌طور كه از هم‌سويي روند دقت و خطا در آموزش و اعتبارسنجي مشخص است. اين يافته‌ها مدل ViT-LoRA را به‌عنوان يك راه‌حل مقياس‌پذير، كارآمد و قوي براي تشخيص خودكار بيماري‌هاي شبكيه معرفي مي‌كند كه بهبود قابل‌توجهي نسبت به روش‌هاي مبتني بر CNN از نظر عملكرد و قابليت انطباق ارائه مي‌دهد و راه را براي ادغام آن در كاربردهاي باليني واقعي هموار مي‌كند.

تاريخ ورود اطلاعات

1403/10/11

عنوان به انگليسي

Integrating Vision Transformer and LoRA Adapter for Enhanced Retinal Disease Classification

تاريخ بهره برداري

9/24/2025 12:00:00 AM

دانشجوي وارد كننده اطلاعات

محمد الموسوي

Name: محمد الموسوي
Author: محمد الموسوي

چكيده به لاتين

This thesis presents an advanced multi-class, multi-label classification model for retinal disease detection using an architecture which includes a Vision Transformer (ViT) combined with Low-Rank Adaptation (LoRA). The proposed system is designed to overcome the limitations of traditional convolutional neural networks (CNNs) by leveraging the transformer’s self-attention mechanism and LoRA’s efficient fine-tuning capabilities, optimizing the model for retinal image classification. The model was eva‎luated using the ODIR-2019 dataset and achieved impressive results, including an accuracy of 0.97, an F1-score of 0.85 and ROC of 0.96, effectively detecting multiple retinal diseases such as diabetic retinopathy, glaucoma, and age-related macular degeneration. The use of LoRA not only minimized computational demands but also ensured generalization without overfitting, as demonstrated by the consistency of training and validation accuracy and error trends. These findings establish the ViT-LoRA model as a scalable, efficient, and robust solution for automated retinal disease detection, offering a significant improvement over existing CNN-based methods in both performance and adaptability, and paving the way for integration into real-world clinical applications.

كليدواژه هاي فارسي

ترانسفورمر بينايي , سازگاري با رتبه پايين , تشخيص بيماري شبكيه , رده‌بندي چند برچسبي چند رده , يادگيري عميق

كليدواژه هاي لاتين

Vision Transformer , Low-Rank Adaptation , Retinal Disease Detection , Multi-class Multi-label Classification , Deep Learning

Author

Mohammed AlMusawi

SuperVisor

Dr. Mohsen Soryani

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=31804&Field=0&DTC=6