شماره ركورد
34594
پديد آورنده
الاء الدليمي
عنوان
ادغام چندوجهي تصاوير پزشكي و يادداشتهاي باليني براي تشخيص خودكار با استفاده از ترنسفورمرهاي بينايي–زبان
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي كامپيوتر- هوش مصنوعي و رباتيك
سال تحصيل
1402
تاريخ دفاع
1404/11/26
استاد راهنما
بهروز مينايي
استاد مشاور
/
دانشكده
پرديس دانشگاهي - دانشكده مهندسي كامپيوتر
چكيده
تشخيصهاي نوين در نظام سلامت ذاتاً چندوجهي هستند و نيازمند ادغام دادههاي بصري پيچيده با اطلاعات باليني مكتوب ميباشند. با اين حال، سامانههاي كنوني هوش مصنوعي اغلب در غلبه بر «شكاف وجهي» (modality gap) ناتواناند يا تمايل دارند يك نوع داده را بر ديگري ترجيح دهند؛ بهگونهاي كه به ميانبُرهاي آماري در متن تكيه كرده و دادههاي تصويري را ناديده ميگيرند. اين پژوهش يك معماري جديد «ترنسفورمر ديداري-زباني» را پيشنهاد ميكند كه با بهرهگيري از سازوكار توجه سلسلهمراتبي ميانوجهي براي رفع اين محدوديتها طراحي شده است. چارچوب پيشنهادي از يك ترنسفورمر ديداري (ViT-Base) براي پردازش تصاوير پزشكي و از مدل تخصصي BioBERT براي پردازش متنهاي باليني استفاده ميكند. نوآوري اصلي اين كار، ماژول توجه دوسويه ميانوجهي است كه بهصورت پويا يافتههاي بصري را به اصطلاحات باليني مشخص متصل ميسازد. نكته مهم آن است كه مدل با استفاده از مجموعهداده CheXpert ارزيابي شد تا توانايي آن در تمايز ميان شرايط مختلف بهطور دقيق سنجيده شود؛ ارزيابياي كه فراتر از طبقهبندي ساده متني است. مدل «كاملاً چندوجهي» پيشنهادي به مقدار AUC-ROC برابر با 80.17٪ و امتياز F1 معادل 85.95٪ دست يافت. اين نتايج نشاندهنده يك مشاركت علمي معنادار هستند و اثبات ميكنند كه مدل بهطور مؤثر دادههاي بصري و متني را يكپارچه ميسازد. در مقابلِ آشكار، مدل پايه «فقط-متن» تنها به AUC برابر با 61.52٪ دست يافت كه نشان ميدهد اتكا صرف به پيشفرضهاي جمعيتشناختي و متني براي تشخيص دقيق كافي نيست و روش همجوشي پيشنهادي با موفقيت سيگنالهاي تشخيصي حياتي را از تصاوير استخراج ميكند. علاوه بر اين، پايداري مدل با استفاده از مجموعهداده ناهمگون ROCO ارزيابي شد تا قابليت تعميم آن در مواجهه با تغييرات دامنه بررسي گردد. فراتر از معيارهاي كمي، اين معماري شامل قابليت تبيينپذيري باليني نيز هست؛ بهطوري كه نقشههاي حرارتي توجه نشان ميدهند مدل هنگام پيشبيني بر نواحي آناتوميكي مرتبط (مانند كدورتهاي ريوي) تمركز ميكند. اين يافتهها يك بنيان مقياسپذير و قابل تفسير براي «هوش مصنوعي پزشكي عام» فراهم ميسازند و نشان ميدهند كه همجوشي مؤثر چندوجهي ميتواند بهطور معناداري از مدلهاي تكوجهي در وظايف تشخيصي پيچيده پيشي بگيرد.
تاريخ ورود اطلاعات
1404/12/09
عنوان به انگليسي
MULTIMODAL FUSION OF MEDICAL IMAGES and CLINICAL NOTES FOR AUTOMATED DIAGNOSIS USING VISION-LANGUAGE TRANSFORMERS
تاريخ بهره برداري
1/1/1900 12:00:00 AM
دانشجوي وارد كننده اطلاعات
الاء الدليمي
چكيده به لاتين
Modern medical diagnostics are by nature multimodal; they call for written clinical data to be combined with sophisticated visual information. However, modern Artificial Intelligence systems sometimes find it difficult to get beyond the "modality gap" or exhibit a bias for one sort of data, depending on statistical shortcuts in text while disregarding imaging data. Using a Hierarchical Cross-Modal Attention mechanism, this study introduces a novel Vision-Language Transformer design meant to get past these constraints. The proposed method analyzes clinical text using a domain-specific BioBERT model and medical images using a Vision Transformer (ViT-Base). A bidirectional cross-attention module is the main innovation. It connects specific clinical words with visual outcomes in a dynamic way. Remarkably, the model was extensively investigated for its capacity to distinguish among several disorders using the CheXpert dataset, hence beyond simple text classification. With an AUC-ROC of 80.17% and an F1-Score of 85.95%, the suggested Full-Multimodal model performs well. These findings are a major scientific contribution since they show the modelʹs ability to combine textual and visual information. Conversely, the Text-Only baseline reached an AUC of just 61.52%, demonstrating that demographic and textual priors alone are inadequate for correct diagnosis and that the suggested fusion technique effectively extracts crucial diagnostic signals from the images. To check generalization across domain changes, the modelʹs robustness was also examined on the mixed ROCO dataset. Beyond numerical data, the design includes clinical explicability; attention heatmaps show that the model accurately predicts regions of anatomical relevance (such as lung opacities). These results provide Generalist Medical AI with a scaleable, interpretable base, demonstrating that in challenging diagnostic activities good multimodal fusion can greatly outperform unimodal baselines.
كليدواژه هاي فارسي
/
كليدواژه هاي لاتين
/
Author
Alaa Aldulaimi
SuperVisor
Dr. Minaei