شماره ركورد
34783
پديد آورنده
غزل زمانينژاد
عنوان
توليد گزارش پزشكي با رويكرد بازيابي چندوجهي
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي كامپيوتر
سال تحصيل
1404
تاريخ دفاع
1404/07/27
استاد راهنما
سيد صالح اعتمادي
استاد مشاور
-
دانشكده
مهندسي كامپيوتر
چكيده
توليد خودكار گزارشهاي راديولوژي راهكاري كليدي براي مقابله با حجم فزايندهي معاينات تصويربرداري و كاهش فشار كاري بر راديولوژيستهاست. فشاري كه ميتواند منجر به خستگي و افزايش احتمال خطاي تشخيصي شود. با وجود پيشرفت چشمگير مدلهاي زباني بزرگ، چالشهايي همچون لزوم دقت باليني بالا، جلوگيري از توليد جملات نادرست يا فاقد پشتوانهي باليني، و كمبود شفافيت در استدلال مدل، مانع از بهكارگيري گستردهي آنها در محيطهاي باليني شده است.
اين پژوهش چارچوبي براي توليد گزارشهاي راديولوژي مبتني بر بازيابي چندوجهي معرفي ميكند. روش پيشنهادي توانايي درك زباني مدلهاي بزرگ را با سازوكاري پويا براي بازيابي از پايگاه دادهي باليني تركيب ميكند تا گزارشهايي مبتني بر شواهد واقعي و قابل تاييد توليد شود. در اين چارچوب، ويژگيهاي استخراجشده از تصاوير قفسه سينه توسط مدلهاي بينايي براي شناسايي نمونههاي مشابه به كار ميروند. سپس، گزارشهاي بازيابيشده به همراه برچسبهاي تصويري به عنوان زمينه به مدل زباني ارائه ميشوند تا بخشهاي يافتهها و جمعبندي توليد شوند.
ارزيابيها روي مجموعهداده MIMIC-CXR-JPG نشان داد كه مدلهاي مبتني بر RAG در مقايسه با مدل پايه (بدون بازيابي) در معيارهاي RadGraph و CheXbert عملكرد بهتري دارند. بهطور خاص، در بخش توليد يافتهها، امتياز CheXbert به ميزان 0.02 و امتياز RadGraph به ميزان 0.1 نسبت به آزمايش پايه بهبود يافت؛ و در بخش توليد جمعبندي نيز، امتياز CheXbert به ميزان 0.01 و امتياز RadGraph به ميزان 0.05 نسبت به آزمايش پايه افزايش نشان داد. اين نتايج نشان ميدهد كه انتخاب استراتژي بازيابي متناسب با گزارش همراه با افزودن احتمالات برچسبها به پرامپت، دقت باليني و انسجام گزارشها را بهبود ميبخشد، در حاليكه افزودن نمونههاي نامرتبط به زمينه ميتواند كارايي مدل را كاهش دهد.
اين پژوهش چارچوبي عملي براي توليد خودكار گزارشهاي راديوگرافي قفسه سينه ارائه ميدهد كه با كاهش توهم و بهبود دقت باليني و زباني، بدون نياز به بازآموزي مدلهاي زباني، عملكردي قابل اعتماد فراهم ميكند. اين چارچوب گامي موثر در جهت توسعهي سامانههاي قابل شرح و قابل اعتماد در توليد گزارشهاي پزشكي محسوب ميشود.
تاريخ ورود اطلاعات
1405/02/13
عنوان به انگليسي
Radiology Report Generation Using Multimodal Retrieval Augmented Generation
تاريخ بهره برداري
4/21/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
غزل زماني نژاد
چكيده به لاتين
The automated generation of radiology reports is a key solution to address the growing volume of imaging examinations and reduce the workload pressure on radiologists, which can lead to fatigue and an increased likelihood of diagnostic errors. Despite significant advancements in large language models, challenges such as the need for high clinical accuracy, prevention of incorrect or unsupported clinical statements, and lack of transparency in model reasoning have hindered their widespread adoption in clinical settings.
This research introduces a framework for generating radiology reports based on multimodal RAG. The proposed method combines the language comprehension capabilities of large models with a dynamic mechanism for retrieving data from a clinical database to produce evidence-based and verifiable reports. In this framework, features extracted from chest images by a vision model are used to identify similar cases. The retrieved reports, along with image labels, are then provided as context to the language model to generate the “findings” and “impression” sections.
evaluations on the MIMIC-CXR-JPG dataset showed that models based on Retrieval-Augmented Generation (RAG) outperformed the baseline model (without retrieval) in metrics such as RadGraph and CheXbert.
Specifically, in the findings section, CheXbert improved by 0.02 and RadGraph by 0.1 compared to the baseline; and in the impression section, CheXbert and RadGraph improved by 0.01 and 0.05, respectively.
selecting a retrieval strategy tailored to the report, combined with incorporating label probabilities into the prompt, enhances clinical accuracy and report coherence, whereas adding irrelevant samples to the context decreases overall performance.
This research presents a practical framework for the automated generation of chest radiology reports, which reduces hallucination and enhances clinical and linguistic accuracy, providing reliable performance without the need for fine-tuning language models. This framework represents an effective step toward developing interpretable and trustworthy systems for generating medical reports.
كليدواژه هاي فارسي
توليد افزودهشده با بازيابي , مدل زباني بزرگ , توليد خودكار گزارش راديولوژي , بازيابي چندوجهي
كليدواژه هاي لاتين
Retrieval Augmented Generation , Large Language Model , Automatic Radiology Report Generation , Multimodal Retrieval
Author
Ghazal Zamaninejad
SuperVisor
Sauleh Eetemadi