-
شماره ركورد
33247
-
پديد آورنده
سيدمهدي ولي زاده
-
عنوان
استخراج داده از مقالات در حوزه تحليل احساسات به منظور تسهيل فرآيند مرور ادبيات با استفاده از تكنيك هاي متن كاوي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي صنايع
-
سال تحصيل
1400
-
تاريخ دفاع
1403/10/30
-
استاد راهنما
مهندسي غضنفري
-
استاد مشاور
ندارم
-
دانشكده
مهندسي صنايع
-
چكيده
پژوهش حـاضـــر بـا هـدف بررســـي كـارايي مـدلهـاي زبـاني بزرگ (LLMs) و روش توليـد مبتني بر بـازيـابي (RAG) در اسـتخراج اطلاعات كليدي از مقالات علمي پژوهشـي در فرآيند مرور ادبيات سـيسـتماتيك انجام شــده اســت. اين پژوهش با تمركز بر اســتخراج مؤلفههاي دقيق نظير الگوريتمها، ديتاســتها، و روشهاي ارزيابي، به بررســي و ارزيابي تأثير پارامترهاي مختلف بر دقت اســتخراج اطلاعات پرداخته اســت. روش تحقيق اتخاذ شـده در اين پژوهش، يك رويكرد سـيسـتماتيك و مبتني بر مراحل مشـخص اسـت. در اين راسـتا، پس از انتخاب مقالات مبنا، مولفههاي اسـتخراج تعريف شـده و مدلهاي زباني(turbo-3.5-GPT و-4GPT) .گرديدند انتخاب( all-MiniLM-L12-v2, all-mpnet-base-v2, text-embedding-3) امبدينگ مدلهاي و فرآيند اســتخراج دادهها با اســتفاده از LLM و روشRAG ، با تنظيم پارامترهايي نظير تعداد متون بازيابي شــده (K-Top )و اندازه قطعهها (Size Chunk (انجام شــد. نتايج با اســتفاده از شــاخصهايPrecision ، Recallو Score1-F ارزيابي گرديدند و سـپس تحليلهاي آماري براي بررسـي تأثير پارامترهاي مختلف بر دقت اسـتخراج اطلاعات صـورت پذيرفت. يافتههاي پژوهش نشـان داد كه افزايش تعداد متون بازيابي شـده و اندازه قطعهها تا حد مشـخصـي، موجب بهبود دقت اسـتخراج اطلاعات ميشـود. همچنين، مدل تعبيهسـازي 2v12-L-MiniLM-all در مقايسـه با سـاير مدلها عملكرد بهتري داشـت. در كمال شـگفتي، نتايج نشـان داد كـه انتخـاب مـدل زبـاني بزرگ(در مقـايســـه بين O-4GPT وturbo-3.5-GPT(، تـأثير قـابـل توجهي بر دقـت اســتخراج اطلاعات ندارد، در حالي كه مدل O-4GPT از لحاظ كيفيت پاســخ، برتري قابل توجهي از خود نشــان داد. به طور كلي، نتايج پژوهش حاضــر نشــان ميدهد كه روش RAG با اســتفاده از مدلهاي زباني بزرگ، ابزاري كارآمد براي اسـتخراج دقيق اطلاعات از مقالات علمي اسـت، اما نيازمند تنظيم دقيق پارامترها و انتخـاب مـدلهـاي منـاســـب اســـت. اين پژوهش بـا ارائـه يـك رويكرد نوآورانـه و نتـايج دقيق، گـامي مهم در جهت بهبود فرآيند مرور ادبيات سـيسـتماتيك برداشـته اسـت و ميتواند مبنايي براي تحقيقات آينده در اين حوزه باشد.
-
تاريخ ورود اطلاعات
1404/01/24
-
عنوان به انگليسي
Data Extraction from Articles in Sentiment Analysis Domain to Facilitate Literature Review Process Using Text Mining Techniques
-
تاريخ بهره برداري
1/1/1900 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
سيدمهدي ولي زاده
-
چكيده به لاتين
This research investigates the effectiveness of Large Language Models (LLMs) and RetrievalAugmented Generation (RAG) in extracting key information from scientific articles within the context of systematic literature review. Focusing on the precise extraction of components such as algorithms, datasets, and evaluation methods, this study examines the influence of various parameters on the accuracy of information retrieval. The research methodology follows a systematic approach involving the selection of base articles, defining extraction components, choosing language models (GPT-3.5-turbo and GPT-4O) and embedding models (all-MiniLML12-v2, all-mpnet-base-v2, text-embedding-3). The data extraction process was performed using LLMs and RAG, with adjustments made to parameters like the number of retrieved texts (Top-K) and chunk sizes. Results were evaluated using Precision, Recall, and F1-Score metrics, and statistical analyses were conducted to examine the impact of parameters on the accuracy of information extraction. Findings indicate that increasing the number of retrieved texts and chunk sizes up to a certain point enhances extraction accuracy. Additionally, the allMiniLM-L12-v2 embedding model outperformed others. Notably, the choice of large language model (GPT-4O vs. GPT-3.5-turbo) did not significantly impact extraction accuracy, though GPT-4O exhibited superior response quality. Overall, this study demonstrates that RAG, when combined with LLMs, is a valuable tool for precise information extraction from scientific articles, but requires careful parameter tuning and model selection. This study contributes an innovative approach and detailed results to improve the systematic literature review process and can be a foundation for future research in this field.
-
كليدواژه هاي فارسي
مرور ادبيات سيستماتيك , مدلهاي زباني بزرگ , توليد مبتني بر بازيابي , استخراج اطلاعات
-
كليدواژه هاي لاتين
Systematic Literature Review , Large Language Models , Retrieval-Augmented Generation , Information extraction
-
Author
seyed mahdi valizadeh
-
SuperVisor
mehdi ghazanfari
-
لينک به اين مدرک :