-
شماره ركورد
25639
-
پديد آورنده
فرزانه فخريان
-
عنوان
بهبود روشهاي باناظر براي ارتباطدهي موجوديتها در زبان فارسي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر - هوش مصنوعي و رباتيكز
-
تاريخ دفاع
1400/06/23
-
استاد راهنما
دكتر بهروز مينايي بيدگلي
-
دانشكده
مهندسي كامپيوتر
-
چكيده
در سالهاي اخير، با افزايش روزافزون دادهها در اينترنت، وب به يكي از بزرگترين مخازن داده تبديل شده است. مقادير زيادي از اين دادهها در قالب زبان طبيعي است؛ اما اين زبان، بسيار مبهم است. يكي از دلايل اين ابهام وقوع مكرر موجوديتها است. زيرا ممكن است، يك موجوديت داراي چند نام باشد يا يك نام به چند موجوديت اشاره كند. اين حجم بالا از دادههاي متني كه همه روزه در حال افزايش است، نيازمند روشهاي خودكار جهت پردازش، خلاصهسازي و درك معنايي متون است. يك قدم اساسي براي رسيدن به اين هدف، ارتباطدادن موجوديتهاي متن اسناد با موجوديتهاي مرتبط با آنها در پايگاه دانش است. فرآيند ذكر شده، ارتباطدهي موجوديتها ناميده ميشود.
اين پژوهش به معرفي يكي از اولين مدلهاي ارتباطدهي موجوديتها به كمك روشهاي باناظر در زبان فارسي ميپردازد. در مدل معرفي شده، براساس چارچوب سيستمهاي ارتباطدهي موجوديتها، ابتدا موجوديتهاي نامزد را از گراف دانش فارسي استخراج و از تركيب مدل ParsBERT و تابع تبديل دوخطي بر روي متن مرتبط با هر موجوديت و مقايسه آن با متن ورودي، براي رتبهبندي نامزدهاي هر موجوديت استفاده ميشود. و به كمك يك حد آستانه تعريف شده، موجوديتهاي غير قابل نگاشت را تشخيص داده و از ديگر موجوديتها با برچسب NL، جدا ميكند.
مدل معرفي شده، توانسته به نرخ صحت 90% بر روي مجموعه داده ParsEL-Social كه اولين مجموعه داده برچسبگذاري شده براي ارتباطدهي موجوديتها در زبان فارسي است، دست يابد. اين مدل، بهترين عملكرد را بين معدود سيستمهاي ارتباطدهي موجوديت در زبان فارسي دارد. و نتايج مدل نسبت به بهترين مدل پيشين، حدود 10 درصد در معيار صحت پيشرفت داشته است. نتايج بهدست آمده، قابل قياس با هر سيستم ارتباطدهي موجوديتي است كه بتواند بر روي زبان فارسي پيادهسازي شود.
-
تاريخ ورود اطلاعات
1400/09/15
-
عنوان به انگليسي
Improving Supervised Methods for Persian Entity Linking
-
تاريخ بهره برداري
9/14/2022 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
فرزانه فخريان
-
چكيده به لاتين
In recent years, web data has increased exponentially; creating one of the largest data repositories in the world. A large portion of this data is in natural language formats. However, natural language is highly ambiguous, specifically with respect to the frequent occurrences of named entities. This has created a growing need for automatic methods for text aggregation, summarization, and semantic understanding. Entity linking is a key step towards these goals. Entity linking is the task to link entity mentions in the text with their corresponding entities in a knowledge base. However, this task is challenging due to name variations and entity ambiguity.
In this study, we proposed the first supervised entity linking system specifically for the Persian language. In this model, we extract candidate entities from FarsBase and use the ParsBERT model and bilinear transfer layer for each candidate article and compare them to the input text of the entity mention to rank candidates. The proposed model achieves 90% accuracy on the ParsEL-Social dataset, the first Persian entity linking dataset. This model is a state-of-the-art system in Persian entity linking and is approximately 10% more accurate than Parsel1.0, the latest Persian entity linking system released. This model is comparable to any other entity linking system that supports Persian.
-
كليدواژه هاي فارسي
ابهامزدايي موجوديتها , يادگيري باناظر , گراف دانش فارسي , پردازش زبانهاي طبيعي , ارتباطدهي موجوديتها
-
كليدواژه هاي لاتين
Entity disambiguation , Supervised learning , FarsBase knowledge graph , Natural language processing , Entity linking
-
لينک به اين مدرک :