-
شماره ركورد
25166
-
پديد آورنده
امير هاونگي
-
عنوان
ارائه يك الگوريتم مستقل از زبان در جهت ابهامزدايي واژگان در فضاي بازيابي اطلاعات، با رويكرد پيونددهي موجوديت و با استفاده از دانشنامه ويكي و كاربست آن در زبان فارسي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي نرم افزار
-
سال تحصيل
97
-
تاريخ دفاع
1400/02/01
-
استاد راهنما
دكتر بهروز مينايي بيدگلي
-
دانشكده
مهندسي كامپيوتر
-
چكيده
علم بازيابي اطلاعات در جهت كشف يك سري حقايق و اطلاعات از متون و دادههاي خام ميباشد. يكي از رويكردهاي اين علم، رتبهبندي مستندات در جهت رسيدن به اطلاعات است. با اتكا به پيونددهي موجوديت كه فرايندي شامل استخراج موجوديتها در متون است و آنها را به موجوديتهاي مرتبط در پايگاه دانش پيوند ميدهد، ميتوان اين رويكرد را محقق نمود. اين فرايند به نوعي مرتبط با علم بازيابي اطلاعات است و ميتواند عملكرد شبكههاي دانش، تركيب دانش، پردازش زبان طبيعي و جمعيت پايه دانش كه به معني شلوغ كردن و تكميل پايگاه دانش با عناصر مربوط به دانش است را بهبود بخشد. چند موجوديت متفاوت، ممكن است نامهاي مشابهي داشته باشند، مانند دو شخص متفاوت كه از نام يكساني ممكن است برخوردار باشند؛ در حالي كه در سامانه پيونددهي موجوديتها بايد از هم تشخيص داده شوند. به همين دليل اطلاعات مربوط به هر موجوديت ميتواند نقش اساسي در تصميمگيري درست بين موجوديتها ايفا كند. هدف اكثر روشهاي موفق پيونددهي موجوديت، ارتباط دادن نامها به موجوديتهاي مرجع آن، در يك پايگاه دانش ساختاريافته است. الگوريتم مورد بررسي در اين پژوهش، يك روش بيناظر است كه بر روي دادگان فارسي و انگليسي با استفاده از پايگاه دانش ويكيپديا عمل ميكند. همچنين از روش توليد كانديداي اين الگوريتم براي بهبود موتورهاي جستجو استفاده ميشود. در الگوريتم ارائه شده، موجوديتهاي نامزد انتخاب شده، از طريق شيوه امتيازدهي مبتني بر ويكيپديا و روابط بين مقالات، تا دو سطح سنجيده شده و در نهايت موجوديت با بيشترين امتياز انتخاب ميشود. در اين پاياننامه دقت الگوريتم ارائه شده نسبت به كارهاي مشابه مورد بررسي، بيشتر است و ميزان سنجه-اف روي مجموعه داده پارس.اي.ال.سوشال 91.4% ميباشد.
-
تاريخ ورود اطلاعات
1400/06/14
-
عنوان به انگليسي
Presentation of a language-independent algorithm for ambiguity of words in the information retrieval space, with the approach of entity linking and using the wiki encyclopedia and its application in Persian language
-
تاريخ بهره برداري
4/21/2022 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
امير هاونگي
-
چكيده به لاتين
Information retrieval science is the discovery of a series of facts and information from raw texts and data. One of the approaches of this science is to rank documents in order to obtain information. This approach can be accomplished by relying on entity linking, a process that involves extracting nominal entities in texts and linking them to related entities in the knowledge base. This process is somehow related to information retrieval science and can improve the performance of knowledge networks, knowledge synthesis, natural language processing, and the knowledge base population. Several different entities may have the same name, such as two different individuals who may have the same name; while in the linking system, the entities must be distinguished from each other. For this reason, information about each entity can play a key role in making the right decisions between entities. The goal of the most successful methods of linking an entity is to link the letters to its reference entities in a structured knowledge base. The algorithm studied in this research is an unsupervised method that works on Persian and English data using the Wikipedia knowledge base. In addition, the candidate production method of this algorithm is used to improve search engines, which is completely in the field of data retrieval. In the proposed algorithm, the selected candidate entities are measured to two levels through Wikipedia-based scoring method and links between articles, and finally, the entity with the highest score is selected. In this dissertation, the accuracy of the proposed algorithm is higher than the similar works under study and the rate of F-measurement on the ParsEL Social data set is 91.4%.
-
كليدواژه هاي فارسي
پيونددهي موجوديت , بازيابي اطلاعات , ابهامزدايي , مستقل از زبان , پردازش زبان طبيعي
-
كليدواژه هاي لاتين
ٍEntity Linking , Information Retrieval , Disambiguation , Language Independent , NLP
-
لينک به اين مدرک :