-
شماره ركورد
23666
-
پديد آورنده
پروين كشوري فيني
-
عنوان
ارائه الگوريتمي براي نوع يابي و پيونددهي توأمان موجوديت در جداول متني به زبان فارسي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي كامپيوتر- نرمافزار
-
سال تحصيل
1396
-
تاريخ دفاع
1400/1/22
-
استاد راهنما
آقاي دكتر بهروز مينايي
-
دانشكده
مهندسي كامپيوتر
-
چكيده
با افزايش روزافزون دادهها در اينترنت، وب به يكي از بزرگترين مخازن داده تبديلشده است. وبسايتها حاوي اطلاعاتي ناهمگن به شكل صفحات متني، تصاوير ديجيتالي و غيره هستند. جداول يكي از عناصر صفحات وب هستند كه نمايش فشردهاي از اطلاعات با پوشش موضوعي گستردهاي را فراهم ميكنند.
درك جدول، فرآيند كلي است كه با استخراج يك جدول از صفحات وب شروع ميشود و تا تفسير معنايي آن را پوشش ميدهد. هدف فرآيند تفسير معنايي جداول، توانمندسازي ماشينها براي درك معناي دادههاي موجود در جدول است. تفسير معنايي جداول، يك زمينه درحالتوسعه در پردازش زبانهاي طبيعي است كه در بهبود عملكرد سيستمهايي ازجمله استخراج اطلاعات و موتورهاي جستجو كاربرد دارد.
در اين پايان نامه، الگوريتمي براي نوع يابي و پيونددهي موجوديت در جداول فارسي به پايگاه دانش فارسبيس ارائه ميدهيم. چنين پژوهشي در زبان فارسي براي اولين بار است كه انجام ميشود. ما با پيونددهي سلولهاي جدول به موجوديتهاي مرجع نظير آنها در پايگاه دانش فارسبيس و نوع سلولها با انواع نظير آنها، تناظرهايي بين عناصر جدول و عناصر پايگاه دانش فارسبيس ايجاد ميكنيم. در ابتدا پس از اعمال پيشپردازش روي جداول، مجموعه موجوديتهاي نامزد براي هر موجوديت ارجاعي در سلولها را توليد ميكنيم. سپس مجموعهاي از مفاهيم مرتبط با هر نامزد را استخراج كرده و بهعنوان مجموعه كلاسهاي نامزد براي نوع موجوديتهاي ستون در نظر ميگيريم. در مرحله بعد ابهامزدايي نوع موجوديتهاي ستونها انجام ميشود و در آخرين مرحله سعي ميشود تا موجوديتهاي ارجاعي، ابهامزدايي شوند.
ارزيابيها نشان ميدهد كه روش پيشنهادي در پيونددهي موجوديت حدود 37% و در نوع يابي موجوديت حدود 4% نسبت به خط مبنا نتايج بهتري دارد. نتايج الگوريتم پيونددهي موجوديتهاي سلولها و حاشيهنويسي نوع ستونهاي جداول، در زبان فارسي اولين است.
-
تاريخ ورود اطلاعات
1400/03/06
-
عنوان به انگليسي
Presentation An algorithm For Entity Typing And Joining An Entity Linking In Text Tables In The Persian Language
-
تاريخ بهره برداري
4/11/2022 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
پروين كشوري فيني
-
چكيده به لاتين
With the proliferation of data on the Internet, the Web has become one of the largest repositories of data. Websites contain heterogeneous information in the form of text pages, digital images, and so on. Tables are one of the elements of web pages that provide a concise display of information with a wide range of topics.
Table comprehension is a general process that begins with extracting a table from web pages and covers it up to semantic interpretation. The purpose of the semantic interpretation process of tables is to empower machines to understand the meaning of the data in the table. Semantic interpretation of tables is an evolving field in natural language processing that is used to improve the performance of systems such as information extraction and search engines.
In this dissertation, we present an algorithm for entity linking and entity typing in Persian tables with the FarsBase knowledge base. This is the first time such research has been done in Persian. By linking table cells to peer entities in the FarsBase Knowledge Base, we create a correspondence between the elements of the table and the elements of the FarsBase Knowledge Base. First, after pre-processing the tables, we generate a set of candidate entities for each entity mention in the cells. Then we extract a set of concepts related to each candidate and consider it as a set of candidate classes for the type of column entities. In the next step, the type of column entities is disambiguated, and in the last step, an attempt is made to disambiguate the reference entities.
Evaluations show that the proposed method has about 37% better results in entity linking and about 4% in entity typing detection than the baseline. The results of the algorithm for linking cell entities and annotating the type of columns of tables are simultaneously the first in Persian.
-
كليدواژه هاي فارسي
جداول وب- گراف دانش فارسي- ارتباطدهي موجوديت- نوع يابي موجوديت
-
كليدواژه هاي لاتين
Persian Knowledge Graph, Web Tables, Entity Linking, Entity Typing
-
لينک به اين مدرک :