• شماره ركورد
    23666
  • پديد آورنده

    پروين كشوري فيني

  • عنوان
    ارائه الگوريتمي براي نوع يابي و پيونددهي توأمان موجوديت در جداول متني به زبان فارسي
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي كامپيوتر- نرم‌افزار
  • سال تحصيل
    1396
  • تاريخ دفاع
    1400/1/22
  • استاد راهنما
    آقاي دكتر بهروز مينايي
  • دانشكده
    مهندسي كامپيوتر
  • چكيده
    با افزايش روزافزون داده‌ها در اينترنت، وب به يكي از بزرگ‌ترين مخازن داده تبديل‌شده است. وب‌سايت‌ها حاوي اطلاعاتي ناهمگن به شكل صفحات متني، تصاوير ديجيتالي و غيره هستند. جداول يكي از عناصر صفحات وب هستند كه نمايش فشرده‌اي از اطلاعات با پوشش موضوعي گسترده‌اي را فراهم مي‌كنند. درك جدول، فرآيند كلي است كه با استخراج يك جدول از صفحات وب شروع مي‌شود و تا تفسير معنايي آن را پوشش مي‌دهد. هدف فرآيند تفسير معنايي جداول، توانمندسازي ماشين‌ها براي درك معناي داده‌هاي موجود در جدول است. تفسير معنايي جداول، يك زمينه درحال‌توسعه در پردازش زبان‌هاي طبيعي است كه در بهبود عملكرد سيستم‌هايي ازجمله استخراج اطلاعات و موتورهاي جستجو كاربرد دارد. در اين پايان نامه، الگوريتمي براي نوع يابي و پيونددهي موجوديت در جداول فارسي به پايگاه دانش فارس‌بيس ارائه مي‌دهيم. چنين پژوهشي در زبان فارسي براي اولين بار است كه انجام مي‌شود. ما با پيونددهي سلول‌هاي جدول به موجوديت‌هاي مرجع نظير آن‌ها در پايگاه دانش فارس‌بيس و نوع سلول‌ها با انواع نظير آن‌ها، تناظرهايي بين عناصر جدول و عناصر پايگاه دانش فارس‌بيس ايجاد مي‌كنيم. در ابتدا پس از اعمال پيش‌پردازش روي جداول، مجموعه موجوديت‌هاي نامزد براي هر موجوديت ارجاعي در سلول‌ها را توليد مي‌كنيم. سپس مجموعه‌اي از مفاهيم مرتبط با هر نامزد را استخراج كرده و به‌عنوان مجموعه كلاس‌هاي نامزد براي نوع موجوديت‌هاي ستون در نظر مي‌گيريم. در مرحله بعد ابهام‌زدايي نوع موجوديت‌هاي ستون‌ها انجام مي‌شود و در آخرين مرحله سعي مي‌شود تا موجوديت‌هاي ارجاعي، ابهام‌زدايي شوند. ارزيابي‌ها نشان مي‌دهد كه روش پيشنهادي در پيونددهي موجوديت حدود 37% و در نوع يابي موجوديت حدود 4% نسبت به خط مبنا نتايج بهتري دارد. نتايج الگوريتم پيونددهي موجوديت‌هاي سلول‌ها و حاشيه‌نويسي نوع ستون‌هاي جداول، در زبان فارسي اولين است.
  • تاريخ ورود اطلاعات
    1400/03/06
  • عنوان به انگليسي
    Presentation An algorithm For Entity Typing And Joining An Entity Linking In Text Tables In The Persian Language
  • تاريخ بهره برداري
    4/11/2022 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    پروين كشوري فيني

  • چكيده به لاتين
    With the proliferation of data on the Internet, the Web has become one of the largest repositories of data. Websites contain heterogeneous information in the form of text pages, digital images, and so on. Tables are one of the elements of web pages that provide a concise display of information with a wide range of topics. Table comprehension is a general process that begins with extracting a table from web pages and covers it up to semantic interpretation. The purpose of the semantic interpretation process of tables is to empower machines to understand the meaning of the data in the table. Semantic interpretation of tables is an evolving field in natural language processing that is used to improve the performance of systems such as information extraction and search engines. In this dissertation, we present an algorithm for entity linking and entity typing in Persian tables with the FarsBase knowledge base. This is the first time such research has been done in Persian. By linking table cells to peer entities in the FarsBase Knowledge Base, we create a correspondence between the elements of the table and the elements of the FarsBase Knowledge Base. First, after pre-processing the tables, we generate a set of candidate entities for each entity mention in the cells. Then we extract a set of concepts related to each candidate and consider it as a set of candidate classes for the type of column entities. In the next step, the type of column entities is disambiguated, and in the last step, an attempt is made to disambiguate the reference entities. Evaluations show that the proposed method has about 37% better results in entity linking and about 4% in entity typing detection than the baseline. The results of the algorithm for linking cell entities and annotating the type of columns of tables are simultaneously the first in Persian.
  • كليدواژه هاي فارسي
    جداول وب- گراف دانش فارسي- ارتباط‌دهي موجوديت‌- نوع يابي موجوديت
  • كليدواژه هاي لاتين
    Persian Knowledge Graph, Web Tables, Entity Linking, Entity Typing