شماره ركورد
22128
پديد آورنده
دلارام جاوداني ريخته گر
عنوان
ارائه يك روش كارا براي بلاكبندي در تطبيق موجوديت با استفاده از يادگيري عميق
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
نرم افزار
سال تحصيل
1396
تاريخ دفاع
1398/10/21
استاد راهنما
دكتر حسين رحماني
دانشكده
كامپيوتر
چكيده
تطبيق موجوديت به فرآيند شناسايي و ادغام ركوردهاي متعلق به موجوديت¬هاي يكتا اشاره دارد. روش استاندارد، استفاده از يك مدل مبتني بر قانون يا مدل يادگيري ماشين، براي مقايسه و اختصاص يك امتياز براي نشان دادن وضعيت تطبيق و عدم تطبيق جفت ركورد¬ها است. با اين حال، انجام يك مقايسه جامع در تمام جفت ركوردها منجر به پيچيدگي تطبيق درجه دوم مي¬شود و در نتيجه قبل از تطبيق، بلاك-بندي انجام مي¬شود تا موجوديت¬هاي مشابه را به بلاك¬هاي كوچك گروه¬بندي كند و سپس عمليات تطبيق به طور جامع انجام شود. براي بلاك¬بندي كارآمد و موثر مجموعه داده¬هاي ورودي به گروه¬هايي قابل مديريت، چندين روش بلاك¬بندي ارائه شده است كه عموما به روش¬هاي بلاك¬بندي مبتني بر شِما، شِما آگنوستيك، روش¬هاي پردازش بلاك و فرابلاك¬بندي تقسيم¬بندي مي¬شوند. با اين¬حال عموم اين روش¬ها هيچ معيار معنايي براي بلاك¬بندي ركوردها در نظر نگرفتند. روش¬هاي مبتني بر يادگيري عميق از جمله روش¬هاي تعبيه كلمات به طور خودكار شباهت معنايي و نحوي ركورد¬هاي متني را استخراج مي¬كنند. در اين پژوهش يك روش كارا براي بلاك¬بندي در تطبيق موجوديت با استفاده از يادگيري عميق ارائه مي-دهيم. روش پيشنهادي يك روش فرابلاك¬بندي آگاه به معني است. شباهت معنايي ركوردها با استفاده از روش درهم¬سازي حساس به موقعيت (LSH) مبتني بر تعبيه كلمات (BERT) محاسبه مي¬شود تا از اين طريق به بلاك¬بندي سريع و قابل اعتماد در محيط داده در مقياس بزرگ برسيم. براي بهبود كيفيت بلاك-هاي ايجاد شده، ما يك گراف وزني از ركورد¬هاي معنايي مشابه ايجاد مي¬كنيم و بر اساس وزن محاسبه شده براي يال¬ها، يال¬هاي گراف را هرس مي¬كنيم. نتايج تجربي نشان داد كه روش پيشنهادي، با توجه به معيارهاي عمومي كيفيت جفت (PQ) و معيار F (FM) براي ارزيابي كيفيت بلاك، از 18 روش بلاك¬بندي موجود در سه منبع داده دنياي واقعي بهتر است.
تاريخ ورود اطلاعات
1399/03/26
عنوان به انگليسي
Recommending an Efficient Blocking Strategy in Entity Resolution using Deep Learning
تاريخ بهره برداري
1/10/2021 12:00:00 AM
دانشجوي وارد كننده اطلاعات
دلارام جاوداني ريخته گر
چكيده به لاتين
Entity resolution refers to the process of identifying and integrating records belonging to unique entities. The standard methods are using a rule-based or machine learning models to compare and assign a point, to indicate the status of matching or non-matching the pair of records. However, a comprehensive comparison across all the records pairs leads to quadratic matching complexity. Therefore blocking methods are using before the matching, to group the same entities into small blocks. Then the matching operation is done comprehensively. Several blocking methods provided to efficiently block the input data into manageable groups, which generally categorized into schema-based blocking techniques, schema-agnostic blocking techniques, block processing techniques, and meta-blocking techniques. Most of these methods typically do not consider semantic relationships among records. In this paper, we propose an efficient blocking strategy in entity resolution using deep learning. The proposed method is a semantic-aware meta-blocking approach. It considers the semantic similarity of records by applying locality-sensitive hashing (LSH) based on word embedding to achieve fast and reliable blocking in a large-scale data environment. To improve the quality of the blocks created, it builds a weighted graph of semantically similar records and prunes the graph edges. We extensively compare our proposed method with 18 existing blocking methods, using three real-world data sets. The experimental results show that our proposed method significantly outperforms all 18 methods with respect to two relevant measures, F-measure and pair-quality measure.