چکيده
در سالهاي اخير، با افزايش روزافزون دادهها در اينترنت، وب به يكي از بزرگترين مخازن داده تبديل شده است. مقادير زيادي از اين دادهها در قالب زبان طبيعي است كه اين زبان، بسيار مبهم است. يكي از دلايل اين ابهام وقوع مكرر موجوديتها است. زيرا ممكن است، يك موجوديت داراي چند نام باشد يا يك نام به چند موجوديت اشاره كند. اين حجم بالا از دادههاي متني كه همه روزه در حال افزايش است، نيازمند روشهاي خودكار جهت پردازش، خلاصهسازي و درك معنايي متون است. يك قدم اساسي براي رسيدن به اين هدف، ارتباطدادن موجوديتهاي متن اسناد با موجوديتهاي مرتبط با آنها در پايگاه دانش است. فرآيند ذكر شده، ارتباطدهي موجوديتها ناميده ميشود.
در اكثر سيستمهاي ارتباطدهي موجوديتها، ابتدا موجوديتهاي منتخب پايگاه دانش را يافته، سپس از بين موجوديتهاي نامزد بهترين موجوديت با توجه به موجوديت ارجاعي، انتخاب ميشود. به علت ابهامات موجود در اين حوزه، روشهاي بسيار متفاوتي براي اين فرآيند وجود دارد. اما همه روشها چارچوب يكساني دارند. در اين سمينار، ابتدا به مفاهيم پايه اين حوزه مانند پايگاههاي دانش و مجموعه دادگان پرداخته شده و سپس چارچوب اصلي و روشهاي موجود براي اين فرآيند بررسي ميشود.