-
شماره ركورد
15575
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
15575
-
پديد آورنده
محمد عبدوس
-
عنوان
ارائه روشي جهت تشخيص واحدهاي اسمي در زبان فارسي با استفاده از محتواي ويكيپدياي فارسي
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
هوش مصنوعي و رباتيك
-
سال تحصيل
اسفندماه 1394
-
تاريخ دفاع
اسفندماه 1394
-
استاد راهنما
دكتربهروز مينايي بيدگلي
-
دانشكده
كامپيوتر
-
چكيده
تشخيص واحدهاي اسميشاخهاي از پردازش زبان طبيعي است كه در آنتمامي اسامي خاص موجود در متن و متعلق به ردههاي مختلف معنايي شناسايي و استخراج ميگردند و تحت ردههاي از پيش تعريفشدهاي مانند اسم افراد، سازمانها، مكانها و... دستهبندي ميشوند. هرچند كه در دهه اخير كارهاي زيادي براي سيستمهاي تشخيص واحد اسمي در زبانهاي مختلف و دامنههاي مختلف انجامشده است، اما در زبان فارسي با توجه به عدم وجود يك مجموعه داده كامل به همراه برچسبهاي غني، تاكنون سامانهاي براي طبقهبندي اسامي ايجاد نشده است. تشخيص واحدهاي اسمي در بسياري از سيستمهاي مختلف پردازش زبان طبيعي مانند جستجوهاي معنادار، ترجمهي خودكار، استخراج خودكار رابطههاي متن، كشف ارجاعات در متن، تشخيص گوينده نقلقول، خلاصهسازي متون و بسياري ديگر از زمينههاي مربوط به پردازش زبانهاي طبيعي كاربرد دارد. ما در اين پژوهش ابتدا به معرفي سيستم تشخيص واحد اسمي در زبان فارسي ميپردازيم. سپس تاريخچهاي از سيستمهاي تشخيص واحد اسمي را بيان ميكنيم. در ادامهچالشهايزبان فارسي در اين حوزه را توضيحو استاندارد ايجادشده براي سيستمهاي تشخيص واحد اسمي را موردبررسي قرار ميدهيم. پس از آنروشهاي مختلفپيادهسازي تشخيص واحد اسمي در زبان فارسي را شرح ميدهيم. اين روشها را ميتوان به سه دسته روشهاي با قاعده، مبتني بر واژگان و مبتني بر يادگيري ماشين تقسيم كرد. ما در اين پاياننامه هر سه روش را پيادهسازي كرديم و براي واژگان نيز بهترين منبع، استفاده از ويكيپديا بود كه منبع عظيمي از واحدهاي اسمي را داراست. براي پيادهسازيروشهاي يادگيري ماشين نياز به مجموعه داده برچسب خورده داشتيم كه با توجه به عدم وجود آن دو پيكرهايرا كهبالغبر 400 هزار كلمه برچسب خورده بود توليد كرديم. يكي از اين پيكرهها حاوي سه نوع برچسب مكان،سازمان و شخص ميباشد و ديگري شامل مكان، شخص، سازمان، امكانات، محصول و رويداد است.بعد از ايجاد پيكره مدل ميدانهاي تصادفي شرطي را آموزش داديم. معيار F سيستم در حالت تشخيص سه نوع واحد اسمي 88 و شش نوع واحد اسمي 83 به دست آمد.ارزيابيها به روش ارزيابي متقاطع 5-تايي و بر اساس هر كلمهانجامشده است.
واژههاي كليدي: شناسايي واحدهاي اسمي، پردازشزبان طبيعي، مبتني بر قاعده، مبتني بر واژگان، پيكره، ميدانهاي تصادفي شرطي
-
لينک به اين مدرک :