• شماره ركورد
    15575
  • شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
    15575
  • پديد آورنده

    محمد عبدوس

  • عنوان
    ارائه روشي جهت تشخيص واحدهاي اسمي در زبان فارسي با استفاده از محتواي ويكي‌پدياي فارسي
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    هوش مصنوعي و رباتيك
  • سال تحصيل
    اسفند‌ماه 1394
  • تاريخ دفاع
    اسفند‌ماه 1394
  • استاد راهنما
    دكتربهروز مينايي بيدگلي
  • دانشكده
    كامپيوتر
  • چكيده
    تشخيص واحدهاي اسميشاخه‌اي از پردازش زبان طبيعي است كه در آنتمامي اسامي خاص موجود در متن و متعلق به رده‌هاي مختلف معنايي شناسايي و استخراج مي‌گردند و تحت رده‌هاي از پيش تعريف‌شده‌اي مانند اسم افراد، سازمان‌ها، مكان‌ها و... دسته‌بندي مي‌شوند. هرچند كه در دهه اخير كارهاي زيادي براي سيستم‌هاي تشخيص واحد اسمي در زبان‌هاي مختلف و دامنه‌هاي مختلف انجام‌شده است، اما در زبان فارسي با توجه به عدم وجود يك مجموعه داده كامل به همراه برچسب‌هاي غني، تاكنون سامانه‌اي براي طبقه‌بندي اسامي ايجاد نشده است. تشخيص واحدهاي اسمي در بسياري از سيستم‌هاي مختلف پردازش زبان طبيعي مانند جستجوهاي معنادار، ترجمه‌ي خودكار، استخراج خودكار رابطه‌هاي متن، كشف ارجاعات در متن، تشخيص گوينده نقل‌قول، خلاصه‌سازي متون و بسياري ديگر از زمينه‌هاي مربوط به پردازش زبان‌هاي طبيعي كاربرد دارد. ما در اين پژوهش ابتدا به معرفي سيستم تشخيص واحد اسمي در زبان فارسي مي‌پردازيم. سپس تاريخچه‌اي از سيستم‌هاي تشخيص واحد اسمي را بيان مي‌كنيم. در ادامهچالش‌هايزبان فارسي در اين حوزه را توضيحو استاندارد ايجادشده براي سيستم‌هاي تشخيص واحد اسمي را موردبررسي قرار مي‌دهيم. پس از آنروش‌هاي مختلفپياده‌سازي تشخيص واحد اسمي در زبان فارسي را شرح مي‌دهيم. اين روش‌ها را مي‌توان به سه دسته روش‌هاي با قاعده، مبتني بر واژگان و مبتني بر يادگيري ماشين تقسيم كرد. ما در اين پايان‌نامه هر سه روش را پياده‌سازي كرديم و براي واژگان نيز بهترين منبع، استفاده از ويكي‌پديا بود كه منبع عظيمي از واحدهاي اسمي را داراست. براي پياده‌سازيروش‌هاي يادگيري ماشين نياز به مجموعه داده برچسب خورده داشتيم كه با توجه به عدم وجود آن دو پيكره‌ايرا كهبالغ‌بر 400 هزار كلمه برچسب خورده بود توليد كرديم. يكي از اين پيكره‌ها حاوي سه نوع برچسب مكان،سازمان و شخص مي‌باشد و ديگري شامل مكان، شخص، سازمان، امكانات، محصول و رويداد است.بعد از ايجاد پيكره مدل ميدان‌هاي تصادفي شرطي را آموزش داديم. معيار F سيستم در حالت تشخيص سه نوع واحد اسمي 88 و شش نوع واحد اسمي 83 به دست آمد.ارزيابي‌ها به روش ارزيابي متقاطع 5-تايي و بر اساس هر كلمهانجام‌شده است. واژه‌هاي كليدي: شناسايي واحدهاي اسمي، پردازشزبان طبيعي، مبتني بر قاعده، مبتني بر واژگان، پيكره، ميدان‌هاي تصادفي شرطي