• شماره ركورد
    7538
  • پديد آورنده

    مرسده ايراني

  • عنوان
    پياده سازي يك سامانه ويراستار هوشمند براي محتواي تركيبي فارسي و عربي
  • مقطع تحصيلي
    كارشناسي
  • رشته تحصيلي
    مهندسي كامپيوتر
  • سال فارغ التحصيلي
    1400
  • استاد راهنما
    دكتر بهروز مينايي بيدگلي- دكتر جاهد مطلق
  • دانشجوي وارد كننده اطلاعات

    مرسده ايراني

  • تاريخ ورود اطلاعات
    1400/08/21
  • دانشكده
    مهندسي كامپيوتر
  • عنوان به انگليسي
    Implementing a smart editing system for combined Persian and Arabic content
  • چكيده
    يكي از دغدغه¬هاي اصلي پژوهشگران در نگارش متون تحقيقاتي نظير مقالات و پايان¬نامه¬ها، درستي آن¬ها به لحاظ املايي است. اين مسئله به يكي از مفاهيم پركاربرد در حوزه پردازش زبان طبيعي يعني بحث ويراستاري و تصحيح خطاي متون مرتبط است. در كشور ما متوني كه زبان فارسي و عربي را تواما دارند، به فراواني يافت مي¬شود (نظير كتب اسلامي و حوزوي). بنابراين بنا شد تا ويراستاري براي اين متون پياده¬سازي كنيم. در اين پژوهش ما دو راهكار براي حل مسئله تصحيح خطاي املايي ارائه داديم. نتايج بررسي¬ها نشان مي-دهد هر كدام روي خطاهاي خاصي عملكرد بهتري دارند. روش پيشنهادي اول، رويكردي مبتني بر يادگيري ماشين و روشي بي¬ناظر است كه بر مبناي مدل زباني مبتني بر چندتايي¬ها طراحي شده است. دادگان مورد استفاده در اين بخش متشكل از حدود 220 هزار جمله با محتواي تركيبي عربي و فارسي است كه چندتايي¬ها از روي آن ساخته شده¬اند. مدل زباني از يك مدل آماري كه برگرفته از احتمال تكرار چندتايي¬ها است، كمك مي¬گيرد تا جايگزين¬هاي احتمالي براي كلمه خطادار را امتياز دهي كند و بهترين آن¬ها را برگزيند. روش پيشنهادي دوم، رويكردي مبتني بر يادگيري عميق و روشي باناظر است كه از شبكه عصبي مبتني بر ميدان تصادفي شرطي براي تصحيح خطا استفاده مي¬كند. اساس دادگان مورد استفاده در اين بخش، همان مجموعه¬ي قبلي است كه به دو قسمت آموزش و آزمون تقسيم شده است. سپس به صورت مصنوعي و با بهره¬گيري از روش¬هاي توليد زوج¬هاي صحيح و غلط، در آن¬ها خطاي املايي ايجاد كرده¬ايم. مدل نيز چنانكه بيان شد، شبكه عصبي مبتني بر ميدان تصادفي شرطي است كه از ويژگي¬هاي استخراج شده از دادگان كه به عنوان ورودي به شبكه داده شده است، استفاده مي¬كند و به پيش¬بيني مي¬پردازد. طراحي اين ويژگي¬ها از نكات مهم در اين نوع پياده¬سازي مي¬باشد.
  • كليدواژه ها
    پردازش زبان طبيعي , مدل زباني مبتني بر چندتايي ها , ميدان تصادفي شرطي