• شماره ركورد
    7688
  • پديد آورنده

    صدرا حيدري مقدم

  • عنوان
    پياده‌سازي يك سامانه تبديل تصوير به متن براي متون توأم عربي و فارسي
  • مقطع تحصيلي
    كارشناسي
  • رشته تحصيلي
    مهندسي كامپيوتر
  • سال فارغ التحصيلي
    1400
  • استاد راهنما
    دكتر بهروز مينائي بيدگلي
  • استاد مشاور
    دكتر بهروز مينائي بيدگلي
  • دانشجوي وارد كننده اطلاعات

    صدرا حيدري مقدم

  • تاريخ ورود اطلاعات
    1400/12/03
  • دانشكده
    مهندسي كامپيوتر
  • عنوان به انگليسي
    Implementing an image-to-text conversion system for both Arabic and Persian texts
  • چكيده
    سيستم نويسه‌خوان نوري يا OCR يك سيستم تشخيص متن نوري است، كه به دليل توسعه تكنولوژي، به طور گسترده مورد استفاده قرار گرفته‌است. تمركز اصلي سيستم‌هاي OCR موجود بر زبان‌هاي لاتين بوده است. در مطالعات اخير، اين سيستم‌ها، براي زبان‌هايي با رسم‌الخط شكسته استفاده شده‌اند كه با چالش‌هايي روبرو هستند. در اين پايان‌نامه، يك سيستم OCR مبتني بر يادگيري عميق با ساختارBi-LSTM و CNN براي متون توأم عربي و فارسي ارائه شده‌است و برخي از پارامتر‌هاي مهم سيستم پيشنهادي مورد بررسي قرار گرفته‌است. سيستم OCR پيشنهادي چالش‌هاي عدم تشخيص برخي كلمات و نيم‌فاصله در رسم‌الخط فارسي و عربي را حل مي‌كند. علاوه بر اين، در اين پايان نامه، دو مجموعه داده جديد ارائه شده است كه يكي حاوي هشت ميليون تصوير با هشت فونت رايج در زبان فارسي، نويزهاي مختلف و كجي كلمات و ديگري حاوي 3.8 ميليون تصوير با چهار فونت و پنج پيش‌پردازش مختلف است. در نهايت دقت قسمت بازشناسي سيستم پيشنهادي در مقايسه با همان قسمت سيستم OCR موجود در تزركت، روي داده‌هاي توليد شده بيشتر بود. نتايج آزمايشات نشان مي‌دهد كه سيستم پيشنهادي داراي دقت 84 درصد در سطح كلمه و دقت 95 درصد در سطح حروف است.
  • كليدواژه ها
    نويسه‌خوان نوري , بازشناسي , شبكه عصبي , پردازش زبان طبيعي , يادگيري عميق , يادگيري ماشين , بينايي ماشين