مرسده ايراني

عنوان

پياده سازي يك سامانه ويراستار هوشمند براي محتواي تركيبي فارسي و عربي

مقطع تحصيلي

كارشناسي

رشته تحصيلي

مهندسي كامپيوتر

سال فارغ التحصيلي

1400

استاد راهنما

دكتر بهروز مينايي بيدگلي- دكتر جاهد مطلق

دانشجوي وارد كننده اطلاعات

مرسده ايراني

Name: مرسده ايراني
Author: مرسده ايراني

تاريخ ورود اطلاعات

1400/08/21

دانشكده

مهندسي كامپيوتر

عنوان به انگليسي

Implementing a smart editing system for combined Persian and Arabic content

چكيده

يكي از دغدغه¬هاي اصلي پژوهشگران در نگارش متون تحقيقاتي نظير مقالات و پايان¬نامه¬ها، درستي آن¬ها به لحاظ املايي است. اين مسئله به يكي از مفاهيم پركاربرد در حوزه پردازش زبان طبيعي يعني بحث ويراستاري و تصحيح خطاي متون مرتبط است. در كشور ما متوني كه زبان فارسي و عربي را تواما دارند، به فراواني يافت مي¬شود (نظير كتب اسلامي و حوزوي). بنابراين بنا شد تا ويراستاري براي اين متون پياده¬سازي كنيم. در اين پژوهش ما دو راهكار براي حل مسئله تصحيح خطاي املايي ارائه داديم. نتايج بررسي¬ها نشان مي-دهد هر كدام روي خطاهاي خاصي عملكرد بهتري دارند. روش پيشنهادي اول، رويكردي مبتني بر يادگيري ماشين و روشي بي¬ناظر است كه بر مبناي مدل زباني مبتني بر چندتايي¬ها طراحي شده است. دادگان مورد استفاده در اين بخش متشكل از حدود 220 هزار جمله با محتواي تركيبي عربي و فارسي است كه چندتايي¬ها از روي آن ساخته شده¬اند. مدل زباني از يك مدل آماري كه برگرفته از احتمال تكرار چندتايي¬ها است، كمك مي¬گيرد تا جايگزين¬هاي احتمالي براي كلمه خطادار را امتياز دهي كند و بهترين آن¬ها را برگزيند. روش پيشنهادي دوم، رويكردي مبتني بر يادگيري عميق و روشي باناظر است كه از شبكه عصبي مبتني بر ميدان تصادفي شرطي براي تصحيح خطا استفاده مي¬كند. اساس دادگان مورد استفاده در اين بخش، همان مجموعه¬ي قبلي است كه به دو قسمت آموزش و آزمون تقسيم شده است. سپس به صورت مصنوعي و با بهره¬گيري از روش¬هاي توليد زوج¬هاي صحيح و غلط، در آن¬ها خطاي املايي ايجاد كرده¬ايم. مدل نيز چنانكه بيان شد، شبكه عصبي مبتني بر ميدان تصادفي شرطي است كه از ويژگي¬هاي استخراج شده از دادگان كه به عنوان ورودي به شبكه داده شده است، استفاده مي¬كند و به پيش¬بيني مي¬پردازد. طراحي اين ويژگي¬ها از نكات مهم در اين نوع پياده¬سازي مي¬باشد.

كليدواژه ها

پردازش زبان طبيعي , مدل زباني مبتني بر چندتايي ها , ميدان تصادفي شرطي

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=7538&Field=0&DTC=12