-
شماره ركورد
7538
-
پديد آورنده
مرسده ايراني
-
عنوان
پياده سازي يك سامانه ويراستار هوشمند براي محتواي تركيبي فارسي و عربي
-
مقطع تحصيلي
كارشناسي
-
رشته تحصيلي
مهندسي كامپيوتر
-
سال فارغ التحصيلي
1400
-
استاد راهنما
دكتر بهروز مينايي بيدگلي- دكتر جاهد مطلق
-
دانشجوي وارد كننده اطلاعات
مرسده ايراني
-
تاريخ ورود اطلاعات
1400/08/21
-
دانشكده
مهندسي كامپيوتر
-
عنوان به انگليسي
Implementing a smart editing system for combined Persian and Arabic content
-
چكيده
يكي از دغدغه¬هاي اصلي پژوهشگران در نگارش متون تحقيقاتي نظير مقالات و پايان¬نامه¬ها، درستي آن¬ها به لحاظ املايي است. اين مسئله به يكي از مفاهيم پركاربرد در حوزه پردازش زبان طبيعي يعني بحث ويراستاري و تصحيح خطاي متون مرتبط است. در كشور ما متوني كه زبان فارسي و عربي را تواما دارند، به فراواني يافت مي¬شود (نظير كتب اسلامي و حوزوي). بنابراين بنا شد تا ويراستاري براي اين متون پياده¬سازي كنيم.
در اين پژوهش ما دو راهكار براي حل مسئله تصحيح خطاي املايي ارائه داديم. نتايج بررسي¬ها نشان مي-دهد هر كدام روي خطاهاي خاصي عملكرد بهتري دارند. روش پيشنهادي اول، رويكردي مبتني بر يادگيري ماشين و روشي بي¬ناظر است كه بر مبناي مدل زباني مبتني بر چندتايي¬ها طراحي شده است. دادگان مورد استفاده در اين بخش متشكل از حدود 220 هزار جمله با محتواي تركيبي عربي و فارسي است كه چندتايي¬ها از روي آن ساخته شده¬اند. مدل زباني از يك مدل آماري كه برگرفته از احتمال تكرار چندتايي¬ها است، كمك مي¬گيرد تا جايگزين¬هاي احتمالي براي كلمه خطادار را امتياز دهي كند و بهترين آن¬ها را برگزيند.
روش پيشنهادي دوم، رويكردي مبتني بر يادگيري عميق و روشي باناظر است كه از شبكه عصبي مبتني بر ميدان تصادفي شرطي براي تصحيح خطا استفاده مي¬كند. اساس دادگان مورد استفاده در اين بخش، همان مجموعه¬ي قبلي است كه به دو قسمت آموزش و آزمون تقسيم شده است. سپس به صورت مصنوعي و با بهره¬گيري از روش¬هاي توليد زوج¬هاي صحيح و غلط، در آن¬ها خطاي املايي ايجاد كرده¬ايم. مدل نيز چنانكه بيان شد، شبكه عصبي مبتني بر ميدان تصادفي شرطي است كه از ويژگي¬هاي استخراج شده از دادگان كه به عنوان ورودي به شبكه داده شده است، استفاده مي¬كند و به پيش¬بيني مي¬پردازد. طراحي اين ويژگي¬ها از نكات مهم در اين نوع پياده¬سازي مي¬باشد.
-
كليدواژه ها
پردازش زبان طبيعي , مدل زباني مبتني بر چندتايي ها , ميدان تصادفي شرطي
-
لينک به اين مدرک :