شماره ركورد
34202
پديد آورنده
مريم هاشمي
عنوان
تشخيص متون فارسي بهوسيله مدلهاي يادگيري عميق
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي كامپيوتر گرايش هوش مصنوعي و رباتيك
سال تحصيل
1400
تاريخ دفاع
1404/06/30
استاد راهنما
جناب اقاي دكتر ناصر مزيني
استاد مشاور
ندارم
دانشكده
كامپيوتر
چكيده
تشخيص متن فرآيند تبديل تصاوير اسكن شده از متن دستنويس يا چاپ شده توسط يك ماشين به دنبالهاي از كاراكترها است كه ميتوانند توسط يك ماشين خوانده شوند، يا در قالبهاي متن ساده يا ابرمتن ذخيره شوند. از اوايل دهه 1970، تشخيص الگوهاي نوشتاري محققان زيادي را به خود جلب كرده است. اگرچه اين امر منجر به توسعه و گسترش چندين الگوريتم كارآمد شده است، اما بسياري از اين الگوريتمها هنوز كاملاً قابل اعتماد نيستند و نياز به بهبودهاي بيشتري دارند. همچنين، به دليل پيچيدگي و تنوع سبكهاي دستنويس در خطوط مختلف، استخراج ويژگيهاي مناسب از دستنويس در هر زباني دشوار است و اين موضوع هنوز يك مسئله باز است. با اين حال، در سالهاي اخير، مدلهاي شبكه عصبي در اكثر كاربردهاي بينايي كامپيوتر، از جمله تشخيص متن، مورد توجه قرار گرفتهاند. در اين پاياننامه،ميخواهيم روشي را ارائه دهيم كه فضاي ويژگي را براي تشخيص متون فارسي به گونه اي ياد بگيرد كه در حين يادگيري ويژگي هاي مناسب و تمييز دهنده، بتواند چالش پيوسته بودن و كمبود داده در اين حوزه را بهبود بخشد. به همين منظور، در اين روش از رويكرد تشخيص متن سرتاسري بر مبناي مدلهاي ترنسفورمرتصوير و ترنسفورمر متن از پيش آموزش ديده، يعني TrOCR، به گونه اي ارائه شده ، كه روش پيشنهادي به بهبود دقت مدل تشخيص متون فارسي كمك ميكند.همچنين، يافتهها در زمينه زبان فارسي و زبانهاي مشابه مانند عربي نيز بررسي شده است. زيرا كاراكترهاي اين زبانها بسيار نزديك به زبان فارسي هستند و مجموعه دادهها و روشهاي مورد استفاده در اين مطالعات ميتواند الهامبخش زبان فارسي نيز باشد.مدل پيشنهادي به نرخ خطاي كاراكتر10.6% در زبان فارسي و 7.45%در زبان عربي دست پيدا كرده است . با وجود كاربردهاي متنوع جملات در تشخيص اعداد، حروف و كلمات، مطالعات كمي در زبان فارسي در مورد آنها انجام شده است؛ بنابراين، مطالعه و بررسي اين حوزه از اهميت بالايي برخوردار است.
تاريخ ورود اطلاعات
1404/09/27
عنوان به انگليسي
Persian text recognition using deep learning
تاريخ بهره برداري
11/22/2025 12:00:00 AM
دانشجوي وارد كننده اطلاعات
مريم هاشمي
چكيده به لاتين
Text recognition is the process of converting scanned images of handwritten or printed text by a machine into a sequence of characters that can be read by a machine, or stored in plain text or hypertext formats. Since the early 1970s, handwriting pattern recognition has attracted many researchers. Although this has led to the development and deployment of several efficient algorithms, many of these algorithms are still not completely reliable and need further improvements. Also, due to the complexity and diversity of handwriting styles in different cursive scripts, extracting appropriate features from handwriting in any language is difficult and is still an open problem. However, in recent years, neural network models have gained attention in most computer vision applications, including text recognition. In this thesis, we want to present a method that learns the feature space for Persian text recognition in a way that can improve the challenge of continuity and data scarcity in this area while learning appropriate and discriminative features. For this purpose, in this method, a comprehensive text recognition approach based on pre-trained image transformer and text transformer models, namely TrOCR, is presented in such a way that the proposed method helps to improve the accuracy of the Persian text recognition model. Also, the findings in the field of Persian and similar languages such as Arabic have been investigated. Because the characters of these languages are very close to Persian, and the datasets and methods used in these studies can also inspire Persian. The proposed model has achieved an error rate of 10.6% in Persian and 7.45% in Arabic. Despite the diverse applications of sentences in recognizing numbers, letters and words, few studies have been conducted in Persian about them; therefore, studying and investigating this area is of great importance.
كليدواژه هاي فارسي
تشخيص متن دستنويس، تشخيص كاراكترهاي،كلمه،اعداد فارسي، شبكه عصبي پيچشي، بينايي كامپيوتر،شبكه هاي بازگشتي ،شبكه ترنسفورمر
كليدواژه هاي لاتين
handwritten text recognition, words, Persian numbers, convolutional neural network, computer vision, recurrent networks, transformer network.
Author
maryam hashemi
SuperVisor
Naser Mozayani