مريم هاشمي

عنوان

تشخيص متون فارسي به‌وسيله مدل‌هاي يادگيري عميق

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي كامپيوتر گرايش هوش مصنوعي و رباتيك

سال تحصيل

1400

تاريخ دفاع

1404/06/30

استاد راهنما

جناب اقاي دكتر ناصر مزيني

استاد مشاور

ندارم

دانشكده

كامپيوتر

چكيده

تشخيص متن فرآيند تبديل تصاوير اسكن شده از متن دست‌نويس يا چاپ شده توسط يك ماشين به دنباله‌اي از كاراكترها است كه مي‌توانند توسط يك ماشين خوانده شوند، يا در قالب‌هاي متن ساده يا ابرمتن ذخيره شوند. از اوايل دهه 1970، تشخيص الگوهاي نوشتاري محققان زيادي را به خود جلب كرده است. اگرچه اين امر منجر به توسعه و گسترش چندين الگوريتم كارآمد شده است، اما بسياري از اين الگوريتم‌ها هنوز كاملاً قابل اعتماد نيستند و نياز به بهبودهاي بيشتري دارند. همچنين، به دليل پيچيدگي و تنوع سبك‌هاي دست‌نويس در خطوط مختلف، استخراج ويژگي‌هاي مناسب از دست‌نويس در هر زباني دشوار است و اين موضوع هنوز يك مسئله باز است. با اين حال، در سال‌هاي اخير، مدل‌هاي شبكه عصبي در اكثر كاربردهاي بينايي كامپيوتر، از جمله تشخيص متن، مورد توجه قرار گرفته‌اند. در اين پايان‌نامه،ميخواهيم روشي را ارائه دهيم كه فضاي ويژگي را براي تشخيص متون فارسي به گونه اي ياد بگيرد كه در حين يادگيري ويژگي هاي مناسب و تمييز دهنده، بتواند چالش پيوسته بودن و كمبود داده در اين حوزه را بهبود بخشد. به همين منظور، در اين روش از رويكرد تشخيص متن سرتاسري بر مبناي مدل‌هاي ترنسفورمرتصوير و ترنسفورمر متن از پيش آموزش ديده، يعني TrOCR، به گونه اي ارائه شده ، كه روش پيشنهادي به بهبود دقت مدل تشخيص متون فارسي كمك مي‌كند.همچنين، يافته‌ها در زمينه زبان فارسي و زبانهاي مشابه مانند عربي نيز بررسي شده است. زيرا كاراكترهاي اين زبانها بسيار نزديك به زبان فارسي هستند و مجموعه داده‌ها و روش‌هاي مورد استفاده در اين مطالعات مي‌تواند الهام‌بخش زبان فارسي نيز باشد.مدل پيشنهادي به نرخ خطاي كاراكتر10.6% در زبان فارسي و 7.45%در زبان عربي دست پيدا كرده است . با وجود كاربردهاي متنوع جملات در تشخيص اعداد، حروف و كلمات، مطالعات كمي در زبان فارسي در مورد آن‌ها انجام شده است؛ بنابراين، مطالعه و بررسي اين حوزه از اهميت بالايي برخوردار است.

تاريخ ورود اطلاعات

1404/09/27

عنوان به انگليسي

Persian text recognition using deep learning

تاريخ بهره برداري

11/22/2025 12:00:00 AM

دانشجوي وارد كننده اطلاعات

مريم هاشمي

Name: مريم هاشمي
Author: مريم هاشمي

چكيده به لاتين

Text recognition is the process of converting scanned images of han‎dwritten o‎r printed text by a machine into a sequence of characters that can be read by a machine, o‎r sto‎red in plain text o‎r hypertext fo‎rmats. Since the early 1970s, han‎dwriting pattern recognition has attracted many researchers. Although this has led to the development an‎d deployment of several efficient algo‎rithms, many of these algo‎rithms are still not completely reliable an‎d need further improvements. Also, due to the complexity an‎d diversity of han‎dwriting styles in different cursive scripts, extracting appropriate features from han‎dwriting in any language is difficult an‎d is still an open problem. However, in recent years, neural netwo‎rk models have gained attention in most computer vision applications, including text recognition. In this thesis, we want to present a method that learns the feature space fo‎r Persian text recognition in a way that can improve the challenge of continuity an‎d data scarcity in this area while learning appropriate an‎d discriminative features. Fo‎r this purpose, in this method, a comprehensive text recognition approach based on pre-trained image transfo‎rmer an‎d text transfo‎rmer models, namely TrOCR, is presented in such a way that the proposed method helps to improve the accuracy of the Persian text recognition model. Also, the findings in the field of Persian an‎d similar languages such as Arabic have been investigated. Because the characters of these languages are very close to Persian, an‎d the datasets an‎d methods used in these studies can also inspire Persian. The proposed model has achieved an erro‎r rate of 10.6% in Persian an‎d 7.45% in Arabic. Despite the diverse applications of sentences in recognizing numbers, letters an‎d wo‎rds, few studies have been conducted in Persian about them; therefo‎re, studying an‎d investigating this area is of great impo‎rtance.

كليدواژه هاي فارسي

تشخيص متن دست‌نويس، تشخيص كاراكترهاي،كلمه،اعداد فارسي، شبكه عصبي پيچشي، بينايي كامپيوتر،شبكه هاي بازگشتي ،شبكه ترنسفورمر

كليدواژه هاي لاتين

handwritten text recognition, words, Persian numbers, convolutional neural network, computer vision, recurrent networks, transformer network.

Author

maryam hashemi

SuperVisor

Naser Mozayani

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=34202&Field=0&DTC=6