سحرناز احتراميان

عنوان

الگوريتمي براي تحليل نظرسنجي هاي متني در پايگاه داده هاي فيلم

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

نرم افزار

تاريخ دفاع

مهرماه ۱۳۹۶

استاد راهنما

دكتر بهروز مينايي

استاد مشاور

دكتر خنجري

دانشكده

كامپيوتر

چكيده

درك زبان‌هاي محاوره‌اي يكي از اهداف مهم در هوش مصنوعي محسوب مي‌شود و پردازش زبان‌هاي طبيعي با هدف انجام اين مهم توسعه داده شده است. از كاربردهاي مهم پردازش زبان‌هاي طبيعي مي‌توان از جستجو در اينترنت، تبليغات، ايميل‌ها، خدمات به مشتريان و ترجمه از يك زبان به زباني ديگر نام برد. در گذشته قوانين حاكم بر داده‌ها بطور دستي استخراج مي‌شد و مدل‌ها براساس اين قوانين كار مي‌كردند كه محدوديت‌هاي فراواني داشتند. امروزه از روش‌هاي مبتني بر يادگيري ماشين بجاي قوانين مذكور استفاده مي‌شود كه مزايايي چون امكان استفاده از استنتاج آماري در مواجه با نويز، امكان استفاده از داده‌هاي انبوه و تمركز بر قوانين عمومي‌تر را داراست. در اين پروژه با به‎كارگيري يك شبكه بازگشتي RNN با معماري حافظه كوتاه مدت طويل LSTM ، در مجموعه داده‌هاي IMDB كه شامل نقد‌هاي منتقدين سينمايي است، نظرات متني ارائه شده، واكاوي مي‌شود. به اين ترتيب با داده شدن يك نقد فيلم، بعد از انجام پيش‌پردازش، مدل آموزش داده شده، مثبت يا منفي بودن نقد مورد نظر را مشخص مي‎كند. در الگوريتم LSTM ارائه شده در اين پروژه، بردار بسترسازي همراه با مدل LSTM بصورت توأمان آموزش داده شده است. اين امر فرايند آموزش را قدري طولاني مينمايد ولي در عوض محدود به لغات موجود در ماتريس بسترسازي ثابت نخواهيم بود و از طرفي بسترسازي مناسب كاربرد مورد نظر حاصل ميشود. در مدل ارائه شده در لايه اول، توالي از واحد‌هاي LSTM قرار داده مي‌شود كه منجر به تشكيل بازنمايي متناظر در خروجي واحد‌هاي LSTM مي‌گردد. در اين پروژه به هنگام آموزش واحدهاي LSTM، از تكنيك حذف تصادفي استفاده شده است. اين امر باعث شده، اندكي فرايند آموزش طولاني شود ولي در عوض عموميت‎پذيري مدل افزايش يافته و از بيش‎برازش جلوگيري شود كه به نوبه خود منجر به افزايش دقت نهايي مدل شده است. در لايه خروجي LSTM از نرمالسازي دستهاي استفاده شده است كه با تغيير مناسب آرايش دادهها در فضاي ويژگي‎ها، باعث شده فرآيند آموزش با كارايي و سرعت بهتري انجام شود. در لايه خروجي از يك لايه رگرسيون لجستيك بمنظور رده‌بندي توالي ورودي استفاده شده است. اين امر باعث شده است كل مراحل از بازنمايي تا رده‎بندي بصورت يكپارچه با الگوريتم انتشار عقبگرد آموزش داده شود. در نهايت دقت نهايي مدل ارائه شده در ردهبندي مجموعه دادههاي IMDB به دقت رقابتي 90 درصد رسيده است.

تاريخ ورود اطلاعات

1396/10/10

تاريخ بهره برداري

10/7/2017 12:00:00 AM

دانشجوي وارد كننده اطلاعات

سحرناز احتراميان

Name: سحرناز احتراميان
Author: سحرناز احتراميان

چكيده به لاتين

Understanding colloquial languages is considered as one of important purposes in artificial intelligence, and processing natural languages is developed for this purpose. Some important applications of processing natural languages include searching in Internet, advertisements, emails, customer services, and translation from one language to another language. Traditionally, laws governing data were manually derived and models were worked based on these laws which had a lot of limitations. Nowadays, rather than the above laws, some methods based on machine learning are used which have benefits such as using statistical inference in case of noise, using mass data and focusing more general laws. In this project, applying a recurrent neural network, RNN, with long short-term memory architecture, LSTM, the provided textual views in IMDB datasets including cinematic critics’ critiques are analyzed. Thus, by a movie critique, given training model recognizes positive or negative critique, following pre-processing. In LSTM algorithm in this project, infrastructure vector along with LSTM model were trained together. This makes training process so longer, but instead we won’t limit to available words in stable infrastructure matrix, and suitable infrastructure of given application is obtained. A sequence of LSTM units are situated in layer one in the provided model, which leads to form the corresponding mapping in LSTM units output. In this project, when training LSTM units, random exclusion technique was used. This made the training process a bit longer, but instead the model generalization was increased and over-fitting was prevented which led to increase model final precision. In output layer of LSTM, clustered normalization was used in which suitably changing data arrangement in features space made training process faster and more effectively. In output layer, logistic regression layer was used for ranking input sequences. This caused to train all steps from mapping to ranking integratively by back propagation algorithm. Finally, ultimate precision in ranking IMDB datasets in this model was reached 90% comparative precision.

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=18323&Field=0&DTC=6