شماره ركورد
18323
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
۱۸۳۲۳
پديد آورنده
سحرناز احتراميان
عنوان
الگوريتمي براي تحليل نظرسنجي هاي متني در پايگاه داده هاي فيلم
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
نرم افزار
تاريخ دفاع
مهرماه ۱۳۹۶
استاد راهنما
دكتر بهروز مينايي
استاد مشاور
دكتر خنجري
دانشكده
كامپيوتر
چكيده
درك زبانهاي محاورهاي يكي از اهداف مهم در هوش مصنوعي محسوب ميشود و پردازش زبانهاي طبيعي با هدف انجام اين مهم توسعه داده شده است. از كاربردهاي مهم پردازش زبانهاي طبيعي ميتوان از جستجو در اينترنت، تبليغات، ايميلها، خدمات به مشتريان و ترجمه از يك زبان به زباني ديگر نام برد. در گذشته قوانين حاكم بر دادهها بطور دستي استخراج ميشد و مدلها براساس اين قوانين كار ميكردند كه محدوديتهاي فراواني داشتند. امروزه از روشهاي مبتني بر يادگيري ماشين بجاي قوانين مذكور استفاده ميشود كه مزايايي چون امكان استفاده از استنتاج آماري در مواجه با نويز، امكان استفاده از دادههاي انبوه و تمركز بر قوانين عموميتر را داراست. در اين پروژه با بهكارگيري يك شبكه بازگشتي RNN با معماري حافظه كوتاه مدت طويل LSTM ، در مجموعه دادههاي IMDB كه شامل نقدهاي منتقدين سينمايي است، نظرات متني ارائه شده، واكاوي ميشود. به اين ترتيب با داده شدن يك نقد فيلم، بعد از انجام پيشپردازش، مدل آموزش داده شده، مثبت يا منفي بودن نقد مورد نظر را مشخص ميكند. در الگوريتم LSTM ارائه شده در اين پروژه، بردار بسترسازي همراه با مدل LSTM بصورت توأمان آموزش داده شده است. اين امر فرايند آموزش را قدري طولاني مينمايد ولي در عوض محدود به لغات موجود در ماتريس بسترسازي ثابت نخواهيم بود و از طرفي بسترسازي مناسب كاربرد مورد نظر حاصل ميشود. در مدل ارائه شده در لايه اول، توالي از واحدهاي LSTM قرار داده ميشود كه منجر به تشكيل بازنمايي متناظر در خروجي واحدهاي LSTM ميگردد. در اين پروژه به هنگام آموزش واحدهاي LSTM، از تكنيك حذف تصادفي استفاده شده است. اين امر باعث شده، اندكي فرايند آموزش طولاني شود ولي در عوض عموميتپذيري مدل افزايش يافته و از بيشبرازش جلوگيري شود كه به نوبه خود منجر به افزايش دقت نهايي مدل شده است. در لايه خروجي LSTM از نرمالسازي دستهاي استفاده شده است كه با تغيير مناسب آرايش دادهها در فضاي ويژگيها، باعث شده فرآيند آموزش با كارايي و سرعت بهتري انجام شود. در لايه خروجي از يك لايه رگرسيون لجستيك بمنظور ردهبندي توالي ورودي استفاده شده است. اين امر باعث شده است كل مراحل از بازنمايي تا ردهبندي بصورت يكپارچه با الگوريتم انتشار عقبگرد آموزش داده شود. در نهايت دقت نهايي مدل ارائه شده در ردهبندي مجموعه دادههاي IMDB به دقت رقابتي 90 درصد رسيده است.
تاريخ ورود اطلاعات
1396/10/10
تاريخ بهره برداري
10/7/2017 12:00:00 AM
دانشجوي وارد كننده اطلاعات
سحرناز احتراميان
چكيده به لاتين
Understanding colloquial languages is considered as one of important purposes in artificial intelligence, and processing natural languages is developed for this purpose. Some important applications of processing natural languages include searching in Internet, advertisements, emails, customer services, and translation from one language to another language. Traditionally, laws governing data were manually derived and models were worked based on these laws which had a lot of limitations. Nowadays, rather than the above laws, some methods based on machine learning are used which have benefits such as using statistical inference in case of noise, using mass data and focusing more general laws. In this project, applying a recurrent neural network, RNN, with long short-term memory architecture, LSTM, the provided textual views in IMDB datasets including cinematic critics’ critiques are analyzed. Thus, by a movie critique, given training model recognizes positive or negative critique, following pre-processing. In LSTM algorithm in this project, infrastructure vector along with LSTM model were trained together. This makes training process so longer, but instead we won’t limit to available words in stable infrastructure matrix, and suitable infrastructure of given application is obtained. A sequence of LSTM units are situated in layer one in the provided model, which leads to form the corresponding mapping in LSTM units output. In this project, when training LSTM units, random exclusion technique was used. This made the training process a bit longer, but instead the model generalization was increased and over-fitting was prevented which led to increase model final precision. In output layer of LSTM, clustered normalization was used in which suitably changing data arrangement in features space made training process faster and more effectively. In output layer, logistic regression layer was used for ranking input sequences. This caused to train all steps from mapping to ranking integratively by back propagation algorithm. Finally, ultimate precision in ranking IMDB datasets in this model was reached 90% comparative precision.