هدي ابراهيمي

عنوان

شناسايي عملكرد انسان در تصوير ثابت با به كارگيري مكانيزم توجه

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي برق- الكترونيك ـ ديجيتال

سال تحصيل

1398

تاريخ دفاع

1401/2/31

استاد راهنما

شهريار برادران شكوهي

دانشكده

مهندسي برق

چكيده

امروزه استفاده از شبكه¬هاي كانولوشني عميق در كلاس¬بندي تصاوير پيشرفت¬هاي زيادي داشته است. اما شناسايي فعاليت انسان در تصاوير با توجه به نبود اطلاعات زماني و حركتي، همچنان چالش برانگيز است. در بيشتر روش¬هاي فعلي از اطلاعات اضافي نظير كادر محدودكننده انسان و اشياء، تعامل انسان و پس زمينه و ... استفاده مي¬شود. كادر محدودكننده انسان در بيشتر مجموعه¬داده¬ها فراهم شده است اما استفاده از كادر محدودكننده اشياء وابسته به دقت شبكه¬هاي كمكي در شناسايي آنهاست و همين موضوع عملكرد بيشتر اين روش¬ها را محدود مي¬كند. امروزه استفاده از ترنسفورمرهاي بينايي كه بر پايه¬ي مكانيزم توجه كار مي¬كنند، در كلاس¬بندي تصاوير بسيار مورد توجه است چراكه اين مدل¬ها دقت¬هاي بهتري در مقايسه با شبكه¬هاي كانولوشني ارائه مي¬كنند. در اين پژوهش روشي براي شناسايي فعاليت انسان بدون نياز به هيچ گونه اطلاعات اضافي ارائه مي¬شود. در اين روش با كمك يادگيري گروهي، از يك ترنسفورمر بينايي با عنوان ViT و يك شبكه كانولوشني عميق با عنوان ResNeXT50+Res_CBAM استفاده مي¬كنيم. استفاده از يادگيري گروهي به ما كمك مي¬كند تا بتوانيم از مزاياي شبكه¬ كانولوشني عميق و ترنسفورمر بينايي در كنار هم بهره ببريم. براي جلوگيري از بيش¬برازش به دليل كمبود داده¬هاي آموزشي برچسب خورده، از انتقال يادگيري با استفاده از وزن¬هاي پيش آموخته در مجموعه داده¬ي ImageNet و روش¬هاي افزايش داده استفاده مي¬كنيم. در آموزش اين دو شبكه، براي همگرايي سريعتر و دقت بالاتر از تكنيك برش گراديان استفاده مي¬كنيم كه تاثير زيادي در بهبود نتايج نهايي داشته است. براي تقويت نگاشت¬هاي ويژگي¬ حاصل از شبكه كانولوشني ResNeXT50، از ماژول¬هاي CBAM با اعمال اصلاحاتي در ساختار آنها استفاده شده است. افزودن اين ماژول¬ها سبب بهبود نگاشت¬هاي ويژگي در مكان¬ها و كانال¬هاي مهم مي¬شود و در نهايت، كلاس¬بندي فعاليت¬ها را بهبود مي¬بخشد. آزمايش¬هاي انجام شده نشان مي¬دهد كه روش پيشنهادي با آموزش و آزمايش برروي مجموعه داده¬ي Stanford 40 Actions به ميانگين دقت متوسط (mAP) 00/96 درصد مي¬رسد كه نسبت به ساير روش¬هاي امروزي، افزايش داشته است. بدين ترتيب، روش پيشنهادي ما نسبت به روش¬هاي امروزي داراي دو مزيت است. اول اينكه دقت بهتري ارائه مي¬كند و دوم اينكه از هيچ¬گونه اطلاعات اضافي در حين آموزش و آزمايش مدل استفاده نمي¬كند.

تاريخ ورود اطلاعات

1401/06/07

عنوان به انگليسي

Action recognition in still images based on attention mechanism

تاريخ بهره برداري

5/21/2023 12:00:00 AM

دانشجوي وارد كننده اطلاعات

هدي ابراهيمي

Name: هدي ابراهيمي
Author: هدي ابراهيمي

چكيده به لاتين

Nowadays, deep convolutional neural networks (CNN) have gained good results in image classification, but recognizing human actions in still images is still challenging due to the lack of temporal and kinetic information. In most of the current methods, additional information such as human or object bounding boxes, human-background interaction and etc. are used. The human bounding box is provided in most datasets, but the use of the bounding boxes of the objects depends on the performance of the auxiliary networks in detecting them, and this limits the performance of the whole method. Besides, using vision transformers, which are based on the attention mechanism, is more promising in classifying images; because, these models offer better accuracy compared to convolutional networks. This research provides a way to recognize human actions without any additional information by using a CNN and ViT. First we improve the accuracy of a deep convolutional neural network (CNN) called ResNeXT50 by adding CBAM modules to the last layer so that the mean Average Precision (mAP) becomes 92/75 %. The CBAM modules added to the ResNeXT50 are modified by addying identity shortcuts based on the ResNet building blocks. Then, we ensemble a vision transformer (ViT) along with ResNeXT50 + CBAM. To avoid overfitting due to the lack of labeled training data, we use transfer learning of the models pretrained on ImageNet dataset; then, we apply data augmentation on the training data so that, two transformations, each for one network, are applied to the input images. In training phase, for faster convergence and higher accuracy, we use the gradient clipping technique, which has a great impact on improving the final results. Experiments show that the proposed method, trained and tested on the Stanford 40 Actions dataset, achieves mAP of 96.00%, which is better than other state-of-the-art methods. Thus, our proposed method has two advantages. The first one is that, it provides a better mAP and the second one is that, it does not use any additional information while training and testing the model.

كليدواژه هاي فارسي

شناسايي فعاليت انسان , يادگيري عميق , ترنسفورمرهاي بينايي , مكانيزم توجه

كليدواژه هاي لاتين

Human action recognition , Deep Learning , Vision Transformers , Attention mechanism

Author

Hoda Ebrahimi

SuperVisor

Dr. Baradaran Shokoohi

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=26890&Field=0&DTC=6