-
شماره ركورد
33089
-
پديد آورنده
حميدرضا محمدي جوزاني
-
عنوان
شناسايي عملكرد افراد در تصاوير با استفاده از روش هاي تركيبي يادگيري عميق
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي برق
-
سال تحصيل
1401
-
تاريخ دفاع
1403/11/6
-
استاد راهنما
شهريار برادران شكوهي
-
استاد مشاور
-
-
دانشكده
پرديس- مهندسي برق
-
چكيده
اخيراً تشخيص فعاليتهاي انساني از طريق تصاوير ثابت به يك حوزه تحقيقاتي مهم در بينايي كامپيوتري تبديل شده است. اين حوزه به دنبال شناسايي نوع رفتار يا فعاليت انسان از يك تصوير ثابت است. بر خلاف ويدئو، يك تصوير ثابت اطلاعات حركتي ندارد كه بتواند نوع فعاليت را مشخص كند. بنابراين، نياز به توسعه روشهاي مؤثر براي شناسايي نوع فعاليت از تصاوير ثابت احساس ميشود. روشهاي يادگيري عميق نيز در اين زمينه مورد توجه قرار گرفتهاند.
تشخيص اعمال در يك تصوير منفرد همچنان چالش برانگيز است و همچنان بهترين شيوههاي كنوني شامل آموزش يك شبكه عصبي كانولوشني عميق (DCNN) مستقيماً روي تصاوير براي تشخيص عمل انسان است. با اين حال، اين روشها شامل پارامترهاي زيادي هستند و هزينههاي محاسباتي بالايي دارند. علاوه بر اين، تكنيك هاي ديگر نيز وجود دارند اما اكثر اين تكنيكها از اطلاعات تكميلي مانند حركات بدن انسان، اشياء مرتبط و قسمتهاي بدن انسان كه از عكسها به دست آمدهاند، استفاده كردهاند. اين رويكردها از تشخيص اشياء يا تخمين ژست به عنوان كمك در هر دو مرحله آموزش و آزمون استفاده ميكنند. ايجاد اين نوع برچسبها بسيار زمان بر و بنابراين هزينه بر است. اين پژوهش از يك ساختار معلم دانش آموز استفاده مي كند كه در آن از يك شبكه عصبي كانولوشني (CNN) به عنوان مدل دانشآموز استفاده شده است، در حالي كه يك CNN بزرگتر همراه با يك ترنسفورمر بينايي (ViT) به عنوان مدل معلم عمل ميكنند. معلم CNN ويژگيهاي محلي تصوير را جمعآوري ميكند، در حالي كه معلم ViT ويژگيهاي كلي را از طريق مكانيزم توجه جمع آوري ميكند. هر دو ويژگي محلي و كلي ميتوانند در تشخيص عمل انسان مفيد باشند؛ بنابراين، ما تلاش ميكنيم معلمان ViT و CNN را براي توسعه بهترين معلم براي مدل دانشآموز تركيب كنيم. اين كار از طريق يك ماژول آگاه از اتلاف انجام ميشود. روش ما به دقت متوسط 95.17% در مجموعه داده Stanford 40 دست مييابد، كه نشان دهنده بهبود عملكرد نسبت به پژوهش هاي قبلي است.
-
تاريخ ورود اطلاعات
1403/12/11
-
عنوان به انگليسي
Still image action recognition with Deep learning hybrid methods
-
تاريخ بهره برداري
1/1/1900 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
حميدرضا محمدي جوزاني
-
چكيده به لاتين
Recently, recognizing human activities through still images has become an important research area in computer vision. This field seeks to identify the type of human behavior or activity from a single image. Unlike videos, a still image does not contain motion information that can identify the type of activity. Therefore, there is a need to develop effective methods to recognize the type of activity from still images. Deep learning methods have also attracted attention in this field.
Recognizing actions in a single image remains challenging, and the current best practices still involve training a Deep Convolutional Neural Network (DCNN) directly on images to recognize human actions. However, these approaches involve numerous parameters and incur substantial computational costs. Moreover, other techniques exist, but most of these techniques have utilized complementary information such as human body movements, relevant objects, and human body parts obtained from photos. These approaches use either object detection or pose estimation as an aid in both the training and testing stages. Creating such annotations is very time-consuming and therefore costly. This research uses a teacher-student framework where a Convolutional Neural Network (CNN) is used as the student model, while a larger CNN combined with a Vision Transformer (ViT) act as the teacher model. The CNN teacher gathers local features of the image, while the ViT teacher gathers global features through the attention mechanism. Both local and global features can be beneficial in human action recognition; therefore, we attempt to combine ViT and CNN teachers to develop the best teacher for the student model. This is achieved through a loss-aware module. Our method achieves a mean average precision (mAP) of 95.17% on the Stanford 40 dataset, indicating improved performance compared to previous research.
-
كليدواژه هاي فارسي
شـــناســـايي فعاليت انســـان , يادگيري عميق , شـــبكههاي عصـــبي كانولوشـــني عميق , ترنسفورمرهاي بينايي , تقطير دانش
-
كليدواژه هاي لاتين
Human activity recognition , deep learning , deep convolutional neural networks , knowledge distillation , vision transformers
-
Author
hamidreza mohammadijozani
-
SuperVisor
Dr. Shahriar Baradaran Shokouhi
-
لينک به اين مدرک :