-
شماره ركورد
26652
-
پديد آورنده
حجت عسگريان دهكردي
-
عنوان
شناسايي فعاليت انسان در تك تصوير با استفاده از يادگيري گروهي
-
مقطع تحصيلي
ارشد
-
رشته تحصيلي
مهندسي برق گرايش سيستم هاي الكترونيك ديجيتال
-
سال تحصيل
1398
-
تاريخ دفاع
1401/03/30
-
استاد راهنما
دكتر شهريار برادران شكوهي
-
استاد مشاور
دكتر احمد آيت اللهي
-
دانشكده
مهندسي برق
-
چكيده
اخيرا شناسايي فعاليت انسان از تصاوير ثابت، به يك زمينه¬ي تحقيقاتي مهم در بينايي كامپيوتر و تشخيص الگو تبديل شده است. اين زمينه سعي دارد كه نوع رفتار يا فعاليت انسان را از تصوير ثابت شناسايي كند. بر خلاف ويدئو، يك تصوير ثابت اطلاعات حركتي ندارد كه به وسيله ي آن نوع فعاليت توصيف شود. بنابراين نياز است كه روش¬هاي موثري براي شناسايي نوع فعاليت از تصاوير ثابت، توسعه داده شوند.
روش¬هاي يادگيري عميق مانند شبكه¬هاي عصبي كانولوشني، اخيرا به عنوان يك روش موثر در زمينه¬هاي مختلف يادگيري ماشين پديدار شده¬اند و وقتي داده¬هاي برچسب خورده¬¬ي به اندازه كافي بزرگ، براي آموزش در دسترس باشند، مي¬توانند درعمل دسته¬بندي، دقت بالايي را به ما بدهند. به دست آوردن يك مجموعه داده¬ي بزرگ براي آموزش شبكه¬هاي عصبي كانولوشني، اغلب يك چالش بزرگ است. اين مسئله، در زمينه¬ي تشخيص فعاليت انسان از روي تصاوير ثابت، يك مشكل بزرگ است. زيرا در اين زمينه، ما مجموعه داده¬ي برچسب خورده¬ي به اندازه¬ي كافي بزرگ نداريم و استفاده از شبكه¬هاي عصبي كانولوشني عميق، زماني كه داده¬ي آموزشي كم است، به علت وقوع بيش¬برازش، مشكل ايجاد مي¬كند. يكي از راهكار هاي غلبه بر اين چالش استفاده از شبكه هاي عميق با وزن هاي اوليه ImageNET است.
در اين پژوهش، ما از يادگيري گروهي براي شناسايي فعاليت انسان استفاده مي¬كنيم. براي اين منظور ابتدا مجموعه داده¬ي موردنظر به چند زير مجموعه تقسيم مي¬شود و براي هر زير مجموعه يك شبكه عميق EfficientNET-B0 با وزن¬هاي اوليه ImageNET آموزش داده مي¬شود تا در شناسايي كلاس¬هاي مربوط به خود متخصص بشود. سپس يك شبكه ي EfficientNET-B0 ديگر آموزش داده مي¬شود تا شبكه متخصص مربوط به هر تصوير ورودي را تشخيص دهد. روش پيشنهادي سر انجام برروي سه مجموعه داده Stanford40 و Pascal Action VOC و BU101+ مورد ارزيابي قرار گرفته و مشخص مي¬گردد كه روش پيشنهادي در عين استفاده از تعداد پارامتر-هاي كمتر دقت دسته بندي بالاتري نسبت به روش¬هاي ارائه شده (92.86% و92.27% و92.46%) در اين زمينه دارد.
-
تاريخ ورود اطلاعات
1401/04/04
-
عنوان به انگليسي
Human Action Recognition in Still Images Using Ensemble Learning
-
تاريخ بهره برداري
6/20/2023 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
حجت عسگريان دهكردي
-
چكيده به لاتين
Recently still image-based human action recognition has become an active research topic in computer vision and pattern recognition. It focuses on identifying a person's action or behavior from a single image. Unlike the traditional action recognition approaches, where videos or image sequences are used, a still image contains no temporal information for action characterization. Therefore, it is demanding to develop efficient methods for still image-based action recognition.
Deep learning methods such as convolutional neural networks (CNNs) have recently emerged as a dominant paradigm for machine learning in a variety of domains and they can deliver highly accurate classification results when provided with large enough data sets and respective labels. However, acquiring a suitably large data set for training DCNN is often a significant challenge. This is a major issue in the action recognition domain, where we lack large enough labeled data. Using CNNs along with limited labeled data can be problematic, as this leads to extensive overfitting.
In this research, we propose a two-phase multi-expert classification method for human action recognition by means of super-class learning and without any extra information. Specifically, a coarse-grained phase selects the most relevant fine-grained experts. Then, the fine-grained experts encode the intricate details within each super-class so that the inter-class variation increases.
In the proposed approach, to choose the best configuration for each super-class and characterize inter-class dependency between different action classes, we propose a novel Graph-Based Class selection (GCS) algorithm. Extensive experimental evaluations are conducted on various public human action recognition datasets, including Stanford40, Pascal VOC 2012 Action, and BU101+ dataset. The experimental results demonstrate that the proposed method yields promising improvements. To be more specific, on Sanford40, Pascal VOC 2012 Action, and BU101+ benchmarks, the proposed approach outperforms the state-of-the-art studies by 0.41%, 0.66%, and 2.11 % mAP with much less computational cost and without any auxiliary annotation information such as human and object bounding boxes.
-
كليدواژه هاي فارسي
شناسايي فعاليت انسان، يادگيري عميق، شبكه¬هاي عصبي كانولوشني عميق، انتقال يادگيري، يادگيري گروهي
-
كليدواژه هاي لاتين
human action recognition, deep learning, deep convolutional neural network, transfer learning, ensemble learning
-
Author
Hojat Asgariandehkordi
-
SuperVisor
Shahriar Baradaran Shokouhi
-
لينک به اين مدرک :