• شماره ركورد
    22005
  • شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
    22005
  • پديد آورنده

    معصومه چاپاري نيا

  • عنوان
    شناسايي عمل انسان بر مبناي تصوير ثابت و با استفاده از يادگيري عميق
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    الكترونيك ديجيتال
  • سال تحصيل
    98-99
  • تاريخ دفاع
    1399/2/24
  • استاد راهنما
    دكتر شهريار برادران شكوهي
  • دانشكده
    برق
  • چكيده
    اخيراً شبكه¬هاي عصبي كانولوشني پيشرفت زيادي در طبقه¬بندي تصاوير داشته¬اند. اما تشخيص فعاليت انسان در تصاوير ثابت همچنان چالش برانگيز است، زيرا بر خلاف ويدئو¬¬ها، تصاوير ثابت داراي نشانه¬هاي حركتي نيستند. در حال حاضر بيشتر رويكرد¬هاي مبتني بر CNN براي تشخيص فعاليت انسان از تصاوير ثابت، داراي هزينه¬ي محاسباتي بيش از حد با تعداد بيشماري پارامتر هستند. روش¬هاي كارآمد اخير مستقيما يك شبكه¬ي عميق با تعداد لايه¬هاي زياد را با استفاده از داده¬هاي كمكي مانند جعبه¬هاي محدود كننده¬ي انسان، جعبه¬هاي محدود كننده¬ي اشياء، جعبه¬هاي محدود كننده¬ي بخش¬هاي بدن انسان و غيره بر روي مجموعه¬ي داده¬ي فعاليت انسان در تصاوير ثابت آموزش مي¬دهند. با اين حال اين روش¬ها علاوه بر هزينه¬هاي لازم جهت ايجاد داده¬هاي كمكي از تصاوير، داراي تعداد زيادي پارامتر هستند و بنابراين براي كاربرد¬هاي دنياي واقعي همانند دستگاه¬هاي تلفن همراه و ساير دستگاه¬هايي كه داراي منابع محاسباتي محدود هستند، مناسب نيستند. ما براي تشخيص فعاليت انسان در تصاوير تكنيك¬هاي چكانش دانش و انتقال توجه از شبكه بزرگ¬تر معلم به شبكه كوچك¬تر دانش آموز را به¬كار مي¬بريم كه مي¬تواند عملكرد شبكه دانش آموز را بدون افزايش پارامتر و هزينه¬هاي محاسباتي بهبود بخشد. علاوه بر اين، براي جلوگيري از بيش برازش شبكه¬ها به دليل كمبود داده¬هاي آموزشي برچسب خورده، روش انتقال يادگيري، يعني استفاده از شبكه¬هاي كانولوشني از پيش آموزش داده¬شده¬ روي مجموعه داده¬يImageNet ، به كار برده مي¬شود. نتايج آزمايش¬ها نشان مي¬دهد كه با -استفاده از اين روش، يك شبكه¬ي كوچك ResNet-18 قادر به گرفتن دانش و توجه يك شبكه-ي بزرگ ResNet-34 خواهد بود. در ادامه ما يك شبكه Se-ResNeXt-50 را با استفاده از يك شبكه¬ي عميق Se-ResNeXt-101، روي مجموعه¬ي داده¬ي Stanford 40 به همراه هر¬ دو تكنيك آموزش مي¬دهيم و به ميانگين دقت متوسط 08/92% مي¬رسيم. در انتها مقايسه¬ي نتايج ما با كارهاي ديگر نشان مي¬دهد كه ما توانسته ايم ميانگين دقت متوسط شناسايي فعاليت انسان در تصاوير ثابت را بدون افزايش تعداد پارامترها و پيچيدگي شبكه¬ي دانش¬آموز بهبود بخشيم.
  • تاريخ ورود اطلاعات
    1399/03/17
  • عنوان به انگليسي
    Still Image-Based Human Action Recognition Using Deep Learning
  • تاريخ بهره برداري
    5/14/2021 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    معصومه چاپاري نيا

  • چكيده به لاتين
    Recently still image-based human action recognition has become an active research topic in computer vision and pattern recognition. It focuses on identifying a person's action or behavior from a single image. Compared with video based ones, image-based action representation and recognition are impossible to access the motion cues of action, which largely increases the difficulties in dealing with pose variances and cluttered backgrounds. Currently most efficient methods train a deep network directly on still image action recognition datasets using auxiliary data such as human bounding boxes, object bounding boxes, bounding boxes of human body Parts, etc. However, these methods in addition to the costs involved in generating auxiliary data from images have many parameters, therefore are not suitable for devices with limited computing resources such as mobile devices. We propose knowledge distillation and attention transfer from the larger teacher network to the smaller student network that both of them can improve student network performance for human action recognition without increasing parameter and computational costs. Furthermore, a big challenge in action recognition in still images is the lack of large enough datasets, which is problematic for training deep Convolutional Neural Networks (CNNs) due to the overfitting issue. In this paper, by taking advantage of pre-trained CNNs, we employ the transfer learning technique to tackle the lack of massive labeled action recognition datasets. Experimental results show that the knowledge distillation helps a ResNet-18 network to mimic a pre-trained ResNet-34 network and attention transfer helps to student has similar spatial attention maps to those of ResNet-34 teacher, although knowledge distillation works much better than attention transfer. We then took finetuned Se-ResneXt-101 network and used it as teacher for Se-Resnext-50 pertained on ImageNet, Se-ResneXt-50 with knowledge distillation and attention transfer achieve mean average precision of 92.08% on the Stanford 40 dataset. Finally, comparing our results with other papers shows that our method is able to improve the mean average precision of human action recognition in still images without increasing the number of parameters and the complexity of the student network.