-
شماره ركورد
20110
-
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
۲۰۱۱۰
-
پديد آورنده
ياسمن سعادتي
-
عنوان
يادگيري ويژگي هاي زماني-مكاني به منظور بازشناسي انسان در ويدئو
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
هوش مصنوعي
-
سال تحصيل
۱۳۹۴-۱۳۹۷
-
تاريخ دفاع
۱۳۹۷/۰۷/۰۲
-
استاد راهنما
دكتر رضا برنگي
-
دانشكده
كامپيوتر
-
چكيده
بازشناسي انسان به علت كاربرد دربحث نظارت، يكي از مهمترين مسائل مطرح شده در حوزه¬ي بينايي ماشين است و به معناي شناسايي يك شخص خاص در ويدئو به دست آمده از دوربين¬هاي متفاوت و يا يك دوربين در طي بازه¬ي زماني مشخصي است. اگرچه بازشناسي انسان از طريق ويدئو نسبت به استفاده از تصوير، كمتر مورد توجه قرار گرفته است، اما ويژگي¬هاي استخراج شده از يك دنباله¬ي ويدئويي به مراتب بيشتر از يك تصوير است.. به اين منظور، تحقيقات بسياري با استفاده از يادگيري ويژگي و يادگيري معيار انجام شده¬است. به طور كلي، تمامي اين روش¬ها بر مبناي يادگيري ويژگي¬هاي استخراج شده به صورت دستي يا استفاده از شبكه¬هاي يادگيري عميق مي¬باشند. در اين تحقيق، سامانه¬هاي عميق جديدي براي استخراج بهتر ويژگي¬ها از دنباله¬هاي تصوير، ارائه¬شده¬است. از آنجا كه در مساله¬ي بازشناسي در موارد زيادي شباهت بين اعضاي درون يك كلاس كمتر از شباهت دو فرد متفاوت است، با استفاده از معماري سه¬گانه تلاش شده تا در فضاي يادگيري ويژگي¬ها نمونه¬هاي مربوط به يك كلاس را نزديكتر و نمونه¬هاي كلاس¬هاي متفاوت را دورتر كرد. همچنين تابع خطاي سه-گانه و لايه¬ي جمع¬آوري همراه با "توجه" بهبود يافته در اين پايان¬نامه در افزايش دقت و بازشناسي دقيق¬تر افراد تاثير بسزايي داشته¬است. به¬طور كلي در اين پژوهش ، انواع متفاوتي از شبكه¬هاي عصبي پيچشي همراه با شبكه¬هاي بازگشتي مطرح يا شبكه¬هاي 3-بعدي آزمون شده و مورد بررسي و مقايسه قرار گرفته¬ است. در نهايت دقت بهترين سامانه نهايي كه تركيبي از شبكه ي پيچشي DenseNet و شبكه ي بازگشتي GRU است، گزارش شده است كه با دقت مرتبه اول 71% در مجموعه¬داده i-LIDS بهبود قابل توجهي را نسبت به كارهاي انجام شده در زمينه¬ي بازشناسي از طريق ويدئو با يادگيري عميق در اين حوزه نشان مي¬دهد.
-
تاريخ ورود اطلاعات
1397/12/11
-
عنوان به انگليسي
Learning Spatio-temporal Features for Person Re-identification in Video
-
تاريخ بهره برداري
3/2/2019 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
ياسمن سعادتي
-
چكيده به لاتين
Person re-identification is one of the important issues in the computer vision area due to its application in surveillance. This task is defined as identification of a specific person from different or same cameras in short-term. Although video-based re-identification has gotten less advertence, it contains more significant features than still image. As information flows between image sequences extracting temporal information such as gait and walking cycle will be possible. Many researches have been done in feature learning and metric learning to achieve this goal. All these methods are mainly based on learning hand crafted features or deep neural networks. The latter have shown better performance in vision tasks and especially in person re-id. Therefore in this paper we develop a new deep architecture to learn features in image sequences for video-based person re-id. Since in person-re id problem mostly the inter-class similarities are more than inter-class ones, new Triplet architecture which is introduce in this paper, reduces the distance between same class instances and push the different persons in feature space as far as possible. Different CNN- RNN and C3D architectures were investigated in this research and their comparison and results are presented. Also the improved Triplet loss function and attentive pooling layer in gather with final model provides more discriminative features and leads in better results, than state-of-the-art methods(71% and 75% rank1 precision for ILIDS-VID and PRID respectively).
-
لينک به اين مدرک :