شماره ركورد
22277
پديد آورنده
حامد رضازاده رحيم آبادي
عنوان
تشخيص نواحي برجسته تصوير RGBD با استفاده از شبكه عصبي عميق
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مخابرات - سيستم
تاريخ دفاع
1399/3/15
استاد راهنما
دكتر سيد علي اصغر بهشتي شيرازي
دانشكده
برق
چكيده
روشهاي تشخيص اشياء برجسته RGB-D در حوزه بينايي كامپيوتر با الهام از فرآيند توجه بصري انسان كه در ابتدا نواحي مهم تصوير را استخراج و سپس توان پردازشي خود را روي آنها متمركز ميكند، اين نواحي را براي پردازشهاي بعدي از روي دادههاي رنگ و عمق مشخص ميكنند. به دليل مفاهيم متفاوتي كه اشياء برجسته ميتوانند در كاربردهاي مختلف داشته باشند، استفاده از شبكههاي عصبي تمام كانولوشني به خاطر تواناييشان در استخراج ويژگيهاي چندسطحي و معنايي موجب بهبود عملكرد روشهاي رايج شده است. عليرغم تلاشهاي صورت گرفته در اين حوزه، نحوه تركيب ويژگيهاي رنگ و عمق و استفاده از ويژگيهاي متقابل چندسطحي براي توليد نقشه برجستگي همچنان بهعنوان يك چالش باقي مانده است. از اين رو در اين پژوهش يك شبكه عصبي كانولوشني عميق با تركيب چندسطحي براي تشخيص اشياء برجسته مبتني بر اطلاعات عمق معرفي ميشود. اين معماري از دو شبكه براي رنگ و عمق استفاده ميكند كه اطلاعات لايههاي مختلف آن در سطوح مختلف با يكديگر تركيب ميشوند. براي تجميع ويژگيهاي متقابل مكمل به دست آمده از لايههاي مختلف يك ساختار سلسله مراتبي پيشنهاد ميدهيم كه در آن ويژگيهاي متقابل طي مسيرهاي مختلف از لايههاي عميقتر به سطحيتر منتقل ميشوند. نتايج آزمايشات نشان ميدهد طراحي پيشنهادي براي تجميع ويژگيهاي متقابل سطوح مختلف نسبت به الگوي تجميع U-Net، با افزايش قابليت شبكه در انتخاب ويژگيهاي متمايزكنندهتر بهترتيب به افزايش 1.5، 1.7، 3 و 1.1 درصدري معيارهاي maxF، كاهش 12.3، 20، 21.7 و 13.3 درصدي معيار MAE و كاهش 21.1، 21.5، 9.7 و 23.5 درصدي وابستگي F_eta به مقادير آستانه مختلف در مجموعههاي NJU2K-TE، NLPR-TE، DES و STERE ميانجامد. مقايسه روش پيشنهادي با در نظر گرفتن عدم نياز به هرگونه عمليات پيش يا پسپردازشي روي شش مجموعه داده بهكمك معيارهاي maxF و MAE، عملكرد بهتر آنرا نسبت به نه روش رايج نشان ميدهد.مقايسه روش پيشنهادي با در نظر گرفتن عدم نياز به هرگونه عمليات پيش يا پسپردازشي روي شش مجموعه داده بهكمك معيارهاي maxF و MAE، عملكرد بهتر آنرا نسبت به نه روش رايج نشان ميدهد.
تاريخ ورود اطلاعات
1399/05/20
عنوان به انگليسي
RGBD Salient Object Detection based on Deep Neural Network
تاريخ بهره برداري
6/4/2020 12:00:00 AM
دانشجوي وارد كننده اطلاعات
حامد رضازاده رحيم آبادي
چكيده به لاتين
Human vision system is faced with a large amount of input information each second. So in order to make the best use of the limited cognitive resources available, the human mind first, extracts the important regions of the image and then focuses its processing power on them. Inspired by this process that is referred to as visual attention, salient object detection methods are introduced in the field of computer vision, which aim to detect and extract these regions of interest (or salient objects) of a scene to further processing. Biological studies show that the depth information influences on human perception of a scene. Due to the widespread use of depth sensors and ease of access to this information, models for simultaneous utilization of color and depth information are presented. Because of different meanings of salient objects in each application, it is not enough to use low-level heuristic features. In recent years, the Fully Convolutional Networks(FCNs) have been used for the RGB-D salient object detection, because of their ability to extract multi-scale and semantic features of the image that have performed better than traditional heuristic methods. Despite the efforts made in this field, how to combine RGB and depth information and how to use cross-modal multi-scale features is still a challenging task. To address the aforementioned limitations, we propose Hierarchically aggregating cross-modal features (HACF) for fuse cross-modal features across layers. Specifically, we employ a two-stream architecture for RGB and depth data, in which the features were fused from either RGB or depth modality in different layers. Then we aggregate these cross-modal multi-level features from the deeper layers to the lower ones in multiple paths using the HACF strategy. Extensive experiments on six RGB-D datasets demonstrate the effectiveness and efficiency of the proposed method which has no need of any pre/post-processing compared with nine state-of-the-art approaches.