• شماره ركورد
    22277
  • پديد آورنده

    حامد رضازاده رحيم آبادي

  • عنوان
    تشخيص نواحي برجسته تصوير RGBD با استفاده از شبكه عصبي عميق
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مخابرات - سيستم
  • تاريخ دفاع
    1399/3/15
  • استاد راهنما
    دكتر سيد علي اصغر بهشتي شيرازي
  • دانشكده
    برق
  • چكيده
    روش‌هاي تشخيص اشياء برجسته RGB-D در حوزه بينايي كامپيوتر با الهام از فرآيند توجه بصري انسان كه در ابتدا نواحي مهم تصوير را استخراج و سپس توان پردازشي خود را روي آنها متمركز مي‌كند، اين نواحي را براي پردازش‌هاي بعدي از روي داده‌هاي رنگ و عمق مشخص مي‌كنند. به دليل مفاهيم متفاوتي كه اشياء برجسته مي‌توانند در كاربردهاي مختلف داشته باشند، استفاده از شبكه‌هاي عصبي تمام كانولوشني به خاطر تواناييشان در استخراج ويژگي‌هاي چندسطحي و معنايي موجب بهبود عملكرد روش‌هاي رايج شده است. علي‌رغم تلاش‌هاي صورت گرفته در اين حوزه، نحوه تركيب ويژگي‌هاي رنگ و عمق و استفاده از ويژگي‌هاي متقابل چندسطحي براي توليد نقشه برجستگي همچنان به‌عنوان يك چالش باقي مانده است. از اين رو در اين پژوهش يك شبكه عصبي كانولوشني عميق با تركيب چندسطحي براي تشخيص اشياء برجسته مبتني بر اطلاعات عمق معرفي مي‌شود. اين معماري از دو شبكه‌ براي رنگ و عمق استفاده مي‌كند كه اطلاعات لايه‌هاي مختلف آن در سطوح مختلف با يكديگر تركيب مي‌شوند. براي تجميع ويژگي‌هاي متقابل مكمل به دست آمده از لايه‌هاي مختلف يك ساختار سلسله مراتبي پيشنهاد مي‌دهيم كه در آن ويژگي‌هاي متقابل طي مسيرهاي مختلف از لايه‌هاي عميق‌تر به سطحي‌تر منتقل مي‌شوند. نتايج آزمايشات نشان مي‌دهد طراحي پيشنهادي براي تجميع ويژگي‌هاي متقابل سطوح مختلف نسبت به الگوي تجميع U-Net، با افزايش قابليت شبكه در انتخاب ويژگي‌هاي متمايزكننده‌تر به‌ترتيب به افزايش 1.5، 1.7، 3 و 1.1 درصدري معيارهاي maxF، كاهش 12.3، 20، 21.7 و 13.3 درصدي معيار MAE و كاهش 21.1، 21.5، 9.7 و 23.5 درصدي وابستگي F_eta به مقادير آستانه مختلف در مجموعه‌هاي NJU2K-TE، NLPR-TE، DES و STERE مي‌انجامد. مقايسه روش پيشنهادي با در نظر گرفتن عدم نياز به هرگونه عمليات پيش يا پس‌پردازشي روي شش مجموعه داده به‌كمك معيارهاي maxF و MAE، عملكرد بهتر آنرا نسبت به نه روش رايج نشان مي‌دهد.مقايسه روش پيشنهادي با در نظر گرفتن عدم نياز به هرگونه عمليات پيش يا پس‌پردازشي روي شش مجموعه داده به‌كمك معيارهاي maxF و MAE، عملكرد بهتر آنرا نسبت به نه روش رايج نشان مي‌دهد.
  • تاريخ ورود اطلاعات
    1399/05/20
  • عنوان به انگليسي
    RGBD Salient Object Detection based on Deep Neural Network
  • تاريخ بهره برداري
    6/4/2020 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    حامد رضازاده رحيم آبادي

  • چكيده به لاتين
    Human vision system is faced with a large amount of input information each second. So in order to make the best use of the limited cognitive resources available, the human mind first, extracts the important regions of the image and then focuses its processing power on them. Inspired by this process that is referred to as visual attention, salient object detection methods are introduced in the field of computer vision, which aim to detect and extract these regions of interest (or salient objects) of a scene to further processing. Biological studies show that the depth information influences on human perception of a scene. Due to the widespread use of depth sensors and ease of access to this information, models for simultaneous utilization of color and depth information are presented. Because of different meanings of salient objects in each application, it is not enough to use low-level heuristic features. In recent years, the Fully Convolutional Networks(FCNs) have been used for the RGB-D salient object detection, because of their ability to extract multi-scale and semantic features of the image that have performed better than traditional heuristic methods. Despite the efforts made in this field, how to combine RGB and depth information and how to use cross-modal multi-scale features is still a challenging task. To address the aforementioned limitations, we propose Hierarchically aggregating cross-modal features (HACF) for fuse cross-modal features across layers. Specifically, we employ a two-stream architecture for RGB and depth data, in which the features were fused from either RGB or depth modality in different layers. Then we aggregate these cross-modal multi-level features from the deeper layers to the lower ones in multiple paths using the HACF strategy. Extensive experiments on six RGB-D datasets demonstrate the effectiveness and efficiency of the proposed method which has no need of any pre/post-processing compared with nine state-of-the-art approaches.