• شماره ركورد
    9748
  • پديد آورنده

    كاميار مراديان زه آب

  • عنوان
    درج اشياء در صحنه‌هاي داخلي با استفاده از مدل‌هاي انتشاري چندحالته
  • مقطع تحصيلي
    كارشناسي
  • رشته تحصيلي
    مهندسي كامپيوتر
  • سال فارغ التحصيلي
    1404
  • استاد راهنما
    دكتر محمدرضا محمدي
  • دانشجوي وارد كننده اطلاعات

    كاميار مراديان زه اب

  • تاريخ ورود اطلاعات
    1404/06/18
  • دانشكده
    مهندسي كامپيوتر
  • عنوان به انگليسي
    inser‎ting Objects into Indoor Scenes Using Multimodal Diffusion Models
  • چكيده
    با وجود پيشرفت‌هاي چشمگير مدل‌هاي انتشاري در ويرايش معنايي تصاوير، دستكاري دقيق و واقع‌گرايانه‌ي اشياء بزرگ در صحنه‌هاي داخلي همچنان با چالش‌هاي كليدي هزينه محاسباتي و كمبود داده‌هاي آموزشي باكيفيت مواجه است. براي غلبه بر اين محدوديت‌ها، اين پايان‌نامه يك چارچوب نوآورانه، ماژولار و بدون نياز به آموزش را ارائه مي‌دهد كه بر حذف و درج «كاناپه» به عنوان يك مطالعه موردي براي اشياء بزرگ داخلي، تمركز دارد. روش پيشنهادي ما بر يك خط لوله‌ي دوگانه استوار است. خط لوله‌ي نخست، وظيفه‌ي حذف شيء را با يك راهبرد پالايش تدريجي «از كل به جزء» انجام مي‌دهد؛ در اين فرآيند، ابتدا يك بازسازي ساختاري اوليه با مدل Big LaMa صورت گرفته و سپس خروجي آن با بهره‌گيري از هدايت چندوجهي (شامل راهنماي ساختاري از ControlNet مبتني بر عمق و راهنماي معنايي از رهنمودهاي متني) توسط يك نسخه‌ي تنظيم دقيق‌شده از مدل Stable Diffusion XL (با چك‌پوينت Juggernaut XI) پالايش مي‌شود. خط لوله‌ي دوم، براي درج شيء، يك جريان كاري نوين مبتني بر توليد مش سه‌بعدي از تصوير مرجع با مدل InstantMesh، هم‌راستاسازي خودكار مش، و يك روش نوآورانه براي نگاشت پرسپكتيو مبتني بر نقاط راهنماي كاربر بهره مي‌برد كه با يك گام تركيب نهايي آگاه از عمق، مديريت دقيق انسدادهاي هندسي را تضمين مي‌نمايد. ارزيابي‌هاي كمي و كيفي گسترده بر روي دو مجموعه داده‌ي سفارشي كه براي اين پژوهش گردآوري شده‌اند، كارايي چارچوب پيشنهادي را در مقايسه با چندين مدل پايه تأييد مي‌كند. خط لوله‌ي حذف، در مقايسه با مدل‌هاي پايه، در معيارهاي سازگاري معنايي (ReMOVE) و واقع‌گرايي توزيعي (FD (DINOv2)) نتايج برتري را به نمايش مي‌گذارد. خط لوله‌ي درج نيز وفاداري بالايي به ساختار و هويت بصري شيء مرجع نشان داده و در معيارهاي كليدي وفاداري به شيء (DreamSim و DINOv2-FG) نتايج پيشرويي را كسب مي‌كند. علاوه بر اين، پژوهش حاضر نشان مي‌دهد كه خط لوله‌ي حذف شيء مي‌تواند به عنوان يك موتور توليد داده‌ي خودكار براي ساخت مجموعه داده‌هاي ساختگي جهت آموزش مدل‌هاي درج شيء عمل كرده و راهكاري عملي براي مشكل كمبود داده در اين حوزه ارائه دهد.
  • كليدواژه ها
    يادگيري عميق , بينايي كامپيوتر , هوش مصنوعي مولد , مدل‌هاي انتشاري , توليد شرطي , توليد چندحالته , ويرايش تصوير , بازنقاشي , درج شيء , حذف شيء , بازسازي سه‌بعدي , رويكرد بدون نياز به آموزش , توليد داده‌هاي ساختگي