شماره ركورد
9748
پديد آورنده
كاميار مراديان زه آب
عنوان
درج اشياء در صحنههاي داخلي با استفاده از مدلهاي انتشاري چندحالته
مقطع تحصيلي
كارشناسي
رشته تحصيلي
مهندسي كامپيوتر
سال فارغ التحصيلي
1404
استاد راهنما
دكتر محمدرضا محمدي
دانشجوي وارد كننده اطلاعات
كاميار مراديان زه اب
تاريخ ورود اطلاعات
1404/06/18
دانشكده
مهندسي كامپيوتر
عنوان به انگليسي
inserting Objects into Indoor Scenes Using Multimodal Diffusion Models
چكيده
با وجود پيشرفتهاي چشمگير مدلهاي انتشاري در ويرايش معنايي تصاوير، دستكاري دقيق و واقعگرايانهي اشياء بزرگ در صحنههاي داخلي همچنان با چالشهاي كليدي هزينه محاسباتي و كمبود دادههاي آموزشي باكيفيت مواجه است. براي غلبه بر اين محدوديتها، اين پاياننامه يك چارچوب نوآورانه، ماژولار و بدون نياز به آموزش را ارائه ميدهد كه بر حذف و درج «كاناپه» به عنوان يك مطالعه موردي براي اشياء بزرگ داخلي، تمركز دارد.
روش پيشنهادي ما بر يك خط لولهي دوگانه استوار است. خط لولهي نخست، وظيفهي حذف شيء را با يك راهبرد پالايش تدريجي «از كل به جزء» انجام ميدهد؛ در اين فرآيند، ابتدا يك بازسازي ساختاري اوليه با مدل Big LaMa صورت گرفته و سپس خروجي آن با بهرهگيري از هدايت چندوجهي (شامل راهنماي ساختاري از ControlNet مبتني بر عمق و راهنماي معنايي از رهنمودهاي متني) توسط يك نسخهي تنظيم دقيقشده از مدل Stable Diffusion XL (با چكپوينت Juggernaut XI) پالايش ميشود. خط لولهي دوم، براي درج شيء، يك جريان كاري نوين مبتني بر توليد مش سهبعدي از تصوير مرجع با مدل InstantMesh، همراستاسازي خودكار مش، و يك روش نوآورانه براي نگاشت پرسپكتيو مبتني بر نقاط راهنماي كاربر بهره ميبرد كه با يك گام تركيب نهايي آگاه از عمق، مديريت دقيق انسدادهاي هندسي را تضمين مينمايد.
ارزيابيهاي كمي و كيفي گسترده بر روي دو مجموعه دادهي سفارشي كه براي اين پژوهش گردآوري شدهاند، كارايي چارچوب پيشنهادي را در مقايسه با چندين مدل پايه تأييد ميكند. خط لولهي حذف، در مقايسه با مدلهاي پايه، در معيارهاي سازگاري معنايي (ReMOVE) و واقعگرايي توزيعي (FD (DINOv2)) نتايج برتري را به نمايش ميگذارد. خط لولهي درج نيز وفاداري بالايي به ساختار و هويت بصري شيء مرجع نشان داده و در معيارهاي كليدي وفاداري به شيء (DreamSim و DINOv2-FG) نتايج پيشرويي را كسب ميكند. علاوه بر اين، پژوهش حاضر نشان ميدهد كه خط لولهي حذف شيء ميتواند به عنوان يك موتور توليد دادهي خودكار براي ساخت مجموعه دادههاي ساختگي جهت آموزش مدلهاي درج شيء عمل كرده و راهكاري عملي براي مشكل كمبود داده در اين حوزه ارائه دهد.
كليدواژه ها
يادگيري عميق , بينايي كامپيوتر , هوش مصنوعي مولد , مدلهاي انتشاري , توليد شرطي , توليد چندحالته , ويرايش تصوير , بازنقاشي , درج شيء , حذف شيء , بازسازي سهبعدي , رويكرد بدون نياز به آموزش , توليد دادههاي ساختگي