-
شماره ركورد
13861
-
عنوان
مطالعه و بررسي مدلهاي پايه با محوريت توليد متن از تصوير
-
سال تحصيل
1402
-
استاد راهنما
دكتر محمدرضا كنگاوري
-
چکيده
اين گزارش به بررسي يك الگوي نوظهور براي ساخت سيستمهاي هوش مصنوعي بر اساس يك گروه كلي از مدلها ميپردازد كه به آن مدلهاي پايه گفته ميشود. مدلهاي پايه كه به عنوان مدلهاي از پيش آموزش ديده نيز شناخته ميشوند، مدلهاي هوش مصنوعي در مقياس بزرگ هستند كه بر روي حجم وسيعي از دادهها، از جمله متن و تصوير، با هدف دستيابي به درك عميق از جهان و پيچيدگيهاي آن آموزش ميبينند و از آنجا كه قبلاً نمايش دادههاي ارزشمندي را آموختهاند، ميتوانند براي طيف وسيعي از وظايف پاييندستي تطبيق داده شوند. ميتوان مدلهاي پايه را به عنوان ابزاري براي توسعه دهندگان هوش مصنوعي در نظر گرفت كه پايه محكمي براي ايجاد برنامههاي كاربردي جديد و حل مشكلات پيچيده فراهم ميكند.
تمركز اين مطالعه بر استفاده از مدلهاي پايه براي توليد متن از تصوير است كه مستلزم درك اطلاعات بصري و تبديل آن به يك دنباله متني منسجم است.
اين مطالعه با ارائه يك تعريف كلي از مدلهاي پايه و مفاهيم اساسي مرتبط با آن شروع ميشود و سپس به تحليل و بررسي معماريهاي رايج اين مدلها پرداخته ميشود. سپس، تعامل مدلهاي پايه با وجههاي زبان و تصوير، هر كدام به صورت مجزا مورد بررسي قرار ميگيرد. در ادامه مدلهاي چندوجهي كه توانايي تركيب اطلاعات از وجههاي مختلف از جمله متن و تصوير را دارند، معرفي و بررسي خواهند شد.
در پايان، تمركز اصلي اين مطالعه بر روي توليد متن از تصوير خواهد بود. در اين بخش، فرآيندها و تكنيكهايي كه براي تبديل اطلاعات بصري به متن استفاده ميشوند، مورد بررسي قرار خواهند گرفت. همچنين، چالشها و محدوديتهاي موجود نيز تحليل ميشوند، و پيشنهاداتي براي آينده پژوهش در اين زمينه ارائه خواهد شد.
-
نام دانشجو
زهرا ناصري
-
تاريخ ارائه
10/2/2024 12:00:00 AM
-
متن كامل
84080
-
تاريخ ورود اطلاعات
1403/07/23
-
عنوان به انگليسي
A study and review on foundation models focusing on producing text from images
-
كليدواژه هاي فارسي
مدلهاي پايه , داده چندوجهي , توليد متن از تصوير
-
كليدواژه هاي لاتين
Foundation models , Multimodal data , Text generation from images
-
لينک به اين مدرک :