-
شماره ركورد
9704
-
پديد آورنده
نويد ابراهيمي
-
عنوان
تبديل تصاوير با فرمت PNG به كد TikZ معادل آن با استفاده از مدلهاي بينايي-زباني
-
مقطع تحصيلي
كارشناسي
-
رشته تحصيلي
مهندسي كامپيوتر
-
سال فارغ التحصيلي
1404
-
استاد راهنما
دكتر مرضيه ملكيمجد
-
دانشجوي وارد كننده اطلاعات
نويد ابراهيمي
-
تاريخ ورود اطلاعات
1404/03/09
-
دانشكده
مهندسي كامپيوتر
-
عنوان به انگليسي
Generating TikZ code from PNG images using Vision Language models
-
چكيده
تصاوير را ميتوان به شيوههاي گوناگوني نمايش داد كه هر يك بسته به نياز و كاربرد، مزايا و معايب خاص خود را دارند. يكي از روشهاي قدرتمند و پركاربرد در محيطهاي علمي و آكادميك، بهرهگيري از كدهاي TikZ است. اين روش با توليد برداري تصاوير، امكان ايجاد نمودارها، شكلها و دياگرامهايي با دقت بالا و انعطافپذيري بسيار را فراهم ميكند. برخلاف فرمتهاي رايجتر مانند PNG كه بهصورت پيكسلي ذخيره ميشوند، تصاوير توليدشده با TikZ حتي در بزرگنماييهاي زياد نيز افت كيفيت ندارند و جزئيات خود را بهخوبي حفظ ميكنند. اين ويژگي بهويژه در مستندات علمي مانند مقالات، پاياننامهها و كتابها كه نياز به تصاوير با وضوح بالا دارند، از اهميت زيادي برخوردار است.
با وجود اين مزايا، توليد خودكار كد TikZ از تصاوير PNG همچنان يك چالش مهم به شمار ميرود. كمبود مدلهاي دقيق و كارآمد براي انجام اين تبديل و حفظ كيفيت ساختاري تصوير نهايي، يكي از موانع اصلي در مسير بهرهگيري گسترده از اين روش است. براي پاسخ به اين نياز، ما يك رويكرد نوآورانه و دو مرحلهاي را پيشنهاد ميدهيم.
در مرحله نخست، با استفاده از تكنيكهاي پيشرفته دادهافزايي، مجموعه داده اوليه كدهاي TikZ را غنيسازي كرده و تنوع آن را افزايش ميدهيم. اين كار منجر به ايجاد مدلهايي با توانايي تعميم بهتر در مواجهه با دادههاي جديد ميشود. در مرحله دوم، با بهرهگيري از مدلهاي تركيبي بينايي-زباني و بهكارگيري تكنيكهاي سبكسازي آموزش و تنظيم دقيق مانند LoRA، مدل را بر روي وظيفه تبديل تصوير به كد TikZ تنظيم ميكنيم. اين رويكرد نه تنها موجب افزايش دقت و كارايي مدل ميشود، بلكه امكان پيادهسازي آن را در محيطهاي محدود از نظر منابع محاسباتي نيز فراهم ميسازد.
-
كليدواژه ها
مدلهاي بينايي-زباني , LoRA , دادهافزايي , كد TikZ
-
لينک به اين مدرک :