شماره ركورد
9704
پديد آورنده
نويد ابراهيمي
عنوان
تبديل تصاوير با فرمت PNG به كد TikZ معادل آن با استفاده از مدلهاي بينايي-زباني
مقطع تحصيلي
كارشناسي
رشته تحصيلي
مهندسي كامپيوتر
سال فارغ التحصيلي
1404
استاد راهنما
دكتر مرضيه ملكيمجد
دانشجوي وارد كننده اطلاعات
نويد ابراهيمي
تاريخ ورود اطلاعات
1404/03/09
دانشكده
مهندسي كامپيوتر
عنوان به انگليسي
Generating TikZ code from PNG images using Vision Language models
چكيده
تصاوير را ميتوان به شيوههاي گوناگوني نمايش داد كه هر يك بسته به نياز و كاربرد، مزايا و معايب خاص خود را دارند. يكي از روشهاي قدرتمند و پركاربرد در محيطهاي علمي و آكادميك، بهرهگيري از كدهاي TikZ است. اين روش با توليد برداري تصاوير، امكان ايجاد نمودارها، شكلها و دياگرامهايي با دقت بالا و انعطافپذيري بسيار را فراهم ميكند. برخلاف فرمتهاي رايجتر مانند PNG كه بهصورت پيكسلي ذخيره ميشوند، تصاوير توليدشده با TikZ حتي در بزرگنماييهاي زياد نيز افت كيفيت ندارند و جزئيات خود را بهخوبي حفظ ميكنند. اين ويژگي بهويژه در مستندات علمي مانند مقالات، پاياننامهها و كتابها كه نياز به تصاوير با وضوح بالا دارند، از اهميت زيادي برخوردار است.
با وجود اين مزايا، توليد خودكار كد TikZ از تصاوير PNG همچنان يك چالش مهم به شمار ميرود. كمبود مدلهاي دقيق و كارآمد براي انجام اين تبديل و حفظ كيفيت ساختاري تصوير نهايي، يكي از موانع اصلي در مسير بهرهگيري گسترده از اين روش است. براي پاسخ به اين نياز، ما يك رويكرد نوآورانه و دو مرحلهاي را پيشنهاد ميدهيم.
در مرحله نخست، با استفاده از تكنيكهاي پيشرفته دادهافزايي، مجموعه داده اوليه كدهاي TikZ را غنيسازي كرده و تنوع آن را افزايش ميدهيم. اين كار منجر به ايجاد مدلهايي با توانايي تعميم بهتر در مواجهه با دادههاي جديد ميشود. در مرحله دوم، با بهرهگيري از مدلهاي تركيبي بينايي-زباني و بهكارگيري تكنيكهاي سبكسازي آموزش و تنظيم دقيق مانند LoRA، مدل را بر روي وظيفه تبديل تصوير به كد TikZ تنظيم ميكنيم. اين رويكرد نه تنها موجب افزايش دقت و كارايي مدل ميشود، بلكه امكان پيادهسازي آن را در محيطهاي محدود از نظر منابع محاسباتي نيز فراهم ميسازد.
كليدواژه ها
مدلهاي بينايي-زباني , LoRA , دادهافزايي , كد TikZ