شماره ركورد
33538
پديد آورنده
حميدرضا جعفريان
عنوان
تحليل همگرايي سريع روش گراديان تصادفي در مسائل بيش پارامتر شده
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
رياضي كاربردي - بهينه سازي
سال تحصيل
1402-1404
تاريخ دفاع
1404/04/29
استاد راهنما
دكتر جواد وحيدي
استاد مشاور
ندارد
دانشكده
رياضي
چكيده
در سالهاي اخير، يادگيري ماشين مدرن، بهويژه يادگيري عميق، به سمت استفاده از مدلهاي بسيار بيشپارامتري حركت كرده است؛ جايي كه تعداد پارامترهاي مدل بهمراتب بيشتر از دادههاي آموزشي است. اين پاياننامه به بررسي همگرايي سريع الگوريتم گراديان تصادفي (SGD) در چنين شرايطي ميپردازد. برخلاف تحليلهاي نظري كلاسيك كه براي تضمين همگرايي نياز به گامهاي يادگيري كوچك دارند، اين پژوهش شرايطي را معرفي ميكند كه به SGD اجازه ميدهد با گامهاي بزرگ نيز همگرا شود و نرخ همگرايي سريعي مشابه الگوريتم گراديان قطعي (GD) داشته باشد. دو شرط اصلي تحليلشده شامل شرط رشد درجه دوم و شرط هدفگيري هستند كه اثبات ميشود در هنگام آموزش شبكههاي عصبي پيشخور با عرض كافي و لايه خروجي خطي نيز برقرار ميباشند. همچنين نشان داده ميشود كه الگوريتم SGD در اين حالت با احتمال بالا به مجموعه جوابهاي مينيمم همگرا شده و نرخ همگرايي آن با عملكرد مشاهدهشده در عمل نيز همخواني دارد. در بخش پاياني، روشي براي افزايش احتمال موفقيت الگوريتم از مقدار ثابت به مقدار دلخواه بالا معرفي ميشود، كه از اصولي مانند فرض گوي كوچك و نمونهگيري ردشونده بهره ميبرد.
تاريخ ورود اطلاعات
1404/04/30
عنوان به انگليسي
fast convergence of stochastic gradient descent for overparameterized problems
تاريخ بهره برداري
7/20/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
حميدرضا جعفريان
چكيده به لاتين
In recent years, modern machine learning—particularly deep learning—has increasingly relied on highly overparameterized models where the number of parameters significantly exceeds the number of training samples. This thesis investigates the fast convergence of Stochastic Gradient Descent (SGD) in such regimes. Unlike classical theoretical analyses that require small learning rates for convergence, this research introduces conditions that enable SGD to use large step sizes while achieving a fast linear convergence rate comparable to deterministic Gradient Descent (GD). Two main regularity conditions are proposed: Quadratic Growth and the Aiming Condition. It is proven that these conditions not only suffice locally, but also hold during the training of sufficiently wide feedforward neural networks with linear output layers. Under these assumptions, SGD iterates converge to the set of global minimizers with high probability, exhibiting a convergence rate of O(exp(-t/k)) that aligns well with empirical observations. In the final part, a boosting strategy is presented to raise the algorithm’s success probability from a constant level to arbitrarily high levels using techniques such as small ball assumptions and rejection sampling.
كليدواژه هاي فارسي
يادگيري ماشين , شبكه هاي عصبي عميق , بيش پارامتري , گراديان تصادفي , نرخ همگرايي خطي , شرط هدف گيري , نمونه گيري رد شونده
كليدواژه هاي لاتين
Machine Learning , Deep Neural Networks , Overparameterization , Stochastic Gradient Descent , Linear Convergence Rate , Condition, Aiming Condition , Rejection Sampling , Polyak-Łojasiewicz (PŁ) Condition
Author
Hamidreza Jafarian
SuperVisor
Dr, Javad Vahidi