حميدرضا جعفريان

عنوان

تحليل همگرايي سريع روش گراديان تصادفي در مسائل بيش پارامتر شده

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

رياضي كاربردي - بهينه سازي

سال تحصيل

1402-1404

تاريخ دفاع

1404/04/29

استاد راهنما

دكتر جواد وحيدي

استاد مشاور

ندارد

دانشكده

رياضي

چكيده

در سال‌هاي اخير، يادگيري ماشين مدرن، به‌ويژه يادگيري عميق، به سمت استفاده از مدل‌هاي بسيار بيش‌پارامتري حركت كرده است؛ جايي كه تعداد پارامترهاي مدل به‌مراتب بيشتر از داده‌هاي آموزشي است. اين پايان‌نامه به بررسي همگرايي سريع الگوريتم گراديان تصادفي (SGD) در چنين شرايطي مي‌پردازد. برخلاف تحليل‌هاي نظري كلاسيك كه براي تضمين همگرايي نياز به گام‌هاي يادگيري كوچك دارند، اين پژوهش شرايطي را معرفي مي‌كند كه به SGD اجازه مي‌دهد با گام‌هاي بزرگ نيز همگرا شود و نرخ همگرايي سريعي مشابه الگوريتم گراديان قطعي (GD) داشته باشد. دو شرط اصلي تحليل‌شده شامل شرط رشد درجه دوم و شرط هدف‌گيري هستند كه اثبات مي‌شود در هنگام آموزش شبكه‌هاي عصبي پيش‌خور با عرض كافي و لايه خروجي خطي نيز برقرار مي‌باشند. همچنين نشان داده مي‌شود كه الگوريتم SGD در اين حالت با احتمال بالا به مجموعه جواب‌هاي مينيمم همگرا شده و نرخ همگرايي آن با عملكرد مشاهده‌شده در عمل نيز همخواني دارد. در بخش پاياني، روشي براي افزايش احتمال موفقيت الگوريتم از مقدار ثابت به مقدار دلخواه بالا معرفي مي‌شود، كه از اصولي مانند فرض گوي كوچك و نمونه‌گيري ردشونده بهره مي‌برد.

تاريخ ورود اطلاعات

1404/04/30

عنوان به انگليسي

fast convergence of stochastic gradient descent for overparameterized problems

تاريخ بهره برداري

7/20/2026 12:00:00 AM

دانشجوي وارد كننده اطلاعات

حميدرضا جعفريان

Name: حميدرضا جعفريان
Author: حميدرضا جعفريان

چكيده به لاتين

In recent years, modern machine learning—particularly deep learning—has increasingly relied on highly overparameterized models where the number of parameters significantly exceeds the number of training samples. This thesis investigates the fast convergence of Stochastic Gradient Descent (SGD) in such regimes. Unlike classical theoretical analyses that require small learning rates for convergence, this research introduces conditions that enable SGD to use large step sizes while achieving a fast linear convergence rate comparable to deterministic Gradient Descent (GD). Two main regularity conditions are proposed: Quadratic Growth an‎d the Aiming Condition. It is proven that these conditions not only suffice locally, but also hold during the training of sufficiently wide feedforward neural networks with linear output layers. Under these assumptions, SGD iterates converge to the set of global minimizers with high probability, exhibiting a convergence rate of O(exp(-t/k)) that aligns well with empirical observations. In the final part, a boosting strategy is presented to raise the algorithm’s success probability from a constant level to arbitrarily high levels using techniques such as small ball assumptions an‎d rejection sampling.

كليدواژه هاي فارسي

يادگيري ماشين , شبكه هاي عصبي عميق , بيش پارامتري , گراديان تصادفي , نرخ همگرايي خطي , شرط هدف گيري , نمونه گيري رد شونده

كليدواژه هاي لاتين

Machine Learning , Deep Neural Networks , Overparameterization , Stochastic Gradient Descent , Linear Convergence Rate , Condition, Aiming Condition , Rejection Sampling , Polyak-Łojasiewicz (PŁ) Condition

Author

Hamidreza Jafarian

SuperVisor

Dr, Javad Vahidi

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=33538&Field=0&DTC=6