-
شماره ركورد
30335
-
پديد آورنده
مهتاب مظاهري
-
عنوان
تركيب سري زماني و دادههاي متني براي پيشبيني تحركات قيمت سهام و تحليل بازار با استفاده از يادگيري ماشين
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي فناوري اطلاعات گرايش تجارت الكترونيك
-
سال تحصيل
1399
-
تاريخ دفاع
1402/7/24
-
استاد راهنما
جناب آقاي دكتر مهدي غضنفري
-
استاد مشاور
جناب آقاي دكتر محمد فتحيان
-
دانشكده
مهندسي صنايع
-
چكيده
چكيده
بازارهاي مالي، محيطهاي پويا و با نوسان بالا به شمار ميروند كه تحت تأثير متغيرهاي متعددي قرار دارند. پيشبيني نوسانات قيمت در اين بازارها، امري چالش برانگيز تلقي ميشود. با اين حال، در سالهاي اخير، با دسترسي به حجم عظيمي از دادههاي متني و پيشرفت روزافزون مدلهاي يادگيري ماشين، استفاده از اين ظرفيتهاي بالقوه و بهرهگيري از آنها در مسائل مالي، ميتواند نويدگر پيشرفت و بهبود در اين حوزه باشد.
با گسترش رسانه ها خبري در بستر وب، روزانه تعداد زيادي از متون اخبار انتشار مي يابند اما تأثيرگذاري اين اخبار بر تحركات قيمت سهام متفاوت است. يكي از ويژگيهاي بارز اخبار مؤثر، وجود عوامل محرك بالقوه، به عنوان مثال، اعلام قوانين جديد، تغييرات قيمت كاموديتي، عوامل سياسي و ... است. اين دسته از اخبار معمولاً مورد توجه فعالان بازار قرار ميگيرند و ميتوانند موجب برانگيختن هيجانات و احساسات مختلف گردند و برخي معاملات نيز تحت تأثير قرار دهند.
در اين پژوهش، مدلي براي تشخيص اخبار مؤثر بر روند قيمتها با استفاده از شناسايي عوامل محرك در اخبار ارائه شده است. با استفاده از اين مدل و پالايش حجم زيادي از اخبار منتشر شده و انتخاب اخبار با ارزش، نه تنها داده ورودي با كيفيت منجر به ارتقاء عملكرد پيشبيني مدل شده است بلكه اهداف ديگري همچون بهينهسازي مصرف منابع سختافزاري و كاهش زمان آموزش مدل نيز محقق گرديده است.
مسأله بعدي بررسي نحوه تأثيرگذاري (افزايش/كاهش) اين عوامل بر نوسانات است، زيرا اين تأثيرات به صورت صريح در خبرها مطرح نميشوند. براي اين كار، از مدل زباني نمايش رمزنگار دوطرفه مبتني بر ترنسفورمر (BERT) استفاده شده است كه نسل جديدي از مدلهاي قدرتمند زباني است و ميتواند بار معنايي زمينه و لايههاي عميق ضمني را براي دستهبندي اين تأثيرات به كار ببرند.
در نهايت، براي بهبود عملكرد مدل، علاوه بر بر چسب هاي توليد شده از دسته بندي تاثيرات اخبار بر قيمت ها، دادههاي سري زماني، شاخصهاي تكنيكال و سوابق معاملات سهامداران حقيقي و حقوقي به مجموعه دادهها افزوده شده است. از مدلهاي مختلف يادگيري ماشين براي پيشبيني قيمت در بازهي زماني 4 سهم در 333 روز معاملاتي استفاده شده است كه مدل رگرسيون لجستيك با ميانگين معيار r2 برابر با 0.935 براي 4 سهم مورد بررسي بهترين نتيجه را كسب كرده است.
واژههاي كليدي: سري زماني، تجزيه و تحليل احساسات، پيش بيني قيمت، يادگيري ماشين، يادگيري عميق
-
تاريخ ورود اطلاعات
1402/10/19
-
عنوان به انگليسي
Combining Time Series and Textual Data to Predict Stock Price Movements and Market Analysis Using Machine Learning Approaches
-
تاريخ بهره برداري
1/1/1900 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
مهتاب مظاهري
-
چكيده به لاتين
Abstract:
Financial markets represent dynamic and highly volatile ecosystems influenced by diverse contributing factors. Predicting price fluctuations in these markets remains a persistent and intricate puzzle. Nonetheless, recent years have witnessed an unprecedented influx of textual data alongside the continuous evolution of machine-learning models. These developments present a promising opportunity to leverage the available resources within the financial domain, offering potential avenues for progression and improvement in this area.
With the proliferation of news media on the web, a substantial number of news articles are published daily. However, the impact of this news on stock price movements varies. A prominent characteristic of influential news is the presence of potential triggering factors, including the announcement of new regulations, changes in commodity prices, geopolitical factors, and more. Such news typically captures the attention of market participants, potentially evoking diverse emotions and affecting certain transactions.
This research introduces a model designed to detect news articles that exert significant influence on price trends by identifying triggering factors within the news. The utilization of this model involves sifting through extensive volumes of published news and extracting valuable information, resulting in the acquisition of high-quality input data. Furthermore, this emphasis on meticulous data selection serves broader objectives, including optimizing computational resources and significantly reducing model training time.
The next challenge involves exploring the implicit effects of these factors on fluctuations (increase/decrease), given that these effects are not explicitly mentioned in the news. To address this, the Bidirectional Encoder Representations from Transformers model, BERT, has been utilized. This next-generation large language model excels in comprehending contextual nuances and latent layers to classify these impacts.
Ultimately, to further enhance the model's performance, additional features including time series data, technical indicators, and trading histories of both individual and corporate shareholders were incorporated into the input dataset alongside the labels generated from news impact classification. Multiple machine learning and deep learning models were utilized to forecast prices for four stocks across 333 trading days. Notably, Logistic Regression achieves an average r2 measure of 0.935 across the four stocks, showcasing superior performance.
Keywords: Time Series, Sentiment Analysis, Price Prediction, Machine Learning, Deep Learning
-
كليدواژه هاي فارسي
سري زماني , يادگيري ماشين , يادگيري عميق , پيش بيني قيمت , تجزيه و تحليل احساسات
-
كليدواژه هاي لاتين
Time Series , Machine Learning , Deep Learning , Price Prediction , Sentiment Analysis
-
Author
Mahtab Mazaheri
-
SuperVisor
Dr. Mehdi Ghazanfari
-
لينک به اين مدرک :