شماره ركورد
34746
پديد آورنده
زيد جميل
عنوان
ارزيابي تطبيقي چارچوبهاي مدرن تجزيه و تحليل دادههاي بلادرنگ: مطالعهاي بر روي آپاچي بيم، پاياسپارك استريمينگ و فاوست در كاربردهاي هوش تجاري
مقطع تحصيلي
كارشناسى ارشد
رشته تحصيلي
مهندسى كامپيوتر - نرم افزار
سال تحصيل
1402
تاريخ دفاع
1404/12/2
استاد راهنما
بهروز مينايى
استاد مشاور
/
دانشكده
مهندسى كامپيوتر
چكيده
انتقال بخش تجارت الكترونيك از گزارشدهي سنتي به انعطافپذيري در لحظه، مستلزم ظرفيت پردازش جريانهاي دادهي مداوم براي قيمتگذاري پويا، تشخيص كلاهبرداري و شخصيسازي تجربه كاربري است كه اين امر امروزه به يك ضرورت عملياتي تبديل شده است. با اين حال، معماران نرمافزار هنگام انتخاب ميان اكوسيستمهاي تثبيتشده مبتني بر JVM و راهكارهاي نوين مبتني بر پايتون، با تصميمي چالشبرانگيز مواجه هستند. اين پاياننامه بر آن است تا با انجام يك بنچمارك عملكردي جامع روي سه چارچوب متمايز پردازش جريان شامل Apache Beam، PySpark Structured Streaming وFaust، خلاء موجود در دادههاي تجربي مقايسهاي را برطرف نمايد. اين پژوهش با بهرهگيري از مجموعهدادهي كليكاستريم واقعي در حوزه تجارت الكترونيك، عملكرد هر چارچوب را بر اساس معيارهاي حياتي تأخير انتها-به-انتها، نرخ انتقال پايدار و بهينگي مصرف منابع در يك محيط آزمايشگاهي كنترلشده مورد ارزيابي قرار ميدهد.
نتايج حاصل از اين بررسي، توازنهاي معماري مشخصي را ميان اين ابزارها روشن ميسازد. براي نمونه، Apache Beam با ثبت تأخير 180 ميليثانيه برتري خود را ثابت كرد و براي فرآيندهاي تصميمگيري حساس به زمان بسيار مناسب ارزيابي شد. در مقابل، چارچوب Faust كه به صورت بومي براي پايتون توسعه يافته است، با پردازش 531 رويداد در ثانيه و كمترين ميزان بهرهگيري از پردازنده يعني 45 درصد، به بالاترين نرخ انتقال دست يافت كه اين موضوع كارايي آن را در سناريوهاي جذب داده با حجم بالا تاييد ميكند، هرچند كه تحت بارهاي كاري سنگين با چالشهاي افزايش تأخير روبرو است. همچنين، PySpark Structured Streaming با وجود داشتن كفِ تأخيرِ 1.8 ثانيهاي در حالت ريز-دسته، توانمنديهاي قابل توجهي را در بهينهسازي انطباقي در طول زمان از خود نشان داد.
در نهايت، اين تحقيق يافتههاي تجربي مذكور را در قالب يك چارچوب تصميمگيري استراتژيك ادغام كرده و توصيههايي مبتني بر شواهد را براي انتخاب ابزار، بسته به نيازهاي خاص هوش تجاري ارائه ميدهد. علاوه بر اين، پژوهش حاضر يك متدولوژي تكرارپذير براي بنچمارك معماريهاي جرياني در دسترس در پايتون ارائه ميكند و بدين ترتيب، شكاف ميان طراحي تئوريك سيستم و پيادهسازي مهندسي كاربردي در بخش تجارت الكترونيك را پر مينمايد
تاريخ ورود اطلاعات
1404/12/08
عنوان به انگليسي
Comparative evaluation of Modern Real-Time Data Analytics Frameworks: A Study of Apache Beam, PySpark Streaming, and Faust in Business Intelligence Applications
تاريخ بهره برداري
2/27/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
زيد جميل
چكيده به لاتين
The e-commerce sectorʹs shift from traditional reporting to real-time adaptability necessitates the capacity to process continuous data streams for dynamic pricing, fraud detection, and user personalization, thereby establishing it as an operational necessity. Nevertheless, software architects encounter a challenging decision when choosing between established JVM-based ecosystems and novel Python-native solutions. This thesis seeks to address the significant absence of empirical coqmparative data by performing a comprehensive performance benchmark of three distinct stream processing frameworks: Apache Beam, PySpark Structured Streaming, and Faust.
Employing a real-world e-commerce clickstream dataset, this research assesses each frameworkʹs performance across critical metrics end-to-end latency, sustained throughput, and resource efficiency within a controlled experimental setting. The results elucidate specific architectural trade-offs:
Apache Beamʹs latency of 180 milliseconds proved superior, rendering it well-suited for time-sensitive decision-making processes. In contrast, the Python-native Faust framework achieved the highest throughput, processing 531 events per second with minimal CPU utilization (45%), thereby confirming its efficacy in high-volume ingestion scenarios, notwithstanding latency considerations under heavy loads. PySpark Structured Streaming, while exhibiting a micro-batch latency floor of 1.8 seconds, showcased substantial adaptive optimization capabilities over time.
This investigation integrates these empirical findings into a strategic decision-making framework, offering evidence-based recommendations for framework selection contingent upon specific business intelligence needs. Furthermore, the research presents a reproducible methodology for benchmarking Python-accessible streaming architectures, thus bridging the divide between theoretical system design and practical engineering implementation within the e-commerce sector
كليدواژه هاي فارسي
تحليل بلادرنگ , پردازش جرياني , هوش تجاري تجارت الكترونيك , بنچمارك عملكرد , آپاچي بيم
كليدواژه هاي لاتين
Real-time analytics , stream processing , e-commerce business intelligence , performance benchmarking , Apache Beam
Author
Zaid Jameel
SuperVisor
Behrouz Minaei