• شماره ركورد
    34746
  • پديد آورنده

    زيد جميل

  • عنوان
    ارزيابي تطبيقي چارچوب‌هاي مدرن تجزيه و تحليل داده‌هاي بلادرنگ: مطالعه‌اي بر روي آپاچي بيم، پاي‌اسپارك استريمينگ و فاوست در كاربردهاي هوش تجاري
  • مقطع تحصيلي
    كارشناسى ارشد
  • رشته تحصيلي
    مهندسى كامپيوتر - نرم افزار
  • سال تحصيل
    1402
  • تاريخ دفاع
    1404/12/2
  • استاد راهنما
    بهروز مينايى
  • استاد مشاور
    /
  • دانشكده
    مهندسى كامپيوتر
  • چكيده
    انتقال بخش تجارت الكترونيك از گزارش‌دهي سنتي به انعطاف‌پذيري در لحظه، مستلزم ظرفيت پردازش جريان‌هاي داده‌ي مداوم براي قيمت‌گذاري پويا، تشخيص كلاهبرداري و شخصي‌سازي تجربه كاربري است كه اين امر امروزه به يك ضرورت عملياتي تبديل شده است. با اين حال، معماران نرم‌افزار هنگام انتخاب ميان اكوسيستم‌هاي تثبيت‌شده مبتني بر JVM و راهكارهاي نوين مبتني بر پايتون، با تصميمي چالش‌برانگيز مواجه هستند. اين پايان‌نامه بر آن است تا با انجام يك بنچ‌مارك عملكردي جامع روي سه چارچوب متمايز پردازش جريان شامل Apache Beam، PySpark Structured Streaming وFaust، خلاء موجود در داده‌هاي تجربي مقايسه‌اي را برطرف نمايد. اين پژوهش با بهره‌گيري از مجموعه‌داده‌ي كليك‌استريم واقعي در حوزه تجارت الكترونيك، عملكرد هر چارچوب را بر اساس معيارهاي حياتي تأخير انتها-به-انتها، نرخ انتقال پايدار و بهينگي مصرف منابع در يك محيط آزمايشگاهي كنترل‌شده مورد ارزيابي قرار مي‌دهد. نتايج حاصل از اين بررسي، توازن‌هاي معماري مشخصي را ميان اين ابزارها روشن مي‌سازد. براي نمونه، Apache Beam با ثبت تأخير 180 ميلي‌ثانيه برتري خود را ثابت كرد و براي فرآيندهاي تصميم‌گيري حساس به زمان بسيار مناسب ارزيابي شد. در مقابل، چارچوب Faust كه به صورت بومي براي پايتون توسعه يافته است، با پردازش 531 رويداد در ثانيه و كمترين ميزان بهره‌گيري از پردازنده يعني 45 درصد، به بالاترين نرخ انتقال دست يافت كه اين موضوع كارايي آن را در سناريوهاي جذب داده با حجم بالا تاييد مي‌كند، هرچند كه تحت بارهاي كاري سنگين با چالش‌هاي افزايش تأخير روبرو است. همچنين، PySpark Structured Streaming با وجود داشتن كفِ تأخيرِ 1.8 ثانيه‌اي در حالت ريز-دسته، توانمندي‌هاي قابل توجهي را در بهينه‌سازي انطباقي در طول زمان از خود نشان داد. در نهايت، اين تحقيق يافته‌هاي تجربي مذكور را در قالب يك چارچوب تصميم‌گيري استراتژيك ادغام كرده و توصيه‌هايي مبتني بر شواهد را براي انتخاب ابزار، بسته به نيازهاي خاص هوش تجاري ارائه مي‌دهد. علاوه بر اين، پژوهش حاضر يك متدولوژي تكرارپذير براي بنچ‌مارك معماري‌هاي جرياني در دسترس در پايتون ارائه مي‌كند و بدين ترتيب، شكاف ميان طراحي تئوريك سيستم و پياده‌سازي مهندسي كاربردي در بخش تجارت الكترونيك را پر مي‌نمايد
  • تاريخ ورود اطلاعات
    1404/12/08
  • عنوان به انگليسي
    Comparative eva‎luation of Modern Real-Time Data Analytics Frameworks: A Study of Apache Beam, PySpark Streaming, an‎d Faust in Business Intelligence Applications
  • تاريخ بهره برداري
    2/27/2026 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    زيد جميل

  • چكيده به لاتين
    The e-commerce sectorʹs shift from traditional reporting to real-time adaptability necessitates the capacity to process continuous data streams for dynamic pricing, fraud detection, an‎d user personalization, thereby establishing it as an operational necessity. Nevertheless, software architects encounter a challenging decision when choosing between established JVM-based ecosystems an‎d novel Python-native solutions. This thesis seeks to address the significant absence of empirical coqmparative data by performing a comprehensive performance benchmark of three distinct stream processing frameworks: Apache Beam, PySpark Structured Streaming, an‎d Faust. Employing a real-world e-commerce clickstream dataset, this research assesses each frameworkʹs performance across critical metrics end-to-end latency, sustained throughput, an‎d resource efficiency within a controlled experimental setting. The results elucidate specific architectural trade-offs: Apache Beamʹs latency of 180 milliseconds proved superior, rendering it well-suited for time-sensitive decision-making processes. In contrast, the Python-native Faust framework achieved the highest throughput, processing 531 events per second with minimal CPU utilization (45%), thereby confirming its efficacy in high-volume ingestion scenarios, notwithstan‎ding latency considerations under heavy loads. PySpark Structured Streaming, while exhibiting a micro-batch latency floor of 1.8 seconds, showcased substantial adaptive optimization capabilities over time. This investigation integrates these empirical findings into a strategic decision-making framework, offering evidence-based recommendations for framework selec‎tion contingent upon specific business intelligence needs. Furthermore, the research presents a reproducible methodology for benchmarking Python-accessible streaming architectures, thus bridging the divide between theoretical system design an‎d practical engineering implementation within the e-commerce sector
  • كليدواژه هاي فارسي
    تحليل بلادرنگ , پردازش جرياني , هوش تجاري تجارت الكترونيك , بنچمارك عملكرد , آپاچي بيم
  • كليدواژه هاي لاتين
    Real-time analytics , stream processing , e-commerce business intelligence , performance benchmarking , Apache Beam
  • Author
    Zaid Jameel
  • SuperVisor
    Behrouz Minaei