Skip to content

Files

Latest commit

427271e · Feb 11, 2025

History

History
17 lines (13 loc) · 606 Bytes

SparkStreaming.md

File metadata and controls

17 lines (13 loc) · 606 Bytes

DStream

离散化流。将数据按时间区间采集到的数据集。是spark处理流式数据的封装。

ByKafka.java

接收器

接收数据,封装为DStream。

window

窗口操作。将多个连续的时间区间采集数据合并成更大的区间继续处理。

  • 窗口时长: 合并后的时间范围
  • 滑动步长: 每个窗口滑动时间

这两个参数必须为采集周期的整数倍

  • 窗口时长=滑动步长: 数据恰好处理
  • 窗口时长<滑动步长: 数据可能会丢失
  • 窗口时长>滑动步长: 数据可能会重复