离散化流。将数据按时间区间采集到的数据集。是spark处理流式数据的封装。
接收数据,封装为DStream。
窗口操作。将多个连续的时间区间采集数据合并成更大的区间继续处理。
- 窗口时长: 合并后的时间范围
- 滑动步长: 每个窗口滑动时间
这两个参数必须为采集周期的整数倍
- 窗口时长=滑动步长: 数据恰好处理
- 窗口时长<滑动步长: 数据可能会丢失
- 窗口时长>滑动步长: 数据可能会重复
离散化流。将数据按时间区间采集到的数据集。是spark处理流式数据的封装。
接收数据,封装为DStream。
窗口操作。将多个连续的时间区间采集数据合并成更大的区间继续处理。
这两个参数必须为采集周期的整数倍