spark: streaming相关、补充spark其他内容

Yang-xingchen · Yang-xingchen · commit 0a4b8dcead70 · 2024-08-01T17:13:36.000+08:00
diff --git a/middleware/kafka/src/main/java/com/example/kafka/KafkaApplication.java b/middleware/kafka/src/main/java/com/example/kafka/KafkaApplication.java
@@ -10,6 +10,8 @@
 import org.springframework.kafka.core.KafkaTemplate;
 
 import java.nio.charset.StandardCharsets;
+import java.util.Random;
+import java.util.concurrent.TimeUnit;
 
 @SpringBootApplication
 public class KafkaApplication {
@@ -27,13 +29,40 @@ public NewTopic testTopic() {
 				.build();
 	}
 
+	@Bean
+	public NewTopic randomTopic() {
+		return TopicBuilder
+				.name("random")
+				.partitions(10)
+				.replicas(1)
+				.build();
+	}
+
 	@Bean
 	public CommandLineRunner test(KafkaTemplate<String, byte[]> kafkaTemplate) {
 		return args -> {
 			kafkaTemplate.send("test", "test1".getBytes(StandardCharsets.UTF_8));
 		};
 	}
 
+	@Bean
+	public CommandLineRunner random(KafkaTemplate<String, byte[]> kafkaTemplate) {
+		return args -> {
+			Random random = new Random();
+			while (true) {
+				int i = Math.abs(random.nextInt() % 100);
+				String message = Integer.toString(i);
+				System.out.println(message);
+				kafkaTemplate.send("random", message.getBytes(StandardCharsets.UTF_8));
+				try {
+					TimeUnit.MILLISECONDS.sleep(i * 10 + 500);
+				} catch (Exception e) {
+					e.printStackTrace();
+				}
+			}
+		};
+	}
+
 	@KafkaListener(id = "test", topics = "test")
 	public void listener(String data) {
 		System.out.println("listener: " + data);
diff --git a/middleware/spark/SparkStreaming.md b/middleware/spark/SparkStreaming.md
@@ -0,0 +1,15 @@
+# DStream
+离散化流。将数据按时间区间采集到的数据集。是spark处理流式数据的封装。
+
+# 接收器
+接收数据，封装为DStream。
+
+# window
+窗口操作。将多个连续的时间区间采集数据合并成更大的区间继续处理。
+- 窗口时长: 合并后的时间范围
+- 滑动步长: 每个窗口滑动时间
+
+**这两个参数必须为采集周期的整数倍**
+- 窗口时长=滑动步长: 数据恰好处理
+- 窗口时长<滑动步长: 数据可能会丢失
+- 窗口时长>滑动步长: 数据可能会重复
diff --git a/middleware/spark/pom.xml b/middleware/spark/pom.xml
@@ -23,6 +23,16 @@
 			<artifactId>spark-sql_2.12</artifactId>
 			<version>3.5.1</version>
 		</dependency>
+		<dependency>
+			<groupId>org.apache.spark</groupId>
+			<artifactId>spark-streaming_2.12</artifactId>
+			<version>3.5.1</version>
+		</dependency>
+		<dependency>
+			<groupId>org.apache.spark</groupId>
+			<artifactId>spark-streaming-kafka-0-10_2.12</artifactId>
+			<version>3.5.1</version>
+		</dependency>
 		<dependency>
 			<groupId>com.fasterxml.jackson.core</groupId>
 			<artifactId>jackson-core</artifactId>
diff --git a/middleware/spark/src/main/java/base/Accumulators.java b/middleware/spark/src/main/java/base/Accumulators.java
@@ -0,0 +1,42 @@
+package base;
+
+import org.apache.spark.api.java.JavaSparkContext;
+import org.apache.spark.sql.SparkSession;
+import org.apache.spark.util.LongAccumulator;
+
+import java.util.List;
+import java.util.concurrent.TimeUnit;
+import java.util.stream.Collectors;
+import java.util.stream.Stream;
+
+public class Accumulators {
+
+    public static final List<Integer> DATA = Stream
+            .of(1, 2, 3, 4, 5, 6, 7, 8, 9)
+            .collect(Collectors.toList());
+
+    public static void main(String[] args) throws Exception {
+        SparkSession spark = SparkSession
+                .builder()
+                .appName("test")
+                .master("local")
+                .getOrCreate();
+        JavaSparkContext javaSparkContext = new JavaSparkContext(spark.sparkContext());
+        LongAccumulator longAccumulator = spark.sparkContext().longAccumulator("longAccumulator");
+        javaSparkContext
+                .parallelize(DATA)
+                .map(i -> {
+                    longAccumulator.add(i);
+                    return i;
+                })
+                .collect()
+                .forEach(System.out::println);
+        System.out.println("sum: " + longAccumulator.sum());
+
+        // job: 3
+        System.out.println("open: http://localhost:4040");
+        TimeUnit.HOURS.sleep(1);
+        spark.close();
+    }
+
+}
diff --git a/middleware/spark/src/main/java/sql/Schema.java b/middleware/spark/src/main/java/sql/Schema.java
@@ -0,0 +1,60 @@
+package sql;
+
+import org.apache.spark.api.java.JavaRDD;
+import org.apache.spark.api.java.JavaSparkContext;
+import org.apache.spark.sql.Row;
+import org.apache.spark.sql.RowFactory;
+import org.apache.spark.sql.SparkSession;
+import org.apache.spark.sql.types.DataTypes;
+import org.apache.spark.sql.types.StructType;
+
+import java.util.List;
+import java.util.stream.Collectors;
+import java.util.stream.Stream;
+
+public class Schema {
+
+    public static void main(String[] args) {
+        SparkSession spark = SparkSession
+                .builder()
+                .appName("test")
+                .master("local")
+                .getOrCreate();
+
+        // 定义schema
+        StructType schema = DataTypes.createStructType(Stream.of(
+                DataTypes.createStructField("id", DataTypes.StringType, false),
+                DataTypes.createStructField("name", DataTypes.StringType, false),
+                DataTypes.createStructField("age", DataTypes.IntegerType, false)
+        ).collect(Collectors.toList()));
+
+        // 获取数据
+        List<String> data = Stream.of(
+                "001 user1 10",
+                "002 user2 20",
+                "003 user3 15",
+                "004 user4 35"
+        ).collect(Collectors.toList());
+        JavaRDD<Row> dataRdd = new JavaSparkContext(spark.sparkContext())
+                .parallelize(data)
+                .map(str -> {
+                    String[] s = str.split(" ");
+                    return RowFactory.create(s[0], s[1], Integer.parseInt(s[2]));
+                });
+
+        /*
+         * +---+-----+---+
+         * | id| name|age|
+         * +---+-----+---+
+         * |001|user1| 10|
+         * |002|user2| 20|
+         * |003|user3| 15|
+         * |004|user4| 35|
+         * +---+-----+---+
+         */
+        spark.createDataFrame(dataRdd, schema).show();
+
+        spark.close();
+    }
+
+}
diff --git a/middleware/spark/src/main/java/streaming/ByKafka.java b/middleware/spark/src/main/java/streaming/ByKafka.java
@@ -0,0 +1,47 @@
+package streaming;
+
+import org.apache.kafka.clients.consumer.ConsumerConfig;
+import org.apache.kafka.clients.consumer.ConsumerRecord;
+import org.apache.kafka.common.serialization.StringDeserializer;
+import org.apache.spark.SparkConf;
+import org.apache.spark.streaming.Durations;
+import org.apache.spark.streaming.api.java.JavaInputDStream;
+import org.apache.spark.streaming.api.java.JavaStreamingContext;
+import org.apache.spark.streaming.kafka010.ConsumerStrategies;
+import org.apache.spark.streaming.kafka010.ConsumerStrategy;
+import org.apache.spark.streaming.kafka010.KafkaUtils;
+import org.apache.spark.streaming.kafka010.LocationStrategies;
+
+import java.util.Collections;
+import java.util.HashMap;
+import java.util.Map;
+
+public class ByKafka {
+
+    public static void main(String[] args) throws InterruptedException {
+        SparkConf sparkConf = new SparkConf()
+                .setMaster("local")
+                .setAppName("test");
+        JavaStreamingContext jssc = new JavaStreamingContext(sparkConf, Durations.seconds(5));
+
+        // kafka配置
+        Map<String, Object> kafkaParams = new HashMap<>();
+        kafkaParams.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.31.201:9092,192.168.31.202:9092,192.168.31.203:9092");
+        kafkaParams.put(ConsumerConfig.GROUP_ID_CONFIG, "spark");
+        kafkaParams.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
+        kafkaParams.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
+
+        // 数据处理
+        // 数据发送于: middleware/kafka/src/main/java/com/example/kafka/KafkaApplication.java
+        ConsumerStrategy<Object, Object> consumerStrategy = ConsumerStrategies.Subscribe(Collections.singleton("random"), kafkaParams);
+        JavaInputDStream<ConsumerRecord<Object, Object>> dStream = KafkaUtils.createDirectStream(jssc, LocationStrategies.PreferConsistent(), consumerStrategy);
+        dStream
+                .map(ConsumerRecord::value)
+                .print();
+
+        // 启动
+        jssc.start();
+        jssc.awaitTermination();
+    }
+
+}