spark: sql相关

Yang-xingchen · Yang-xingchen · commit fa414ba1f6b3 · 2024-07-31T18:18:12.000+08:00
diff --git a/middleware/spark/SparkSql.md b/middleware/spark/SparkSql.md
@@ -0,0 +1,7 @@
+# 操作方式
+- SQL: 使用sql语法操作
+- DSL: 使用编程方式操作
+
+# 自定义函数对象
+- UDF: 用户自定义函数，类似map操作
+- UDAF: 用户自定义聚合函数，类似reduce操作
diff --git a/middleware/spark/pom.xml b/middleware/spark/pom.xml
@@ -23,6 +23,11 @@
 			<artifactId>spark-sql_2.12</artifactId>
 			<version>3.5.1</version>
 		</dependency>
+		<dependency>
+			<groupId>com.fasterxml.jackson.core</groupId>
+			<artifactId>jackson-core</artifactId>
+			<version>2.17.1</version>
+		</dependency>
 	</dependencies>
 
 </project>
diff --git a/middleware/spark/src/main/java/sql/Order.java b/middleware/spark/src/main/java/sql/Order.java
@@ -0,0 +1,53 @@
+package sql;
+
+import java.io.Serializable;
+
+public class Order implements Serializable {
+
+    private String id;
+    private Long userId;
+    private Long goodId;
+    private Long count;
+
+    public Order() {
+    }
+
+    public Order(String id, Long userId, Long goodId, Long count) {
+        this.id = id;
+        this.userId = userId;
+        this.goodId = goodId;
+        this.count = count;
+    }
+
+    public String getId() {
+        return id;
+    }
+
+    public void setId(String id) {
+        this.id = id;
+    }
+
+    public Long getUserId() {
+        return userId;
+    }
+
+    public void setUserId(Long userId) {
+        this.userId = userId;
+    }
+
+    public Long getGoodId() {
+        return goodId;
+    }
+
+    public void setGoodId(Long goodId) {
+        this.goodId = goodId;
+    }
+
+    public Long getCount() {
+        return count;
+    }
+
+    public void setCount(Long count) {
+        this.count = count;
+    }
+}
diff --git a/middleware/spark/src/main/java/sql/ReadByDsl.java b/middleware/spark/src/main/java/sql/ReadByDsl.java
@@ -0,0 +1,27 @@
+package sql;
+
+import org.apache.spark.sql.Dataset;
+import org.apache.spark.sql.Row;
+import org.apache.spark.sql.SparkSession;
+
+import static org.apache.spark.sql.functions.col;
+import static org.apache.spark.sql.functions.sum;
+
+public class ReadByDsl {
+
+    public static void main(String[] args) {
+        SparkSession spark = SparkSession
+                .builder()
+                .appName("test")
+                .master("local")
+                .getOrCreate();
+        // 需先通过sql.Write生成数据
+        Dataset<Row> dataset = spark.read().json("output");
+        dataset.select(col("userId"), col("count"))
+                .groupBy(col("userId"))
+                .agg(sum("count"))
+                .show();
+        spark.close();
+    }
+
+}
diff --git a/middleware/spark/src/main/java/sql/ReadBySql.java b/middleware/spark/src/main/java/sql/ReadBySql.java
@@ -0,0 +1,19 @@
+package sql;
+
+import org.apache.spark.sql.SparkSession;
+
+public class ReadBySql {
+
+    public static void main(String[] args) {
+        SparkSession spark = SparkSession
+                .builder()
+                .appName("test")
+                .master("local")
+                .getOrCreate();
+        // 需先通过sql.Write生成数据
+        spark.read().json("output").createOrReplaceTempView("order");
+        spark.sql("select userId, sum(count) from order group by userId").show();
+        spark.close();
+    }
+
+}
diff --git a/middleware/spark/src/main/java/sql/UdafMulti.java b/middleware/spark/src/main/java/sql/UdafMulti.java
@@ -0,0 +1,96 @@
+package sql;
+
+import org.apache.spark.sql.Encoder;
+import org.apache.spark.sql.Encoders;
+import org.apache.spark.sql.SparkSession;
+import org.apache.spark.sql.expressions.Aggregator;
+import org.apache.spark.sql.functions;
+import scala.Serializable;
+
+import java.util.HashMap;
+import java.util.Map;
+
+public class UdafMulti {
+
+    public static void main(String[] args) {
+        SparkSession spark = SparkSession
+                .builder()
+                .appName("test")
+                .master("local")
+                .getOrCreate();
+        // 需先通过sql.Write生成数据
+        spark.read().json("output").createOrReplaceTempView("order");
+        spark.udf().register("userBuy", functions.udaf(new UserBuy(), Encoders.bean(Order.class)));
+        spark.sql("select goodId, userBuy(id, userId, goodId, count) as userBuy from order group by goodId").show();
+        spark.close();
+    }
+
+    public static class UdafBuffer implements Serializable {
+        private Map<Long, Long> map = new HashMap<>();
+
+        public Map<Long, Long> getMap() {
+            return map;
+        }
+
+        public void setMap(Map<Long, Long> map) {
+            this.map = map;
+        }
+    }
+
+    public static class UserBuy extends Aggregator<Order, UdafBuffer, String> {
+
+        @Override
+        public UdafBuffer zero() {
+            return new UdafBuffer();
+        }
+
+        @Override
+        public UdafBuffer reduce(UdafBuffer b, Order a) {
+            b.map.compute(a.getUserId(), (user, count) -> {
+                if (count == null) {
+                    return Long.valueOf(a.getCount());
+                } else {
+                    return count + a.getCount();
+                }
+            });
+            return b;
+        }
+
+        @Override
+        public UdafBuffer merge(UdafBuffer b1, UdafBuffer b2) {
+            UdafBuffer res = new UdafBuffer();
+            b1.map.forEach((k, v) -> res.map.compute(k, (user, count) -> {
+                if (count == null) {
+                    return Long.valueOf(v);
+                } else {
+                    return count + v;
+                }
+            }));
+            b2.map.forEach((k, v) -> res.map.compute(k, (user, count) -> {
+                if (count == null) {
+                    return Long.valueOf(v);
+                } else {
+                    return count + v;
+                }
+            }));
+            return res;
+        }
+
+        @Override
+        public String finish(UdafBuffer reduction) {
+            return reduction.map.toString();
+        }
+
+        @Override
+        public Encoder<UdafBuffer> bufferEncoder() {
+            return Encoders.bean(UdafBuffer.class);
+        }
+
+        @Override
+        public Encoder<String> outputEncoder() {
+            return Encoders.STRING();
+        }
+
+    }
+
+}
diff --git a/middleware/spark/src/main/java/sql/UdafSingle.java b/middleware/spark/src/main/java/sql/UdafSingle.java
@@ -0,0 +1,59 @@
+package sql;
+
+import org.apache.spark.sql.Encoder;
+import org.apache.spark.sql.Encoders;
+import org.apache.spark.sql.SparkSession;
+import org.apache.spark.sql.expressions.Aggregator;
+import org.apache.spark.sql.functions;
+import scala.Tuple2;
+
+public class UdafSingle {
+
+    public static void main(String[] args) {
+        SparkSession spark = SparkSession
+                .builder()
+                .appName("test")
+                .master("local")
+                .getOrCreate();
+        // 需先通过sql.Write生成数据
+        spark.read().json("output").createOrReplaceTempView("order");
+        spark.udf().register("a", functions.udaf(new UdafAggregator(), Encoders.LONG()));
+        spark.sql("select goodId, a(count) as avg from order group by goodId").show();
+        spark.close();
+    }
+
+    public static class UdafAggregator extends Aggregator<Long, Tuple2<Long, Long>, Double> {
+
+        @Override
+        public Tuple2<Long, Long> zero() {
+            return new Tuple2<>(0L, 0L);
+        }
+
+        @Override
+        public Tuple2<Long, Long> reduce(Tuple2<Long, Long> b, Long a) {
+            return new Tuple2<>(b._1() + a, b._2() + 1);
+        }
+
+        @Override
+        public Tuple2<Long, Long> merge(Tuple2<Long, Long> b1, Tuple2<Long, Long> b2) {
+            return new Tuple2<>(b1._1() + b2._1(), b1._2() + b2._2());
+        }
+
+        @Override
+        public Double finish(Tuple2<Long, Long> reduction) {
+            return 1.0 * reduction._1() / reduction._2();
+        }
+
+        @Override
+        public Encoder<Tuple2<Long, Long>> bufferEncoder() {
+            return Encoders.tuple(Encoders.LONG(), Encoders.LONG());
+        }
+
+        @Override
+        public Encoder<Double> outputEncoder() {
+            return Encoders.DOUBLE();
+        }
+
+    }
+
+}
diff --git a/middleware/spark/src/main/java/sql/Udf.java b/middleware/spark/src/main/java/sql/Udf.java
@@ -0,0 +1,22 @@
+package sql;
+
+import org.apache.spark.sql.SparkSession;
+import org.apache.spark.sql.api.java.UDF2;
+import org.apache.spark.sql.types.DataTypes;
+
+public class Udf {
+
+    public static void main(String[] args) {
+        SparkSession spark = SparkSession
+                .builder()
+                .appName("test")
+                .master("local")
+                .getOrCreate();
+        // 需先通过sql.Write生成数据
+        spark.read().json("output").createOrReplaceTempView("order");
+        spark.udf().register("prefix", (UDF2<String, Long, String>) (pre, column) -> pre + column, DataTypes.StringType);
+        spark.sql("select prefix('user', userId) as user, prefix('good', goodId) as good, count from order").show();
+        spark.close();
+    }
+
+}
diff --git a/middleware/spark/src/main/java/sql/Write.java b/middleware/spark/src/main/java/sql/Write.java
@@ -0,0 +1,38 @@
+package sql;
+
+import org.apache.spark.sql.Dataset;
+import org.apache.spark.sql.Row;
+import org.apache.spark.sql.SparkSession;
+import org.jetbrains.annotations.NotNull;
+
+import java.util.ArrayList;
+import java.util.List;
+import java.util.Random;
+
+public class Write {
+
+    public static void main(String[] args) {
+        SparkSession spark = SparkSession
+                .builder()
+                .appName("test")
+                .master("local")
+                .getOrCreate();
+        Dataset<Row> dataFrame = spark.createDataFrame(getData(), Order.class);
+        dataFrame.write().json("output");
+        spark.close();
+    }
+
+    @NotNull
+    private static List<Order> getData() {
+        List<Order> orderList = new ArrayList<>(1000);
+        Random random = new Random();
+        for (int i = 0; i < 1000; i++) {
+            orderList.add(new Order(Integer.toString(i),
+                    Math.abs(random.nextLong() % 10),
+                    Math.abs(random.nextLong() % 100),
+                    Math.abs(random.nextLong() % 10)));
+        }
+        return orderList;
+    }
+
+}