performance: 修复 IndexSet 导致的性能问题；增加语言标记

KonghaYao · KonghaYao · commit 16cfd40dabe0 · 2025-03-05T21:07:34.000+08:00
diff --git a/crates/lang_unicodes/src/lib.rs b/crates/lang_unicodes/src/lib.rs
@@ -164,3 +164,39 @@ pub fn create_default_unicode_area() -> [Vec<u32>; 29] {
         NAXI_DONGBA.to_vec(),
     ]
 }
+pub fn create_default_unicode_area_tag() -> [&'static str; 29] {
+    [
+        "LATIN",
+        "LATIN_EXT_A",
+        "LATIN_EXT_B",
+        "GREEK",
+        "CYRILLIC",
+        // 中文处理
+        "ZH_SYMBOL",
+        "ZH_SC",
+        "ZH_TC",
+        // 日文处理
+        "HIRAGANA_AND_KATAKANA",
+        // 韩文处理
+        "HANGUL_JAMO",
+        "HANGUL_SYL",
+        "BENGALI",
+        "ARABIC",
+        "DEVANAGARI",
+        "THAI",
+        "KHMER",
+        "TIBETAN",
+        "MONGOLIAN",
+        "TAI_LUE",
+        "YI",
+        "PHAGS_PA",
+        "LISU",
+        "BUHID",
+        "MIAO",
+        "HANI",
+        "LAHU",
+        "VA",
+        "ZHUANG",
+        "NAXI_DONGBA",
+    ]
+}
diff --git a/src/lib.rs b/src/lib.rs
@@ -40,12 +40,13 @@ fn main_test() {
                 // file_name: Some("input.css".to_string()),
                 ..Default::default()
             }),
-            // chunk_size: Some(40 * 1024),
+            chunk_size: Some(50 * 1024),
             // 精确控制
             // subsets: vec![[65]].iter().map(|x| u32_array_to_u8_array(x)).collect(),
             // language_areas: Some(false),
             // auto_subset: Some(false),
-            // font_feature: Some(false),
+            // subset_remain_chars: Some(false),
+            font_feature: Some(false),
             // reduce_mins: Some(false),
             // rename_output_font: Some("font_[hash:6].[ext]".to_string()),
             ..Default::default()
@@ -72,5 +73,5 @@ fn main_test() {
     }
 
     test_on("./packages/demo/public/SmileySans-Oblique.ttf", "ttf");
-    test_on("./packages/demo/public/SmileySans-Oblique.ttf.woff2", "woff2");
+    // test_on("./packages/demo/public/SmileySans-Oblique.ttf.woff2", "woff2");
 }
diff --git a/src/pre_subset/features.rs b/src/pre_subset/features.rs
@@ -2,15 +2,15 @@ use cmap::analyze_cmap;
 use gpos::analyze_gpos;
 use gsub::analyze_gsub;
 use indexmap::IndexSet;
-use std::collections::HashMap;
+use std::collections::{HashMap, HashSet};
 
 use super::PreSubsetContext;
 pub mod cmap;
 pub mod gpos;
 pub mod gsub;
 pub fn features_plugin(
     subsets: &mut Vec<IndexSet<u32>>,
-    _remaining_chars_set: &mut IndexSet<u32>,
+    _remaining_chars_set: &mut HashSet<u32>,
     ctx: &mut PreSubsetContext,
 ) {
     let cmap = analyze_cmap(ctx.font, ctx.font_file);
diff --git a/src/pre_subset/mod.rs b/src/pre_subset/mod.rs
@@ -16,25 +16,29 @@ use plugin::{
     add_remain_chars_plugin, language_area_plugin, reduce_min_plugin,
 };
 use plugin_auto_subset::plugin_auto_subset;
-use std::io::Cursor;
+use std::{
+    collections::{HashMap, HashSet},
+    io::Cursor,
+};
 
 pub struct PreSubsetContext<'a, 'b, 'c>
 where
     'b: 'a,
     'c: 'a,
 {
-    all_unicodes: IndexSet<u32>,
+    all_unicodes: HashSet<u32>,
     face: &'a mut Owned<Face<'b>>,
     predict_bytes_pre_subset: u32,
     font: &'a opentype::Font,
     font_file: &'a mut Cursor<&'c [u8]>,
     subsets: &'c Vec<Vec<u32>>,
+    used_languages: HashMap<usize, String>,
 }
 
 pub fn pre_subset(ctx: &mut Context) {
     let file_binary = &*ctx.binary;
-    let mut all_unicodes: IndexSet<u32> =
-        IndexSet::from_iter(ctx.face.collect_unicodes());
+    let mut all_unicodes: HashSet<u32> =
+        HashSet::from_iter(ctx.face.collect_unicodes());
 
     let mut font_file = Cursor::new(file_binary);
     let font = opentype::Font::read(&mut font_file)
@@ -54,12 +58,13 @@ pub fn pre_subset(ctx: &mut Context) {
         font: &font,
         subsets: &user_subsets,
         font_file: &mut font_file,
+        used_languages: HashMap::new(),
     };
 
     let mut process: Vec<
         fn(
             &mut Vec<IndexSet<u32>>,
-            &mut IndexSet<u32>,
+            &mut HashSet<u32>,
             &mut PreSubsetContext<'_, '_, '_>,
         ),
     > = vec![];
@@ -82,8 +87,6 @@ pub fn pre_subset(ctx: &mut Context) {
     for p in process {
         p(&mut subsets, &mut all_unicodes, &mut context);
     }
-
-    // let set = analyze_gsub(&font, &mut font_file);
     ctx.pre_subset_result = subsets
         .iter()
         .filter(|v| v.len() > 0)
diff --git a/src/pre_subset/plugin.rs b/src/pre_subset/plugin.rs
@@ -1,47 +1,56 @@
+use std::collections::HashSet;
+
 use indexmap::IndexSet;
 
-use lang_unicodes::create_default_unicode_area;
+use lang_unicodes::{
+    create_default_unicode_area, create_default_unicode_area_tag,
+};
 use log::info;
 
 use super::PreSubsetContext;
 
 pub fn language_area_plugin(
     subsets: &mut Vec<IndexSet<u32>>,
-    remaining_chars_set: &mut IndexSet<u32>,
-    _ctx: &mut PreSubsetContext,
+    remaining_chars_set: &mut HashSet<u32>,
+    ctx: &mut PreSubsetContext,
 ) {
     let language_area = create_default_unicode_area();
-    language_area.iter().for_each(|area| {
-        let set = IndexSet::from_iter(
-            area.iter()
-                .filter(|c| {
-                    let is_in_remain = remaining_chars_set.contains(*c);
-                    // ! 副作用，从剩余字符中删除这个字符
-                    remaining_chars_set.shift_remove(*c);
-                    is_in_remain
-                })
-                .map(|c| c.clone()),
-        );
-        if set.len() > 0 {
-            subsets.push(set);
-        }
-    });
+    let language_area_tag = create_default_unicode_area_tag();
+    language_area.iter().zip(language_area_tag.iter()).enumerate().for_each(
+        |(index, (area, tag))| {
+            let set = IndexSet::from_iter(
+                area.iter()
+                    .filter(|c| {
+                        let is_in_remain = remaining_chars_set.contains(*c);
+                        // ! 副作用，从剩余字符中删除这个字符
+                        remaining_chars_set.remove(*c);
+                        is_in_remain
+                    })
+                    .map(|c| c.clone()),
+            );
+            if set.len() > 0 {
+                ctx.used_languages.insert(index, tag.to_string());
+                // println!("{tag} {}", set.len());
+                subsets.push(set);
+            }
+        },
+    );
 }
 
 pub fn add_remain_chars_plugin(
     subsets: &mut Vec<IndexSet<u32>>,
-    remaining_chars_set: &mut IndexSet<u32>,
+    remaining_chars_set: &mut HashSet<u32>,
     _ctx: &mut PreSubsetContext,
 ) {
     info!("{} 个剩余字符被处理", remaining_chars_set.len());
-    subsets.push(remaining_chars_set.clone());
+    subsets.push(remaining_chars_set.iter().cloned().collect());
     remaining_chars_set.clear();
 }
 
 /// 把数量低于某个值的包，重新规划，缩减碎片分包数
 pub fn reduce_min_plugin(
     subsets: &mut Vec<IndexSet<u32>>,
-    _remaining_chars_set: &mut IndexSet<u32>,
+    _remaining_chars_set: &mut HashSet<u32>,
     _ctx: &mut PreSubsetContext,
 ) {
     // TODO 抽取为定义
diff --git a/src/pre_subset/plugin_add_user_subset.rs b/src/pre_subset/plugin_add_user_subset.rs
@@ -1,17 +1,19 @@
+use std::collections::HashSet;
+
 use super::PreSubsetContext;
 use indexmap::IndexSet;
 
 // 添加用户的 subsets 到第一位
 pub fn plugin_add_user_subset(
     subsets: &mut Vec<IndexSet<u32>>,
-    _remaining_chars_set: &mut IndexSet<u32>,
+    _remaining_chars_set: &mut HashSet<u32>,
     ctx: &mut PreSubsetContext,
 ) {
     ctx.subsets.iter().for_each(|u32_arr: &Vec<u32>| {
         let mut subset: IndexSet<u32> = IndexSet::new();
         u32_arr.iter().for_each(|x| {
             subset.insert(x.clone());
-            _remaining_chars_set.shift_remove(x);
+            _remaining_chars_set.remove(x);
         });
         subsets.push(subset);
     });
diff --git a/src/pre_subset/plugin_auto_subset.rs b/src/pre_subset/plugin_auto_subset.rs
@@ -1,3 +1,5 @@
+use std::collections::{HashMap, HashSet};
+
 use indexmap::IndexSet;
 
 use log::{debug, info};
@@ -8,7 +10,7 @@ use super::PreSubsetContext;
 
 pub fn plugin_auto_subset(
     subsets: &mut Vec<IndexSet<u32>>,
-    _remaining_chars_set: &mut IndexSet<u32>,
+    _remaining_chars_set: &mut HashSet<u32>,
     ctx: &mut PreSubsetContext,
 ) {
     let size = ctx.all_unicodes.len();
@@ -24,22 +26,30 @@ pub fn plugin_auto_subset(
         "predict subset: {}/subset, {} bytes/char, {}(chunk_size)",
         bytes_per_char, chars_per_subset, ctx.predict_bytes_pre_subset
     );
-    let new_subsets = chunk_iterable_and_flat(subsets, chars_per_subset);
+    let mut count: usize = 0;
+    let mut new_used_languages = HashMap::new();
+    let new_subsets = subsets
+        .iter()
+        .enumerate()
+        .flat_map(|(index, subset)| {
+            let res = split_vector(subset, chars_per_subset);
+            if let Some(language) = ctx.used_languages.get(&index) {
+                for _ in 0..res.len() {
+                    new_used_languages.insert(count, language.clone());
+                    count += 1;
+                }
+            }
+            res
+        })
+        .collect::<Vec<IndexSet<u32>>>();
     subsets.clear();
     for i in new_subsets {
         subsets.push(i);
     }
-}
-
-/// 将集合中的每个子集进一步分割成大小不超过 `max_chunk_size` 的更小子集。
-pub fn chunk_iterable_and_flat(
-    subsets: &mut Vec<IndexSet<u32>>,
-    max_chunk_size: u32,
-) -> Vec<IndexSet<u32>> {
-    subsets
-        .iter()
-        .flat_map(|subset| split_vector(subset, max_chunk_size))
-        .collect::<Vec<IndexSet<u32>>>()
+    // new_used_languages.iter().for_each(|(index, name)| {
+    //     info!("subset: {} {} {}", index, name, subsets[*index].len());
+    // });
+    ctx.used_languages = new_used_languages;
 }
 
 // 计算当前包需要容纳多少个字符 y= max_count/ x^(1/3)
@@ -104,28 +114,9 @@ mod tests {
         assert_eq!(result.len(), 4);
     }
 }
-#[test]
-fn for_chunk_iterable_and_flat() {
-    let mut subsets = vec![
-        IndexSet::from([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]),
-        IndexSet::from([11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21]),
-    ];
-    let result = chunk_iterable_and_flat(&mut subsets, 5);
-    assert_eq!(
-        result,
-        vec![
-            IndexSet::from([1, 2, 3, 4]),
-            IndexSet::from([5, 6, 7, 8]),
-            IndexSet::from([9, 10]),
-            IndexSet::from([11, 12, 13, 14]),
-            IndexSet::from([15, 16, 17, 18]),
-            IndexSet::from([19, 20, 21]),
-        ]
-    );
-}
 
 /// 每隔 n 个元素抽取一个元素
-fn extract_every_nth<T: Clone>(set: &IndexSet<T>, n: usize) -> Vec<T> {
+fn extract_every_nth<T: Clone>(set: &HashSet<T>, n: usize) -> Vec<T> {
     // 检查 n 是否有效
     let n = if n == 0 { 1_usize } else { n };
 
@@ -142,7 +133,7 @@ fn extract_every_nth<T: Clone>(set: &IndexSet<T>, n: usize) -> Vec<T> {
 }
 #[test]
 fn main() {
-    let mut set = IndexSet::new();
+    let mut set = HashSet::new();
     set.insert(1);
     set.insert(2);
     set.insert(3);