winNo4 parser fixed, backup json file added

linbeta · linbeta · commit e67fb144f10d · 2021-11-02T17:29:31.000+08:00
diff --git a/search.py b/search.py
@@ -2,38 +2,38 @@
 這個檔案留個紀錄而已，第一版用來爬中籤號碼的code，
 後來覺得用selenium爬運算太慢，也擔心放上GCP要跑會有問題，所以後來寫了search_v2
 '''
-from bs4 import BeautifulSoup as bs
-from selenium import webdriver
+# from bs4 import BeautifulSoup as bs
+# from selenium import webdriver
 
-PATH = "/chromedriver.exe"
+# PATH = "chromedriver.exe"
 
-url = "https://vhpi.5000.gov.tw/"
+# url = "https://vhpi.5000.gov.tw/"
 
 # 先用selenium取得的網頁原始碼，丟進bs裡做成湯
-driver = webdriver.Chrome(PATH)
-driver.get(url)
+# driver = webdriver.Chrome(PATH)
+# driver.get(url)
 
-source = bs(driver.page_source, "html.parser")
-driver.close()
+# source = bs(driver.page_source, "html.parser")
+# driver.close()
 
 
 # 定義取得中獎號碼list的function
-def get_draw_nums(css_id):
-    target_lis = source.select_one(css_id).find_all("li")
-    win_nums = []
-    for i in target_lis:
-        win_nums.append(i.text)
-    return win_nums
+# def get_draw_nums(css_id):
+#     target_lis = source.select_one(css_id).find_all("li")
+#     win_nums = []
+#     for i in target_lis:
+#         win_nums.append(i.text)
+#     return win_nums
 
 
 # 從網頁原始碼中抓出8種券的css id
-css_id_list = ["#domesticTravel", "#iYuan", "#agriculture", "#artFunE",
-               "#artFunP", "#sports", "#hakka", "#rgionalRevitalization"]
-
-newest = {}
-for n, item in enumerate(css_id_list):
-    newest[item[1::]] = get_draw_nums(css_id_list[n])
-print(newest)
+# css_id_list = ["#domesticTravel", "#iYuan", "#agriculture", "#artFunE",
+#                "#artFunP", "#sports", "#hakka", "#rgionalRevitalization"]
+#
+# newest = {}
+# for n, item in enumerate(css_id_list):
+#     newest[item[1::]] = get_draw_nums(css_id_list[n])
+# print(newest)
 
 # TODO: 用selenium怕無法上雲端，資料其實都存在<footer>底下的script tag裡了，改抓那裡的資料處理string來分析
 # TODO: 將week_1資料存進資料庫，這樣如有新增資料只需要刷過一次就可以了
diff --git a/search_v2.py b/search_v2.py
@@ -28,13 +28,16 @@
     winNo3 = ast.literal_eval(winNo3_str)
     # print(winNo3)
 
-
     # 第四周中獎號碼：winNo4 (注意這種string的切法後面要切乾淨，丟進ast.literal_eval時才能做出正確的dictionary
-    winNo4_str = script[3].split("\n\n        window.")[0].split(" = ")[1]
+    winNo4_str = script[3].split("\n\n        window.")[0].split(" = ")[1].split(";")[0]
     winNo4 = ast.literal_eval(winNo4_str)
     # print(winNo4)
+    # print result for json file
+    # print(winNo4_str.replace("'", '"'))
+
 except:
     # 如果官網原始資料有異動而出錯，直接挖備援檔案winNo.json裡的資料來用
+    print("failed")
     with open("winNo.json", "r") as backup_data:
         data = json.load(backup_data)
         winNo1 = data["winNo1"]
diff --git a/winNo.json b/winNo.json
@@ -199,5 +199,7 @@
     ],
     "rgionalRevitalization": ["771","706","064","168","191","459","135","314","366"]
   },
-  "winNo4": {}
+  "winNo4": {"domesticTravel": ["32", "02", "87", "93", "82", "17"],
+            "iYuan": ["29", "82" , "71"]
+  }
 }

Original file line number	Diff line number	Diff line change
`@@ -199,5 +199,7 @@`
`199`	`199`	`],`
`200`	`200`	`"rgionalRevitalization": ["771","706","064","168","191","459","135","314","366"]`
`201`	`201`	`},`
`202`		`- "winNo4": {}`
	`202`	`+ "winNo4": {"domesticTravel": ["32", "02", "87", "93", "82", "17"],`
	`203`	`+ "iYuan": ["29", "82" , "71"]`
	`204`	`+ }`
`203`	`205`	`}`