项目初始化

2024-03-01 17:14:56 +08:00 · 2024-03-01 17:14:56 +08:00 · dfede5f6df
commit dfede5f6df
8 changed files with 99 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,3 @@
 /tmp
 /driver
 *.pyc
--- a/README.MD
+++ b/README.MD
@ -0,0 +1,2 @@
 ### chrome driver 下载地址
 https://googlechromelabs.github.io/chrome-for-testing/#stable
--- a/headless_result.png
+++ b/headless_result.png
--- a/main.py
+++ b/main.py
@ -0,0 +1,38 @@
 from selenium import webdriver
 from selenium.webdriver.support.ui import WebDriverWait
 import time
 import utils
 options = webdriver.ChromeOptions()
 options.add_argument('lang=zh-CN')
 options.add_argument(
    'user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36')
 # options.add_argument('--user-data-dir=./UserData/Google/Chrome/Default')
 options.add_argument('--disable-gpu')  # 如果不加这个选项，有时定位会出现问题
 # options.add_argument('--headless')  # 增加无界面选项
 service = webdriver.ChromeService(r"./driver/chromedriver.exe")
 driver = webdriver.Chrome(service=service,options=options)
 driver.maximize_window()
 # driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
 #     "source": """
 #             Object.defineProperty(navigator, 'webdriver', {
 #               get: () => undefined
 #             })
 #             """
 # })
 with open("./stealth.min.js") as f:
    driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
        "source": f.read()
    })
 driver.get("https://bot.sannysoft.com/")
 time.sleep(5)
 width = driver.execute_script("return document.documentElement.scrollWidth")
 height = driver.execute_script("return document.documentElement.scrollHeight")
 print(width, height)
 utils.screenshot(driver=driver, save_path="./screenshot.png")
 driver.set_window_size(width, height)
 driver.save_screenshot('result.png')
 time.sleep(30)
--- a/result.png
+++ b/result.png
--- a/screenshot.png
+++ b/screenshot.png
--- a/stealth.min.js
+++ b/stealth.min.js
--- a/utils/init.py
+++ b/utils/init.py
@ -0,0 +1,49 @@
 from selenium.webdriver.remote.webdriver import WebDriver
 from selenium.webdriver.common.by import By
 from PIL import Image
 import time
 import os
 _scroll_to_bottom = "window.scroll({top:document.body.clientHeight,left:0,behavior:'auto'});"
 _scroll_to_y = "window.scroll({top:%d,left:0,behavior:'auto'});"
 _tmp_dir = "./tmp"
 _tmp_file = "%s/%%s_%%s.png" % _tmp_dir
 _body = "//body"
 def screenshot(driver:WebDriver, save_path):
    file_name = os.path.basename(save_path)
    if not os.path.exists(_tmp_dir):
        os.mkdir(_tmp_dir)
    tmp_file_list = []
    try:
        tmp_file = _tmp_file % (file_name, 0)
        driver.save_screenshot(tmp_file)
        tmp_file_list.append(tmp_file)
        body_h = driver.execute_script("return document.documentElement.scrollHeight")
        current_h = driver.execute_script("return document.documentElement.clientHeight")
        for i in range(1, int(body_h / current_h)):
            driver.execute_script(_scroll_to_y % (current_h * i))
            time.sleep(0.2)
            driver.save_screenshot(_tmp_file % (file_name, i))
            tmp_file_list.append(_tmp_file % (file_name, i))
            merge_images(tmp_file, _tmp_file % (file_name, i), tmp_file)
        driver.execute_script(_scroll_to_bottom)
        end_file = _tmp_file % (file_name, "bottom")
        driver.save_screenshot(end_file)
        tmp_file_list.append(end_file)
        merge_images(tmp_file, end_file,save_path,int(current_h - int(body_h % current_h)))
    finally:
        # 删除临时文件
        for tmp in tmp_file_list:
            os.remove(tmp)
 def merge_images(image1: str, image2: str,output: str,overlap_size=0):
    size = overlap_size * 2
    img1,img2 = Image.open(image1), Image.open(image2)
    size1, size2 = img1.size, img2.size
    merge = Image.new("RGB", (size1[0], size1[1] + size2[1] - size))
    loc1, loc2 = (0, 0), (0, size1[1] - size)
    merge.paste(img1, loc1)
    merge.paste(img2, loc2)
    merge.save(output)
		`@ -0,0 +1,2 @@`
							`### chrome driver 下载地址`
							`https://googlechromelabs.github.io/chrome-for-testing/#stable`