dreaife

公告

welcome to my blog

Learn More

标签

dreaife

公告

welcome to my blog

Learn More

站点统计

文章

68

分类

13

标签

56

总字数

236,727

运行天数

0 天

最后活动

0 天前

标签

dreaife

公告

welcome to my blog

Learn More

站点统计

文章

68

分类

13

标签

56

总字数

236,727

运行天数

0 天

最后活动

0 天前

标签

分类

213 字

1 分钟

python爬虫环境配置

2024-01-01

spider

/

环境

/

python

环境配置#

python3/请求库/解析库/数据库/存储库/web库/app爬取库/爬虫框架库

python3
- win11下可以直接商店下载了（
- Linux下apt-get install python3

请求库

requests

pip3 install requests
selenium

pip install selenium
chromeDriver
1. 在关于查看chrome版本
2. 在chromeDriver下载对应版本
3. 将chromeDriver配置到环境变量

~~phantomJS~~

新版selenium已经不支持phantomJS了，可以在chromedriver里面直接使用

验证：

1
from selenium import webdriver
2
from selenium.webdriver.chrome.options import Options
3

4
chrome_options = Options()
5
chrome_options.add_argument('--headless')
6
chrome_options.add_argument('--disable-gpu')
7
driver = webdriver.Chrome(options=chrome_options)
8
driver.get("<https://dreaife.icu/>")
9
print(driver.current_url)

aiohttp

pip install aiodns

解析库
- lxml
  
  pip install lxml
- beautifulsoup4
  
  pip install beautifulsoup4
- pyquery
  
  pip install pyquery
- tesserocr
  - 安装tesseract
    
    windows
  - 安装tesserocr
    
    windows使用pip install <name>.whl安装
  - 验证
    1 import tesserocr 2 from PIL import Image 3 4 image = Image.open('G:/codeS/backOnGithub/Jupyter/spider/image.png') 5 print(tesserocr.image_to_text(image))
    注意：如果出现File “tesserocr.pyx”, line 2580, in tesserocr._tesserocr.image_to_textRuntimeError: Failed to init API, possibly an invalid tessdata path错误，需要先将tesseract的test_data放到错误文件夹下
数据库
- MySQL
- MongoDB
- Redis
存储库
- PyMySQL
  
  pip install pymysql
- PyMongo
  
  pip install pymongo
- redis-py
  
  pip install redis
- RedisDump
  
  安装ruby
  
  gem install redis-dump
web库
- Flask
  
  pip install flask
- Tornado
  
  pip install tornado
app爬取库
- charles
- mitmproxy
  
  pip install mitmproxy
- appium
爬虫框架
- pyspider
  
  pip install pyspider
  
  如果win11无法运行可以看我这篇
- scrapy
- scrapy-splash
- scrapy-redis