环境配置
python3/请求库/解析库/数据库/存储库/web库/app爬取库/爬虫框架库
-
python3
- win11下可以直接商店下载了(
- Linux下
apt-get install python3
-
请求库
-
requests
pip3 install requests -
selenium
pip install selenium -
chromeDriver
- 在关于查看chrome版本
- 在chromeDriver下载对应版本
- 将chromeDriver配置到环境变量
-
phantomJS新版selenium已经不支持phantomJS了,可以在chromedriver里面直接使用
验证:
from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_options = Options()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')driver = webdriver.Chrome(options=chrome_options)driver.get("<https://dreaife.icu/>")print(driver.current_url) -
aiohttp
pip install aiodns
-
-
解析库
-
lxml
pip install lxml -
beautifulsoup4
pip install beautifulsoup4 -
pyquery
pip install pyquery -
tesserocr
-
安装tesseract
-
安装tesserocr
windows使用
pip install <name>.whl安装 -
验证
import tesserocrfrom PIL import Imageimage = Image.open('G:/codeS/backOnGithub/Jupyter/spider/image.png')print(tesserocr.image_to_text(image))注意:如果出现File “tesserocr.pyx”, line 2580, in tesserocr._tesserocr.image_to_textRuntimeError: Failed to init API, possibly an invalid tessdata path错误,需要先将tesseract的test_data放到错误文件夹下
-
-
-
数据库
- MySQL
- MongoDB
- Redis
-
存储库
-
PyMySQL
pip install pymysql -
PyMongo
pip install pymongo -
redis-py
pip install redis -
RedisDump
安装ruby
gem install redis-dump
-
-
web库
-
Flask
pip install flask -
Tornado
pip install tornado
-
-
app爬取库
-
charles
-
mitmproxy
pip install mitmproxy -
appium
-
-
爬虫框架
-
pyspider
pip install pyspider如果win11无法运行可以看我这篇
-
scrapy
-
scrapy-splash
-
scrapy-redis
-
Environment Setup
python3/Request libraries/Parsing libraries/Databases/Repositories/Web libraries/App scraping libraries/Web crawler framework libraries
-
Python 3
- Windows 11 can be downloaded directly from the Store
- On Linux,
apt-get install python3
-
Request libraries
-
requests
pip3 install requests -
selenium
pip install selenium -
ChromeDriver
- View the Chrome version in About Chrome
- Download the corresponding version from ChromeDriver
- Add ChromeDriver to your environment variables
-
phantomJSThe new Selenium versions no longer support phantomJS; you can use it directly with ChromeDriver
Verification:
from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_options = Options()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')driver = webdriver.Chrome(options=chrome_options)driver.get("<https://dreaife.icu/>")print(driver.current_url) -
aiohttp
pip install aiodns
-
-
Parsing libraries
-
lxml
pip install lxml -
beautifulsoup4
pip install beautifulsoup4 -
pyquery
pip install pyquery -
tesserocr
-
Install Tesseract
-
Install tesserocr
Windows using
pip install <name>.whl -
Verification
import tesserocrfrom PIL import Imageimage = Image.open('G:/codeS/backOnGithub/Jupyter/spider/image.png')print(tesserocr.image_to_text(image))Note: If you encounter File “tesserocr.pyx”, line 2580, in tesserocr._tesserocr.image_to_textRuntimeError: Failed to init API, possibly an invalid tessdata path error, you need to first put tessdata into the error folder
-
-
-
Databases
- MySQL
- MongoDB
- Redis
-
Repositories
-
PyMySQL
pip install pymysql -
PyMongo
pip install pymongo -
redis-py
pip install redis -
RedisDump
Install Ruby
gem install redis-dump
-
-
Web libraries
-
Flask
pip install flask -
Tornado
pip install tornado
-
-
App scraping libraries
-
Charles
-
mitmproxy
pip install mitmproxy -
Appium
-
-
Web crawling frameworks
-
pyspider
pip install pyspiderIf Windows 11 cannot run it, you can refer to this article
-
scrapy
-
scrapy-splash
-
scrapy-redis
-
環境設定
Python3/リクエストライブラリ/解析ライブラリ/データベース/リポジトリ/ウェブライブラリ/アプリクローリングライブラリ/クローラー用フレームワークライブラリ
-
Python3
- Windows 11 ではストアから直接ダウンロードできます(
- Linux では
apt-get install python3
-
リクエストライブラリ
-
requests
pip3 install requests -
selenium
pip install selenium -
ChromeDriver
- Chrome のバージョンを確認する
- ChromeDriver から対応バージョンをダウンロードする
- ChromeDriver を環境変数へ設定する
-
phantomJS新版 selenium は phantomJS をサポートしていません。ChromeDriver の中で直接使用できます
検証:
from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_options = Options()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')driver = webdriver.Chrome(options=chrome_options)driver.get("<https://dreaife.icu/>")print(driver.current_url) -
aiohttp
pip install aiodns
-
-
解析ライブラリ
-
lxml
pip install lxml -
beautifulsoup4
pip install beautifulsoup4 -
pyquery
pip install pyquery -
tesserocr
-
tesseract のインストール
-
tesserocr のインストール
windowsを使用して
pip install <name>.whlでインストール -
検証
import tesserocrfrom PIL import Imageimage = Image.open('G:/codeS/backOnGithub/Jupyter/spider/image.png')print(tesserocr.image_to_text(image))注意:もし以下のエラーが表示される場合、File “tesserocr.pyx”, line 2580, in tesserocr._tesserocr.image_to_textRuntimeError: Failed to init API, possibly an invalid tessdata path というエラーには、tesseract の test_data をエラーのフォルダへ先に置く必要があります
-
-
-
データベース
- MySQL
- MongoDB
- Redis
-
リポジトリ
-
PyMySQL
pip install pymysql -
PyMongo
pip install pymongo -
redis-py
pip install redis -
RedisDump
Ruby をインストール
gem install redis-dump
-
-
ウェブライブラリ
-
Flask
pip install flask -
Tornado
pip install tornado
-
-
アプリクローリングライブラリ
-
charles
-
mitmproxy
pip install mitmproxy -
appium
-
-
クローラーフレームワーク
-
pyspider
pip install pyspiderWindows11 が動作しない場合はこの記事を参照してください
-
scrapy
-
scrapy-splash
-
scrapy-redis
-
部分信息可能已经过时









