環境設定
Python3/リクエストライブラリ/解析ライブラリ/データベース/リポジトリ/ウェブライブラリ/アプリクローリングライブラリ/クローラー用フレームワークライブラリ
-
Python3
- Windows 11 ではストアから直接ダウンロードできます(
- Linux では
apt-get install python3
-
リクエストライブラリ
-
requests
pip3 install requests -
selenium
pip install selenium -
ChromeDriver
- Chrome のバージョンを確認する
- ChromeDriver から対応バージョンをダウンロードする
- ChromeDriver を環境変数へ設定する
-
phantomJS新版 selenium は phantomJS をサポートしていません。ChromeDriver の中で直接使用できます
検証:
from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_options = Options()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')driver = webdriver.Chrome(options=chrome_options)driver.get("<https://dreaife.icu/>")print(driver.current_url) -
aiohttp
pip install aiodns
-
-
解析ライブラリ
-
lxml
pip install lxml -
beautifulsoup4
pip install beautifulsoup4 -
pyquery
pip install pyquery -
tesserocr
-
tesseract のインストール
-
tesserocr のインストール
windowsを使用して
pip install <name>.whlでインストール -
検証
import tesserocrfrom PIL import Imageimage = Image.open('G:/codeS/backOnGithub/Jupyter/spider/image.png')print(tesserocr.image_to_text(image))注意:もし以下のエラーが表示される場合、File “tesserocr.pyx”, line 2580, in tesserocr._tesserocr.image_to_textRuntimeError: Failed to init API, possibly an invalid tessdata path というエラーには、tesseract の test_data をエラーのフォルダへ先に置く必要があります
-
-
-
データベース
- MySQL
- MongoDB
- Redis
-
リポジトリ
-
PyMySQL
pip install pymysql -
PyMongo
pip install pymongo -
redis-py
pip install redis -
RedisDump
Ruby をインストール
gem install redis-dump
-
-
ウェブライブラリ
-
Flask
pip install flask -
Tornado
pip install tornado
-
-
アプリクローリングライブラリ
-
charles
-
mitmproxy
pip install mitmproxy -
appium
-
-
クローラーフレームワーク
-
pyspider
pip install pyspiderWindows11 が動作しない場合はこの記事を参照してください
-
scrapy
-
scrapy-splash
-
scrapy-redis
-
この記事が役に立ったときは、ぜひ他の人に共有してください!
一部の情報は古い可能性があります





