dreaife

お知らせ

welcome to my blog

Learn More

タグ

dreaife

お知らせ

welcome to my blog

Learn More

統計情報

投稿

71

カテゴリー

13

タグ

58

文字数の合計

329,725

稼働日数

0 日

最終更新

0 日前

タグ

dreaife

お知らせ

welcome to my blog

Learn More

統計情報

投稿

71

カテゴリー

13

タグ

58

文字数の合計

329,725

稼働日数

0 日

最終更新

0 日前

タグ

カテゴリー

397 文字

1 分

Pythonクローラー環境構築

2024-01-01

spider

/

环境

/

python

環境設定#

Python3/リクエストライブラリ/解析ライブラリ/データベース/リポジトリ/ウェブライブラリ/アプリクローリングライブラリ/クローラー用フレームワークライブラリ

Python3
- Windows 11 ではストアから直接ダウンロードできます（
- Linux ではapt-get install python3
リクエストライブラリ
- requests
  
  pip3 install requests
- selenium
  
  pip install selenium
- ChromeDriver
  1. Chrome のバージョンを確認する
  2. ChromeDriver から対応バージョンをダウンロードする
  3. ChromeDriver を環境変数へ設定する
- ~~phantomJS~~
  
  新版 selenium は phantomJS をサポートしていません。ChromeDriver の中で直接使用できます
  
  検証：
```
1
from selenium import webdriver
2
from selenium.webdriver.chrome.options import Options
3

4
chrome_options = Options()
5
chrome_options.add_argument('--headless')
6
chrome_options.add_argument('--disable-gpu')
7
driver = webdriver.Chrome(options=chrome_options)
8
driver.get("<https://dreaife.icu/>")
9
print(driver.current_url)
```
- aiohttp
  
  pip install aiodns
解析ライブラリ
- lxml
  
  pip install lxml
- beautifulsoup4
  
  pip install beautifulsoup4
- pyquery
  
  pip install pyquery
- tesserocr
  - tesseract のインストール
    
    windows
  - tesserocr のインストール
    
    windowsを使用してpip install <name>.whlでインストール
  - 検証
    1 import tesserocr 2 from PIL import Image 3 4 image = Image.open('G:/codeS/backOnGithub/Jupyter/spider/image.png') 5 print(tesserocr.image_to_text(image))
    注意：もし以下のエラーが表示される場合、File “tesserocr.pyx”, line 2580, in tesserocr._tesserocr.image_to_textRuntimeError: Failed to init API, possibly an invalid tessdata path というエラーには、tesseract の test_data をエラーのフォルダへ先に置く必要があります
データベース
- MySQL
- MongoDB
- Redis
リポジトリ
- PyMySQL
  
  pip install pymysql
- PyMongo
  
  pip install pymongo
- redis-py
  
  pip install redis
- RedisDump
  
  Ruby をインストール
  
  gem install redis-dump
ウェブライブラリ
- Flask
  
  pip install flask
- Tornado
  
  pip install tornado
アプリクローリングライブラリ
- charles
- mitmproxy
  
  pip install mitmproxy
- appium
クローラーフレームワーク
- pyspider
  
  pip install pyspider
  
  Windows11 が動作しない場合はこの記事を参照してください
- scrapy
- scrapy-splash
- scrapy-redis