mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4
397 文字
1 分
Pythonクローラー環境構築
2024-01-01

環境設定#

Python3/リクエストライブラリ/解析ライブラリ/データベース/リポジトリ/ウェブライブラリ/アプリクローリングライブラリ/クローラー用フレームワークライブラリ

  • Python3

    • Windows 11 ではストアから直接ダウンロードできます(
    • Linux ではapt-get install python3
  • リクエストライブラリ

    • requests

      pip3 install requests

    • selenium

      pip install selenium

    • ChromeDriver

      1. Chrome のバージョンを確認する
      2. ChromeDriver から対応バージョンをダウンロードする
      3. ChromeDriver を環境変数へ設定する
    • phantomJS

      新版 selenium は phantomJS をサポートしていません。ChromeDriver の中で直接使用できます

      検証:

      from selenium import webdriver
      from selenium.webdriver.chrome.options import Options
      chrome_options = Options()
      chrome_options.add_argument('--headless')
      chrome_options.add_argument('--disable-gpu')
      driver = webdriver.Chrome(options=chrome_options)
      driver.get("<https://dreaife.icu/>")
      print(driver.current_url)
    • aiohttp

      pip install aiodns

  • 解析ライブラリ

    • lxml

      pip install lxml

    • beautifulsoup4

      pip install beautifulsoup4

    • pyquery

      pip install pyquery

    • tesserocr

      • tesseract のインストール

        windows

      • tesserocr のインストール

        windowsを使用してpip install <name>.whlでインストール

      • 検証

        202401011649852.png

        import tesserocr
        from PIL import Image
        image = Image.open('G:/codeS/backOnGithub/Jupyter/spider/image.png')
        print(tesserocr.image_to_text(image))

        注意:もし以下のエラーが表示される場合、File “tesserocr.pyx”, line 2580, in tesserocr._tesserocr.image_to_textRuntimeError: Failed to init API, possibly an invalid tessdata path というエラーには、tesseract の test_data をエラーのフォルダへ先に置く必要があります

  • データベース

    • MySQL
    • MongoDB
    • Redis
  • リポジトリ

    • PyMySQL

      pip install pymysql

    • PyMongo

      pip install pymongo

    • redis-py

      pip install redis

    • RedisDump

      Ruby をインストール

      gem install redis-dump

  • ウェブライブラリ

    • Flask

      pip install flask

    • Tornado

      pip install tornado

  • アプリクローリングライブラリ

    • charles

    • mitmproxy

      pip install mitmproxy

    • appium

  • クローラーフレームワーク

    • pyspider

      pip install pyspider

      Windows11 が動作しない場合はこの記事を参照してください

    • scrapy

    • scrapy-splash

    • scrapy-redis

共有

この記事が役に立ったときは、ぜひ他の人に共有してください!

Pythonクローラー環境構築
https://dreaife.tokyo/jp/posts/python-env-setup/
著者
dreaife
公開日
2024-01-01
ライセンス
CC BY-NC-SA 4.0

一部の情報は古い可能性があります

関連した投稿 スマート
1
クローラー基礎ライブラリ学習
spider Pythonのurllibやrequestsを中心に、クローラーの基礎ライブラリを学習します。HTTPリクエストの構築、例外処理、URL解析、正規表現の利用、猫眼映画ランキング情報の抽出方法などを紹介します。さらに、リクエストヘッダー、Cookies、プロキシ設定、セッション維持などの発展的な使い方も強調しています。
2
クローリングの基礎知識
spider クローラーはWebページの情報を取得するための自動化プログラムです。基本原理は、HTTPリクエストを送ってページのソースコードを取得し、必要なデータを抽出して保存することです。WebページはHTML、CSS、JavaScriptで構成されるため、クローラーは静的ページと動的ページの両方に対応する必要があります。セッションやCookieはユーザー状態の維持に使われ、プロキシサーバーは実IPの隠蔽に役立ちます。代表的なリクエストメソッドはGETとPOSTで、レスポンスのステータスコードが結果を示します。クローリング効率を高めるには、適切なヘッダーやプロキシを使い、アンチスクレイピング対策を考慮する必要があります。
3
DockerでWin11上のpyspiderを動かす
spider Win11でpyspiderを使う際にインストール問題が発生した場合、Dockerを使って導入できます。Dockerコマンドとdocker-composeの使用例を示し、起動後は http://localhost:5000/ にアクセスしてpyspiderが正常に動作しているか確認できます。
4
Pandas基礎使用
cs-base PandasはPythonベースのオープンソースデータ分析ライブラリで、構造化データの処理に適したDataFrameとSeriesという2つの主要データ構造を提供します。データのクリーニング、変換、分析、可視化をサポートします。Pandasをインストールすると、簡単なコードでSeriesやDataFrameを作成・操作でき、基本操作、データフィルタリング、属性取得などを行えます。さらに、CSVやJSONファイルの読み込みと処理、欠損値や重複データの処理といったデータクレンジング機能も備えています。
5
NumPy学習ノート1
cs-base NumPyは、多次元配列や行列演算をサポートし、豊富な数学関数を提供するPython拡張ライブラリです。主な特徴には、強力なndarrayオブジェクト、ブロードキャスト機能、C/C++/Fortranとの統合があります。NumPyはSciPyやMatplotlibと併用されることが多く、強力な科学計算環境を構成します。pipでインストール可能で、多様なデータ型に対応し、スライス、インデックス、ブロードキャストを含む豊富な配列生成・操作機能を備えています。

目次