desktop wallpaper 1

desktop wallpaper 2

desktop wallpaper 3

desktop wallpaper 4

mobile wallpaper 1

mobile wallpaper 2

mobile wallpaper 3

mobile wallpaper 4

dreaife

お知らせ

welcome to my blog

タグ

dreaife

お知らせ

welcome to my blog

統計情報

投稿

71

カテゴリー

13

タグ

58

文字数の合計

329,725

稼働日数

0 日

最終更新

0 日前

タグ

dreaife

お知らせ

welcome to my blog

統計情報

投稿

71

カテゴリー

13

タグ

58

文字数の合計

329,725

稼働日数

0 日

最終更新

0 日前

タグ

カテゴリー

カテゴリー

カテゴリー

140 文字

1 分

DockerでWin11上のpyspiderを動かす

2024-01-02

/

/

Win11で PySpider のインストール中に問題が発生し、複数のエラーが出ました。

公式サイトには Docker を使ったインストール方法があることが分かりました。

Docker で直接#

1
# mysql
2
docker run --name mysql -d -v /data/mysql:/var/lib/mysql -e MYSQL_ALLOW_EMPTY_PASSWORD=yes mysql:latest
3
# rabbitmq
4
docker run --name rabbitmq -d rabbitmq:latest
5

6
# phantomjs
7
docker run --name phantomjs -d binux/pyspider:latest phantomjs
8

9
# result worker
10
docker run --name result_worker -m 128m -d --link mysql:mysql --link rabbitmq:rabbitmq binux/pyspider:latest result_worker
11
# processor, run multiple instance if needed.
12
docker run --name processor -m 256m -d --link mysql:mysql --link rabbitmq:rabbitmq binux/pyspider:latest processor
13
# fetcher, run multiple instance if needed.
14
docker run --name fetcher -m 256m -d --link phantomjs:phantomjs --link rabbitmq:rabbitmq binux/pyspider:latest fetcher --no-xmlrpc
15
# scheduler
16
docker run --name scheduler -d --link mysql:mysql --link rabbitmq:rabbitmq binux/pyspider:latest scheduler
17
# webui
18
docker run --name webui -m 256m -d -p 5000:5000 --link mysql:mysql --link rabbitmq:rabbitmq --link scheduler:scheduler --link phantomjs:phantomjs binux/pyspider:latest webui

Docker Compose の使用#

1
services:
2
  phantomjs:
3
    image: binux/pyspider:latest
4
    command: phantomjs
5
  result:
6
    image: binux/pyspider:latest
7
    external_links:
8
      - mysql
9
      - rabbitmq
10
    command: result_worker
11
  processor:
12
    image: binux/pyspider:latest
13
    external_links:
14
      - mysql
15
      - rabbitmq
16
    command: processor
17
  fetcher:
18
    image: binux/pyspider:latest
19
    external_links:
20
      - rabbitmq
21
    links:
22
      - phantomjs
23
    command : fetcher
24
  scheduler:
25
    image: binux/pyspider:latest
26
    external_links:
27
      - mysql
28
      - rabbitmq
29
    command: scheduler
30
  webui:
31
    image: binux/pyspider:latest
32
    external_links:
33
      - mysql
34
      - rabbitmq
35
    links:
36
      - scheduler
37
      - phantomjs
38
    command: webui
39
    ports:
40
      - "5000:5000"

その後、実行するだけです。
docker-compose up -d

起動に成功した後、もしアクセス http://localhost<5000>/ にアクセスして、以下の内容が表示されれば PySpider の起動に成功したことを示します。

共有

この記事が役に立ったときは、ぜひ他の人に共有してください!

DockerでWin11上のpyspiderを動かす

https://dreaife.tokyo/jp/posts/docker-pyspider-win/

著者

dreaife

公開日

2024-01-02

ライセンス

CC BY-NC-SA 4.0

一部の情報は古い可能性があります

NumPy学習ノート1

Pandas基礎使用

関連した投稿スマート

Pythonクローラー環境構築

spider Pythonクローラー環境の構築には、Python 3、リクエストライブラリ（requests、seleniumなど）、解析ライブラリ（lxml、beautifulsoup4など）、データベース（MySQL、MongoDBなど）、保存用ライブラリ（PyMySQL、PyMongoなど）、Webライブラリ（Flask、Tornadoなど）、アプリクローリング用ツール（mitmproxy、appiumなど）、クローラーフレームワーク（pyspider、scrapyなど）の導入が含まれます。各ライブラリのインストールコマンドと注意点も詳しく説明しています。

クローリングの基礎知識

spider クローラーはWebページの情報を取得するための自動化プログラムです。基本原理は、HTTPリクエストを送ってページのソースコードを取得し、必要なデータを抽出して保存することです。WebページはHTML、CSS、JavaScriptで構成されるため、クローラーは静的ページと動的ページの両方に対応する必要があります。セッションやCookieはユーザー状態の維持に使われ、プロキシサーバーは実IPの隠蔽に役立ちます。代表的なリクエストメソッドはGETとPOSTで、レスポンスのステータスコードが結果を示します。クローリング効率を高めるには、適切なヘッダーやプロキシを使い、アンチスクレイピング対策を考慮する必要があります。

クローラー基礎ライブラリ学習

spider Pythonのurllibやrequestsを中心に、クローラーの基礎ライブラリを学習します。HTTPリクエストの構築、例外処理、URL解析、正規表現の利用、猫眼映画ランキング情報の抽出方法などを紹介します。さらに、リクエストヘッダー、Cookies、プロキシ設定、セッション維持などの発展的な使い方も強調しています。

infra Dockerは、アプリケーションと依存関係を分離されたコンテナにパッケージ化することで、環境差異や依存関係の衝突を避け、マイクロサービスのデプロイ問題を解決する技術です。仮想マシンと比べて起動が速く、リソース使用量も少ないのが特徴です。Dockerのアーキテクチャはイメージとコンテナで構成され、Docker Hubでイメージを共有・取得できます。基本操作にはイメージ/コンテナの作成・管理や、データ永続化とホスト分離のためのボリューム利用が含まれます。Docker Composeを使うと分散アプリケーションのデプロイを簡素化できます。

EOA向けのEVMウォレットログイン画面

WEB3 EVM/EOAウォレットログインの実装例をもとに、connect wallet、SIWE形式メッセージ、wagmi署名、nonce、バックエンド検証を整理し、アドレス接続と署名による所有権証明を分ける理由を解説します。

ランダムな投稿ランダム

アルゴリズム学習：前計算和・差分・双方向ポインタ

algorithm 2022-07-16

Ubuntuでoh-my-zshとそのコンポーネントを導入する

prog-side 2024-12-03

Pythonクローラー環境構築

spider 2024-01-01

実験4 TCPプロトコル分析

cs-base 2022-07-01

psycho 2026-03-05

目次