mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4
140 文字
1 分
DockerでWin11上のpyspiderを動かす
2024-01-02

Win11で PySpider のインストール中に問題が発生し、複数のエラーが出ました。

公式サイトには Docker を使ったインストール方法があることが分かりました。

Docker で直接#

# mysql
docker run --name mysql -d -v /data/mysql:/var/lib/mysql -e MYSQL_ALLOW_EMPTY_PASSWORD=yes mysql:latest
# rabbitmq
docker run --name rabbitmq -d rabbitmq:latest
# phantomjs
docker run --name phantomjs -d binux/pyspider:latest phantomjs
# result worker
docker run --name result_worker -m 128m -d --link mysql:mysql --link rabbitmq:rabbitmq binux/pyspider:latest result_worker
# processor, run multiple instance if needed.
docker run --name processor -m 256m -d --link mysql:mysql --link rabbitmq:rabbitmq binux/pyspider:latest processor
# fetcher, run multiple instance if needed.
docker run --name fetcher -m 256m -d --link phantomjs:phantomjs --link rabbitmq:rabbitmq binux/pyspider:latest fetcher --no-xmlrpc
# scheduler
docker run --name scheduler -d --link mysql:mysql --link rabbitmq:rabbitmq binux/pyspider:latest scheduler
# webui
docker run --name webui -m 256m -d -p 5000:5000 --link mysql:mysql --link rabbitmq:rabbitmq --link scheduler:scheduler --link phantomjs:phantomjs binux/pyspider:latest webui

Docker Compose の使用#

services:
phantomjs:
image: binux/pyspider:latest
command: phantomjs
result:
image: binux/pyspider:latest
external_links:
- mysql
- rabbitmq
command: result_worker
processor:
image: binux/pyspider:latest
external_links:
- mysql
- rabbitmq
command: processor
fetcher:
image: binux/pyspider:latest
external_links:
- rabbitmq
links:
- phantomjs
command : fetcher
scheduler:
image: binux/pyspider:latest
external_links:
- mysql
- rabbitmq
command: scheduler
webui:
image: binux/pyspider:latest
external_links:
- mysql
- rabbitmq
links:
- scheduler
- phantomjs
command: webui
ports:
- "5000:5000"

その後、実行するだけです。
docker-compose up -d

起動に成功した後、もしアクセス http://localhost<5000>/ にアクセスして、以下の内容が表示されれば PySpider の起動に成功したことを示します。

202401022235683.png

共有

この記事が役に立ったときは、ぜひ他の人に共有してください!

DockerでWin11上のpyspiderを動かす
https://dreaife.tokyo/jp/posts/docker-pyspider-win/
著者
dreaife
公開日
2024-01-02
ライセンス
CC BY-NC-SA 4.0

一部の情報は古い可能性があります

関連した投稿 スマート
1
Pythonクローラー環境構築
spider Pythonクローラー環境の構築には、Python 3、リクエストライブラリ(requests、seleniumなど)、解析ライブラリ(lxml、beautifulsoup4など)、データベース(MySQL、MongoDBなど)、保存用ライブラリ(PyMySQL、PyMongoなど)、Webライブラリ(Flask、Tornadoなど)、アプリクローリング用ツール(mitmproxy、appiumなど)、クローラーフレームワーク(pyspider、scrapyなど)の導入が含まれます。各ライブラリのインストールコマンドと注意点も詳しく説明しています。
2
クローリングの基礎知識
spider クローラーはWebページの情報を取得するための自動化プログラムです。基本原理は、HTTPリクエストを送ってページのソースコードを取得し、必要なデータを抽出して保存することです。WebページはHTML、CSS、JavaScriptで構成されるため、クローラーは静的ページと動的ページの両方に対応する必要があります。セッションやCookieはユーザー状態の維持に使われ、プロキシサーバーは実IPの隠蔽に役立ちます。代表的なリクエストメソッドはGETとPOSTで、レスポンスのステータスコードが結果を示します。クローリング効率を高めるには、適切なヘッダーやプロキシを使い、アンチスクレイピング対策を考慮する必要があります。
3
クローラー基礎ライブラリ学習
spider Pythonのurllibやrequestsを中心に、クローラーの基礎ライブラリを学習します。HTTPリクエストの構築、例外処理、URL解析、正規表現の利用、猫眼映画ランキング情報の抽出方法などを紹介します。さらに、リクエストヘッダー、Cookies、プロキシ設定、セッション維持などの発展的な使い方も強調しています。
4
Docker入門
infra Dockerは、アプリケーションと依存関係を分離されたコンテナにパッケージ化することで、環境差異や依存関係の衝突を避け、マイクロサービスのデプロイ問題を解決する技術です。仮想マシンと比べて起動が速く、リソース使用量も少ないのが特徴です。Dockerのアーキテクチャはイメージとコンテナで構成され、Docker Hubでイメージを共有・取得できます。基本操作にはイメージ/コンテナの作成・管理や、データ永続化とホスト分離のためのボリューム利用が含まれます。Docker Composeを使うと分散アプリケーションのデプロイを簡素化できます。
5
新時代における第一回の選抜
life AI技術の発展に伴い、高度なモデルを利用するコストが社会の階層化を招き、経済力のある人だけがこれらのモデルを使えるようになる可能性がある。現在の価格はまだ許容範囲だが、将来的な値上がりにより大多数が負担できなくなり、第一のふるい分けが生じるかもしれない。筆者はこの現象に不安を覚えつつ、AIの応用がすでにプログラミング領域を超え、より広範な産業へと広がっていることも実感している。新しい世界の課題と機会に向き合いながら、個人は時代の推進力に押されつつ探索を続けている。

目次