140 文字
1 分
DockerでWin11上のpyspiderを動かす
Win11で PySpider のインストール中に問題が発生し、複数のエラーが出ました。
公式サイトには Docker を使ったインストール方法があることが分かりました。
Docker で直接
# mysqldocker run --name mysql -d -v /data/mysql:/var/lib/mysql -e MYSQL_ALLOW_EMPTY_PASSWORD=yes mysql:latest# rabbitmqdocker run --name rabbitmq -d rabbitmq:latest
# phantomjsdocker run --name phantomjs -d binux/pyspider:latest phantomjs
# result workerdocker run --name result_worker -m 128m -d --link mysql:mysql --link rabbitmq:rabbitmq binux/pyspider:latest result_worker# processor, run multiple instance if needed.docker run --name processor -m 256m -d --link mysql:mysql --link rabbitmq:rabbitmq binux/pyspider:latest processor# fetcher, run multiple instance if needed.docker run --name fetcher -m 256m -d --link phantomjs:phantomjs --link rabbitmq:rabbitmq binux/pyspider:latest fetcher --no-xmlrpc# schedulerdocker run --name scheduler -d --link mysql:mysql --link rabbitmq:rabbitmq binux/pyspider:latest scheduler# webuidocker run --name webui -m 256m -d -p 5000:5000 --link mysql:mysql --link rabbitmq:rabbitmq --link scheduler:scheduler --link phantomjs:phantomjs binux/pyspider:latest webuiDocker Compose の使用
services: phantomjs: image: binux/pyspider:latest command: phantomjs result: image: binux/pyspider:latest external_links: - mysql - rabbitmq command: result_worker processor: image: binux/pyspider:latest external_links: - mysql - rabbitmq command: processor fetcher: image: binux/pyspider:latest external_links: - rabbitmq links: - phantomjs command : fetcher scheduler: image: binux/pyspider:latest external_links: - mysql - rabbitmq command: scheduler webui: image: binux/pyspider:latest external_links: - mysql - rabbitmq links: - scheduler - phantomjs command: webui ports: - "5000:5000"その後、実行するだけです。
docker-compose up -d
起動に成功した後、もしアクセス http://localhost<5000>5000>/ にアクセスして、以下の内容が表示されれば PySpider の起動に成功したことを示します。

共有
この記事が役に立ったときは、ぜひ他の人に共有してください!
DockerでWin11上のpyspiderを動かす
https://dreaife.tokyo/jp/posts/docker-pyspider-win/ 一部の情報は古い可能性があります
関連した投稿 スマート
1
Pythonクローラー環境構築
spider Pythonクローラー環境の構築には、Python 3、リクエストライブラリ(requests、seleniumなど)、解析ライブラリ(lxml、beautifulsoup4など)、データベース(MySQL、MongoDBなど)、保存用ライブラリ(PyMySQL、PyMongoなど)、Webライブラリ(Flask、Tornadoなど)、アプリクローリング用ツール(mitmproxy、appiumなど)、クローラーフレームワーク(pyspider、scrapyなど)の導入が含まれます。各ライブラリのインストールコマンドと注意点も詳しく説明しています。
2
クローリングの基礎知識
spider クローラーはWebページの情報を取得するための自動化プログラムです。基本原理は、HTTPリクエストを送ってページのソースコードを取得し、必要なデータを抽出して保存することです。WebページはHTML、CSS、JavaScriptで構成されるため、クローラーは静的ページと動的ページの両方に対応する必要があります。セッションやCookieはユーザー状態の維持に使われ、プロキシサーバーは実IPの隠蔽に役立ちます。代表的なリクエストメソッドはGETとPOSTで、レスポンスのステータスコードが結果を示します。クローリング効率を高めるには、適切なヘッダーやプロキシを使い、アンチスクレイピング対策を考慮する必要があります。
3
クローラー基礎ライブラリ学習
spider Pythonのurllibやrequestsを中心に、クローラーの基礎ライブラリを学習します。HTTPリクエストの構築、例外処理、URL解析、正規表現の利用、猫眼映画ランキング情報の抽出方法などを紹介します。さらに、リクエストヘッダー、Cookies、プロキシ設定、セッション維持などの発展的な使い方も強調しています。
4
Docker入門
infra Dockerは、アプリケーションと依存関係を分離されたコンテナにパッケージ化することで、環境差異や依存関係の衝突を避け、マイクロサービスのデプロイ問題を解決する技術です。仮想マシンと比べて起動が速く、リソース使用量も少ないのが特徴です。Dockerのアーキテクチャはイメージとコンテナで構成され、Docker Hubでイメージを共有・取得できます。基本操作にはイメージ/コンテナの作成・管理や、データ永続化とホスト分離のためのボリューム利用が含まれます。Docker Composeを使うと分散アプリケーションのデプロイを簡素化できます。
5
新時代における第一回の選抜
life AI技術の発展に伴い、高度なモデルを利用するコストが社会の階層化を招き、経済力のある人だけがこれらのモデルを使えるようになる可能性がある。現在の価格はまだ許容範囲だが、将来的な値上がりにより大多数が負担できなくなり、第一のふるい分けが生じるかもしれない。筆者はこの現象に不安を覚えつつ、AIの応用がすでにプログラミング領域を超え、より広範な産業へと広がっていることも実感している。新しい世界の課題と機会に向き合いながら、個人は時代の推進力に押されつつ探索を続けている。





