mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4
213 字
1 分钟
python爬虫环境配置
2024-01-01

环境配置#

python3/请求库/解析库/数据库/存储库/web库/app爬取库/爬虫框架库

  • python3

    • win11下可以直接商店下载了(
    • Linux下apt-get install python3
  • 请求库

    • requests

      pip3 install requests

    • selenium

      pip install selenium

    • chromeDriver

      1. 在关于查看chrome版本
      2. chromeDriver下载对应版本
      3. 将chromeDriver配置到环境变量
    • phantomJS

      新版selenium已经不支持phantomJS了,可以在chromedriver里面直接使用

      验证:

      from selenium import webdriver
      from selenium.webdriver.chrome.options import Options
      chrome_options = Options()
      chrome_options.add_argument('--headless')
      chrome_options.add_argument('--disable-gpu')
      driver = webdriver.Chrome(options=chrome_options)
      driver.get("<https://dreaife.icu/>")
      print(driver.current_url)
    • aiohttp

      pip install aiodns

  • 解析库

    • lxml

      pip install lxml

    • beautifulsoup4

      pip install beautifulsoup4

    • pyquery

      pip install pyquery

    • tesserocr

      • 安装tesseract

        windows

      • 安装tesserocr

        windows使用pip install <name>.whl安装

      • 验证

        202401011649852.png

        import tesserocr
        from PIL import Image
        image = Image.open('G:/codeS/backOnGithub/Jupyter/spider/image.png')
        print(tesserocr.image_to_text(image))

        注意:如果出现File “tesserocr.pyx”, line 2580, in tesserocr._tesserocr.image_to_textRuntimeError: Failed to init API, possibly an invalid tessdata path错误,需要先将tesseract的test_data放到错误文件夹下

  • 数据库

    • MySQL
    • MongoDB
    • Redis
  • 存储库

    • PyMySQL

      pip install pymysql

    • PyMongo

      pip install pymongo

    • redis-py

      pip install redis

    • RedisDump

      安装ruby

      gem install redis-dump

  • web库

    • Flask

      pip install flask

    • Tornado

      pip install tornado

  • app爬取库

    • charles

    • mitmproxy

      pip install mitmproxy

    • appium

  • 爬虫框架

    • pyspider

      pip install pyspider

      如果win11无法运行可以看我这篇

    • scrapy

    • scrapy-splash

    • scrapy-redis

分享

如果这篇文章对你有帮助,欢迎分享给更多人!

python爬虫环境配置
https://dreaife.tokyo/cn/python-env-setup/
作者
dreaife
发布于
2024-01-01
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时

相关文章 智能推荐
1
爬虫基础知识
spider 爬虫是自动化程序,用于获取网页信息。基本原理包括发送HTTP请求获取网页源代码,提取所需数据,并将其保存。网页由HTML、CSS和JavaScript构成,爬虫需处理静态和动态网页。会话和Cookies用于维持用户状态,代理服务器可隐藏真实IP以防止被封锁。常用的请求方法有GET和POST,响应状态码指示请求结果。爬虫需遵循反爬虫策略,使用代理和适当的请求头以提高抓取效率。
2
spider基础库学习
spider 学习爬虫基础库,包括Python的urllib和requests库的使用。介绍了HTTP请求的构造、异常处理、URL解析、正则表达式的应用,以及如何提取猫眼电影排行榜的信息。强调了请求头、Cookies、代理设置和会话维持等高级用法。
3
基于docker在win11运行pyspider
spider 在Win11中使用pyspider时遇到安装问题,可以通过Docker进行安装。提供了使用Docker命令和docker-compose的示例,成功运行后可以通过访问http://localhost:5000/确认pyspider是否正常工作。
4
pandas基础使用
cs-base Pandas是一个基于Python的开源数据分析库,提供了DataFrame和Series两种主要数据结构,适用于处理结构化数据。它支持数据清洗、转换、分析和可视化。安装Pandas后,可以通过简单的代码创建和操作Series和DataFrame,包括基本操作、数据过滤和属性获取。此外,Pandas还支持CSV和JSON文件的读取与处理,并提供数据清洗功能,如处理空值和重复数据。
5
scipy基础使用学习
cs-base SciPy是基于NumPy的开源Python库,广泛应用于数学、科学和工程领域,提供优化、线性代数、积分、插值等功能。安装方法包括使用pip命令,且可通过模块如scipy.optimize和scipy.sparse处理优化和稀疏矩阵。SciPy还支持图结构和空间数据处理,提供多种距离计算方法,并能与Matlab交互,执行显著性检验和统计分析。

目录