从零开始爬取500w(一)----环境搭建 知识

adrootrr 18天前 73

想做个500.com的爬虫。目的是要所有指定日期内的所有比赛的欧洲赔率。入库后通过KNN来进行分析。

既然是从零开始,那么我记录的过程都会非常细,有一些内容太基础就请有能力同学自觉跳过。


爬虫环境的准备:

Anaconda

Anaconda 是一个用于科学计算的 Python 发行版。

官网下载:

https://www.anaconda.com

清华大学的镜像使用方法(不加镜像的话很慢):

https://mirror.tuna.tsinghua.edu.cn/help/anaconda/


Scrapy

一款基于python的爬虫框架。

通过镜像来安装

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy


vsCode  

本来一直用的pycharm,后来发现新版本的vscode现在支持远程开发做的不错。所以选中了这款ide。

下载地址:

https://code.visualstudio.com/

安装中文和python支持。



点击左下角会跳出终端和调试控制台

在终端中输入

创建一个爬虫项目:
scrapy  startproject AdrootSpider

生成一个爬虫:
scrapy genspider 500w 500.com

用Vscode打开你的项目文件夹。会是以下的目录树

未完待续。。。。。下一个文章介绍XPATH

最后于 15天前 被adrootrr编辑 ,原因:
最新回复 (0)
    • 运维开源项目互助社区—致敬开源
      2
        立即登录 立即注册 
返回