首 页最新软件下载排行文章资讯投稿发布下载专题
维维下载站
您的位置:首页网络软件下载工具 → 豆瓣租房小组爬虫信息采集工具下载v1.13绿色版

豆瓣租房小组爬虫信息采集工具下载v1.13绿色版

平台:Winall 体积:4.72 MB 更新时间:2020-7-8 8:10:00
  • 腾正科技下载
  • 群英网络下载
  • 微子网络下载
  • 豆瓣租房小组爬虫信息采集工具绿色免费版可以说是一款十分好用的专门用来采集豆瓣租房小组信息的采集工具,此工具可以帮助寻找清单的中介者或用户快速找到适合自己的清单,可以进行筛选和过滤,还可以自定义筛选条件,该抓取工具是基于python开发的,基于gevent,pymongo,requests,lxml,Flask,该过程相对简单,配置了需要爬网的URL,配置了需要解析的信息元素,并使用XPATH进行了配置,代理,配置监视周期,最大页面数,并发数等,运行搜寻器,等待搜寻,它将根据配置自动搜寻,启动Web服务,在前台搜索和排序。

    豆瓣租房小组爬虫信息采集工具下载

    使用帮助

    1、下载豆瓣租房小组爬虫信息采集工具解压后运行;

    2、然后设置要找的房源的地址;

    3、然后设置理想价位和排除关键词;

    4、然后点击爬取即可获取房源信息并等待软件获取相关关键词房源;

    5、利用typora软件打开爬取下来的MD文件即可看到房源信息了。

    常见问题

    怎么样设置豆瓣群组链接?

    首先我们搜索某个地区租房,比如:北京租房

    然后点进去要爬取的某个小组,比如第一个:北京租房

    然后将页面拉到最下面有个> 更多小组讨论超链接,并点进去

    复制地址栏中地址(从/group开始复制到结尾),粘贴至软件设置豆瓣群组链接

    有时粘贴进软件会崩溃,不知道什么原因,建议将软件中原来的链接删除后再粘贴进去。

    将start=后边的数字50改成%d

    完成

    怎么样设置排除关键字?

    排除关键字是标题和内容只要出现关键字便会排除掉该条租房信息。

    比如默认是限女这个关键字,只要租房信息中包含了限女生入住,只限女生等出现限女关键字的一律不爬。

    多个关键字用|分隔,注意是英文的。

    比如:限女|短租|整租,这3个关键字设置以后,只要标题和内容出现这3个关键字软件就不会爬取了。

    关于识别标题中的价格

    使用正则\b\d{4}\b识别标题中的价格信息,无法爬取少于1000元的信息。

    关于爬取结果排序

    先根据价格从小到大排序,价格相同根据发帖时间排序。

    相关推荐:
    相关下载
    栏目导航
    本类热门阅览