宇宙主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

欧基零壹微头条IP归属甄别会员请立即修改密码
查看: 5760|回复: 24

分享下:豆瓣电影、百度网盘的采集思路和源码

[复制链接]
发表于 2016-10-16 22:26:09 | 显示全部楼层 |阅读模式
本帖最后由 cdwyd 于 2016-10-16 22:37 编辑

昨天发了一个帖子(http://www.fastfib.com/thread-334396-1-1.html),说是打算接一些爬虫抓取类的单子,从论坛(发了两个论坛)来了不少朋友加好友,有些朋友对数据感兴趣,不过采集的数据不太适合公开,所以把思路和部分源码分享下吧。

## 豆瓣电影


因为豆瓣电影有api,所有采集豆瓣最方便的方式还是先获取id。豆瓣的电影、图书等id。获取到id后直接调用api抓取就行。豆瓣api有限制,可以使用拨号或者大量代理。

## 百度网盘

百度网盘的主要思路是先获取用户uk,通过uk可以拿到分享列表,然后获取到分享数据。

### UK获取的方式:
        1. 循环抓取用户的粉丝还有用的订阅
        2. 从各个网盘搜索站点抓取
        3. 利用大量关键词从bing搜索,google搜索的结果中提取。
        利用上面三种方法总共抓取了大概500W的有效分享用户

### 失效链接检测
        这个是很多网盘搜索站做的不太好的地方,很多资源都是失效。快速检测失效链接的方法是用head请求判断百度的返回信息就可以知道资源是否有效。用这种方式单台电脑每天能查询1000W左右的资源是否失效。

### 百度的反爬虫策略
        除了限制IP抓取频率外,百度还对同一个UK的最大抓取有限制,超过限制后会随机返回数据。


豆瓣的源码附件中就有,百度的就不发了,主要原因是里面涉及一点百度反爬虫的东西,一旦公开估计很快就会被封。另外豆瓣的抓取源码是最初可用版本,重构后的那一份找不着了。。。写的比较随意,所以见笑见笑。



按照惯例广告最后的应该是广告:有需要数据抓取,爬虫定制、工具开发方面的需求的朋友欢迎联系QQ:2870698831。关于数据,目前确实没打算出售主要还是考虑两个方面一个是影响另一个是公开后可能自己又要去找新的绕过方式,如果感兴趣的朋友比较多,价格合适的话我考虑下统一价格出售给需要的朋友。

还有一点关于接单价格,我给自己定了个原则目前低于200的不做,有些功能可能就几行十几行代码,还希望能理解。200算是一个小小的门槛吧,我不太希望技术变得太过廉价。

Douban.zip

3.12 KB, 下载次数: 682

发表于 2016-10-17 11:50:19 | 显示全部楼层
cdwyd 发表于 2016-10-17 11:48
之前拼过,包括内容也是自动组合的 流量小的谷歌不管,多了就K

如果能呆七八天,那也算可以了,可以赚得不错了
发表于 2016-10-17 11:41:03 | 显示全部楼层
大神,觉得拼凑的tdk,效果会好吗
发表于 2016-10-16 22:36:18 | 显示全部楼层
纯支持一下楼主。
suzizi 该用户已被删除
发表于 2016-10-16 22:38:10 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2016-10-16 22:41:45 | 显示全部楼层
早就有大神做出来了。。。演示  www.rrrys.com
发表于 2016-10-16 23:19:25 来自手机 | 显示全部楼层
大神啊!都是膜拜!!
发表于 2016-10-16 23:24:35 | 显示全部楼层
技术再好,没有思路是不行的,学习lz思路
感谢乐于分享的人
发表于 2016-10-16 23:25:39 | 显示全部楼层
hdwan.net 发表于 2016-10-16 22:41
早就有大神做出来了。。。演示  www.rrrys.com

大神,球带
发表于 2016-10-17 01:13:07 | 显示全部楼层
大神,,,膜拜一下!
另外想问一下,怎么获取豆瓣电影、图书的id呢?谢谢
发表于 2016-10-17 04:30:59 | 显示全部楼层
3人。。。。这域名也是没谁了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|FastFib VPS论坛

GMT+8, 2024-9-20 19:35 , Processed in 0.074710 second(s), 15 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表