宇宙主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

欧基零壹微头条IP归属甄别会员请立即修改密码
楼主: lsza

见鬼了 汽车之家这什么黑科技,怎么破他防采集

[复制链接]
发表于 2017-3-31 20:12:40 | 显示全部楼层
本帖最后由 东方星雨 于 2017-3-31 20:14 编辑

代码都是自动的,自动的就有规律,整天替换<span class='hs_kw0_mainpl'></span>这一类代码为对应的字符应该就可以了
而hs_kw0_mainpl应该有一个对应的字符表,这个就需要你自己仔细看看研究出来了。
发表于 2017-3-31 21:06:52 | 显示全部楼层
把他的class全部遍历一遍,然后写个判断,遇到XX就和相匹配class的结合就好了
 楼主| 发表于 2017-4-1 16:23:01 | 显示全部楼层
lxvoip 发表于 2017-3-31 13:59
好像是将某些常用字进行了替换

如用  替换成“的”

这个文字是随机变的
 楼主| 发表于 2017-4-1 16:49:30 | 显示全部楼层
东方星雨 发表于 2017-3-31 20:12
代码都是自动的,自动的就有规律,整天替换这一类代码为对应的字符应该就可以了
而hs_kw0_mainpl应该有一个 ...

没有字符表 用的是data:image 随机图...
 楼主| 发表于 2017-4-1 16:52:33 | 显示全部楼层
sora 发表于 2017-3-31 12:23
神经病的防采集, 正则没用, 他很多字词都是用dom的.
只能先了解他每个kw class所代表的字词, 然后替换, 或 ...

研究了下 是用background-image:url(data:image/png;base64 大佬 可有办法破译

点评

不是的, 这个很难, <!--@HS_ZY@--> 之后的js代码是关键. 最讨厌加密加密了. 暂时没能耐. 只能找大神.  发表于 2017-4-1 17:56
发表于 2017-4-2 16:08:45 | 显示全部楼层
可提供付费解决方案,楼上的那些根本就没有仔细去看过加密,说正则和替换的想的太简单了
发表于 2017-4-2 20:20:04 | 显示全部楼层
主要是用图片替换了 的 得 之类的助词,自己发个帖子包含3000个常用字的,然后把被替换的助词做个数组,放到采集替换规则里面去
发表于 2017-4-3 13:58:32 | 显示全部楼层
查无此人 发表于 2017-3-31 13:23
这种规则,小事一桩

大佬啊,帮忙搞个WP的发布模块呗,给你两壶茶水钱
发表于 2017-4-3 14:34:10 | 显示全部楼层
CSS :before 选择器
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|FastFib VPS论坛

GMT+8, 2024-9-20 20:43 , Processed in 0.067788 second(s), 7 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表