关于某点评网站的字体加密以及 CSS 加密

Andrew说Python爬虫

2020-03-08 18:27
关注

破解大众点评的加密

某网站的店铺列表页以及详情页和评论页的加密不一样

店铺列表页的加密为字体加密,打开网页源代码就可以看到显示的都是 &#x**** 这种类型的数据。

所以只要找到字体文件。在右上角的css 文件点击,就会进入到该 css 文件。

在 css 文件中就找到了这个字体文件,直接访问就可以下载下来。需要主要的每一个 class 对应一个字体文件

可以分别保存到数据库,做相应处理。

使用 FontCreator 打开该字体文件

由于大众点评对相应的 unicode 码进行了处理,所以就只能使用一些识图的 api 或者工具,识别出其中的内容,并保存构造相应的字典。因为大众点评的字体文件会更新,所以建议可以保存到 reids 中,方便处理。

评论抓取

注意:第一页时 URL 不能加 p , 从第二页开始就可以加了。评论需要登录后的 cookies 。

ip 的抓取频率不能太快,或者加上代理 ip

建立 cookie 池

这个具体的大家直接去百度吧。

举报/反馈