沙漠君在历时半年,修改无数bug,更新一票新功能后,在今天隆重推出最新改进的超级爬虫Hawk 2.0!
啥?你不知道Hawk干吗用的? 这是采集数据的挖掘机,网络猎杀的重狙!半年多以前,沙漠君写了一篇小软文,推出了Hawk。关注的人超级多有木有!
Github上的小星星一下子增加到400!超多妹子在沙漠君的粉丝应援团里疯狂崇拜!然而这不是重点!重点是Hawk真的好多"小"问题...
有朋友哭诉,刚启动小鹰它就冒烟了,还是烤肉味的!好不容易把小虫虫做好,碰了一下显示器,结果小虫虫就扑街了!
每次听到反馈,我都超想好好地把小鹰改造一番。但是!!你们想不到沙漠君工作有多忙!只有在洗手间的时候,我才空在手纸上写代码!
然而!自己挖的坑,哭着也要把它填完!这不,Hawk 2.0横空出世了!
二鹰新增哪些特性呢?
每当我在妹子们前炫耀Hawk的时候,每点一次鼠标,妹子们就一片赞叹,对,就这个效果。
裹脚布杀手:全面支持动态页面
二鹰全面支持动态网页,ajax和瀑布流。这是啥?你在刷微博看杨臭脚的时候,浏览器的地址显示你家幂幂的名字了吗? 没有吧?这就是动态网页,地址是隐藏在网页之中的!
怎么办?你只要把随便一条微博的一个关键词输入到“搜索关键字”那里,点“开始”自动嗅探。二鹰就会帮你抓到这个请求。不论再臭再长的裹脚布都不怕。
大家都很喜爱鹰1的“手气不错”功能,但之前只能处理html,而很难处理内嵌js和json, 现在只要你勾选“超级模式”,不论返回的是何种数据类型。直接点“手气不错”,数据表格就完整出来了!其他什么都不用干!
啊啊啊太强大了,理论上没有二鹰抓不到的网站,除非你的关键字实在太蠢,或者网站做得太高级...
反反爬虫:增加代理
诶诶诶,你又被网站封IP了?谁让你这么不温柔?没有关系,在网页采集器里配置代理,小虫虫就又能接着干活了。
我知道你肯定会问,哪里找代理?那沙漠君就不造了。出门淘宝,想免费的话去翻一翻代理网站,或者搜索“ADSL拨号” 。但是不要用Hawk来做任何非法的用途哦(这段好多敏感词,捂脸)
(爬数据适可而止,小心被查水表哦,严肃脸)
120项改进和优化
沙漠君本来在吃着火锅改着代码,但惊讶于Hawk中居然藏了那么多的bug,吓得我火锅里的毛肚都烫老了! 不过话说回来,只有这样你们才会想起我呀~
于是在发布第一版后的三个月,我断断续续修复了大概120个bug,错误清单上面长长的一片:
- 在某些win7机器上运行不了啊
- 开启嗅探再关闭软件,突然上不了网了啦
-
把爬虫转换拖进去没反应啦,其实就是你没配置好...
...
不好意思,根本列不完,列完你也看不完。
不过,优化了这么多,我还是实现了前向兼容,之前大家设计的工程文件都能继续使用。反正不会随随便便就崩溃了。
其实Hawk的子流系统是个超酷的功能,可惜我觉得100个人里有一个会用就不错了。这是个啥呢? 简单说,你可以搭积木,先设计小虫虫,再拼成大虫虫。甚至支持自己和自己拼起来(专业点叫尾递归。邪恶点叫69?啊不要想歪)。
借助子流和内置的Python脚本系统,二鹰能达到图灵完备,实现任意复杂的逻辑,甚至能做刷票!反正口说无凭,你仔细去感受一下就是了。
沙漠君写了完整的文档!
大家最多的反馈,是XXX怎么用啊?泥萌也知道对程序猿来说,写文档就像和产品经理吵架一样痛苦。 我还是咬咬牙,决定写完整的文档!
程序员写文档一般都不是给地球人看的。但是沙漠君忍了。 恩,6个完整的手把手的例子,到每个模块的概要说明,想要的基本都能找到。如果有任何问题,直接在GitHub上留言提问,沙漠君实在受不了一个问题重复回答一百遍啊一百遍!
文档也许现在不全,不过没关系,我会慢慢补充的,总得给我点时间啦。如果还有bug捏?我保证一口老血吐在你的屏幕上! 当然,如果bug够高级,你心爱的沙漠君可能会给你发红包哦。
关于:中科研拓
深圳市中科研拓科技有限公司专注提供软件外包、app开发、智能硬件开发、O2O电商平台、手机应用程序、大数据系统、物联网项目等开发外包服务,通过IT技术实现创造客户和社会的价值,成为优秀的软件公司,通过客户需求导向、开放式创新、卓越运营管理等战略的实施,全面打造公司的核心竞争力。很好软件外包公司、软件开发公司,联系电话400-0316-532,邮箱sales@zhongkerd.com,网址www.zhongkerd.com