爬虫又叫网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。以下是爬虫架构师职业要求的内容,大家可阅读一下。
1、全日制本科及以上,5年以上python/java开发经验,3年以上数据抓取工作经验;
2、精通使用分布式基本知识,设计与开发爬虫系统架构;
3、精通使用爬虫相关技术,如:python,scrapy,selenium,xpath,正则表达式但不限于以上技术等,有app研发背景或app爬虫开发经验佳,有逆向经验尤佳;
4、精通高并发、高性能的分布式系统的设计及应用,熟悉常用数据存储,各种数据处理技术优先;
5、能够解决封账号、封IP采集等问题,解决网页抓取、信息抽取等问题,构建完善的网络信息收集平台;
6、熟悉Linux常用命令,独立完成日常部署更新等;
7、具备较强的团队协作精神,工作责任心强,良好的沟通、理解、执行能力。