爬虫又叫网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。以下是爬虫架构师岗位职责的内容,大家可阅读一下。
1、参与消费大数据的建设,专注于垂直领域数据爬取,进行多平台信息的抓取和分析;
2、对爬虫系统的架构设计与开发;
3、深刻理解爬虫系统架构,能对系统架构提出自己的见解和优化方案;
4、实现数据提取、清洗、结构化、入库、统计分析等需求;
5、建立爬虫监测体系,及时分析及解决爬虫在运行过程中出现的缺陷;
6、研究优化算法,提升爬虫系统的稳定性、可扩展性;
7、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;
8、能独立解决实际开发过程碰到的各类问题。