恒生聚源欢迎最新从事过爬虫开发工程师等行业的优秀人才加入我们,上海恒生聚源数据服务有限公司将为您提供广阔的发展平台!
岗位职责:
1.负责公司数据源抓取需求,满足公司对多源数据采集要求;
2.负责开发分布式爬虫框架,管理分布式爬虫服务器,开发任务调度引擎;
3.负责爬虫核心算法的策略优化研究,提升爬虫抓取效率和质量,提升网页抓取的效率和质量;
4.设计爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、JS加密等难点攻克;
5.利用主流的大数据相关技术,对抓取后的网页数据进行清洗、存储等;并持续优化平台,以便满足各种爬取业务需求。
任职要求:
1.本科及以上学历,计算机相关专业,3年及以上工作经验;
2.熟悉Python/C#/Java语言中的一种,至少3年相关的开发经验
3.有Python分布式抓取系统的开发、架构经验,至少熟悉并使用过一种主流爬虫架构,如Scrapy、Gocolly、Webmagic等优先;
4.熟悉前端页面技术,如html、js、ajax等;
5.有海量数据爬取、解析、清洗、存储相关项目经验;
6.熟悉网页抓取原理及技术,能够总结分析不同网站,网页的结构特点及规律;
7.熟悉反爬策略的应对,能够解决封账号、封IP、验证码、JS加密等问题;
8.熟悉Linux系统环境;
9.熟悉Mysql、Redis、MongoDB等数据库,有过数据库调优和海量数据存储经验者优先。
五险一金 员工旅游 定期体检 股票期权 年终奖金 餐饮补贴