可可簡歷網

位置:首頁 > 職責 > 工程師職責

爬蟲工程師崗位職責

爬蟲工程師是做什麼的?本文提供爬蟲工程師的崗位職責例子,包括詳細的工作內容及任職要求。

崗位職責

爬蟲工程師崗位職責

1. 負責設計和開發分散式的網路爬蟲,參與各種核心搜尋策略、演算法、資料聚類、重組的設計與開發;

2. 負責網頁資訊抽取技術演算法的研究和開發,提升網頁抓取的效率和質量;

3. 計算機軟體及相關專業有1年以上的爬蟲程式設計開發經驗;

4.擁有分散式爬蟲、垂直網站抓取經驗優先。

5. 擁有淘寶APP及淘系網站抓取經驗者優先。

6、擁有較強的反反爬能力。


崗位要求:

1. 2年以上JAVA開發的經驗;有多執行緒開發經驗;

2. 熟悉整個爬蟲的設計及實現流程,有從事網路爬蟲,網頁資訊抽取開發經驗;

3. 熟悉nutch,httpclient,jsoup等工具;

4. 熟悉http,xml,json,soap協議;

5. 熟悉網頁抓取/解析,網頁消重, 統計分析等研發經驗;

6. 擁有淘寶APP,淘系網站,微信公眾號抓取經驗者優先。

7. 對開源專案有較好的跟蹤和關注,如果對一些開源的做海量資料處理的專案有經驗者會優先考慮。


1、參與設計爬蟲策略和防遮蔽規則,提升網頁抓取的效率和質量;

2、參與搜尋引擎及個性化推薦專案的開發。

3、參與開發分散式網路爬蟲系統,進行多平臺資訊的抓取和分析。

崗位要求

1、熟悉linux平臺開發,有過python開發經驗;2、具有搜尋相關技術研發經驗者優先;

2、具有資料探勘、自然語言處理、資訊檢索、機器學習背景者優先;

3.大專及以上學

1、負責爬蟲系統的開發;

2、負責爬蟲平臺的開發;

3、負責新人的指導;

4、負責資料採集的策略制定;

任職資格:

(1)統招一本以上學歷,計算機相關專業;

(2)熟悉Linux系統,掌握Python開發語言。
(3)熟悉mysql、redis,mongodb等資料庫。
(4)有scrapy、pyspider等爬蟲框架使用經驗。
(5)熟悉基於正則表示式、XPath、jsonPath、CSS等網頁資訊抽取技術。
(6)加分項:有滑動驗證碼識別技術經驗;有nodejs開發經驗。

具體要求:

1. 熟悉 Python,有分散式爬蟲架構、資料探勘經驗;

2· 熟悉網頁抓取原理及技術,熟悉基於Cookie的網站登入原理,熟悉基於正則表示式、Xpath、CSS等網頁資訊抽取技術;

3. 熟悉網路程式設計(TCP/HTTP 協議),具有 Linux 下程式設計經驗和操作經驗;;

4· 熟悉多執行緒,熟悉使用至少一種關係型資料庫(MYSQL)等,熟悉NOSQL、hbase技術者優先;

5. 瞭解分散式系統的設計與實現,能夠解決反爬蟲、網路異常等各種常見爬蟲問題;

6. 優秀的分析、解決問題能力,對處理未知的、挑戰性問題充滿激情;

主要職責:

1. 負責爬蟲系統的設計、研發與維護;

2. 設計爬蟲策略與演算法,提升平臺的抓取效率;

3. 持續優化系統,提高系統的穩定性及效能;

4· 網站、網頁、連結的特徵挖掘;對指定的多個網站進行網頁抓取、資料的提取、清洗、入庫;開發垂直站點定向抓取程式,持續優化系統已有模組效能;

5· 能實時監控爬蟲的進度和警報反饋;