職位描述
該職位還未進(jìn)行加V認(rèn)證,請仔細(xì)了解后再進(jìn)行投遞!
1 項目背景
針對外文語料數(shù)據(jù)采集工作,目前已經(jīng)對預(yù)訓(xùn)練數(shù)據(jù)采集、全站數(shù)據(jù)采集或者文
件文檔下載類的需求已經(jīng)開發(fā)了采集系統(tǒng)或者采集平臺進(jìn)行需求覆蓋。但是由于需求種類多樣還有較多類型的采集需求(定向采集,數(shù)據(jù)字段高定,目標(biāo)站點反爬比較嚴(yán)重等)數(shù)據(jù)系統(tǒng)與平臺無法進(jìn)行覆蓋需求,需要鋪設(shè)較多開發(fā)人員進(jìn)行單站點或者單需求進(jìn)行數(shù)據(jù)采集研發(fā)工作。
2 預(yù)算與人員資質(zhì)要求
? 需求人數(shù):2人
? 期望到崗時間:2025年11月初
? 崗位級別:中級采集工程師
? 教育背景與工作經(jīng)驗
o 本科及以上學(xué)歷,計算機相關(guān)專業(yè)
o 2年以上數(shù)據(jù)采集工作經(jīng)驗
? 核心技能
o 精通 JavaScript 逆向工程
o 有主流站點 Web端大規(guī)模數(shù)據(jù)采集經(jīng)驗
o 具備多類型驗證碼處理能力:包括滑塊、點選、GooglereCAPTCHA、
旋轉(zhuǎn)驗證碼等
o 熟悉 APP 脫殼、逆向、反編譯及自動化相關(guān)技術(shù)
o 具備 AST 反混淆 JavaScript 代碼及 JSVMP 算法還原能力
? 附加技能(優(yōu)先考慮):具有風(fēng)控應(yīng)對經(jīng)驗(如 Akamai 并發(fā)、Cloudflare 等
反爬蟲策略處理經(jīng)驗)
3 崗位描述
3.1負(fù)責(zé)大模型相關(guān)數(shù)據(jù)采集,包括不限于海內(nèi)外文本,圖片,音視頻數(shù)據(jù);
3.2負(fù)責(zé)對目標(biāo)網(wǎng)站或APP進(jìn)行反爬突破、協(xié)議破解和提取關(guān)鍵數(shù)據(jù);
3.3負(fù)責(zé)反爬蟲策略研究,代理、驗證碼識別等采集支撐服務(wù)建設(shè);
3.4 參與大規(guī)模數(shù)據(jù)處理流程的設(shè)計與開發(fā),包括但不限于數(shù)據(jù)采集、清洗、轉(zhuǎn)
換、存儲等過程。
4 服務(wù)范圍與內(nèi)容
4.1 服務(wù)目標(biāo)
協(xié)助開展各類數(shù)據(jù)采集業(yè)務(wù)(包括但不限于預(yù)訓(xùn)練數(shù)據(jù)采集、全站數(shù)據(jù)采
集、文件文檔下載等),針對多樣化的需求種類,特別是定向采集、高定數(shù)
據(jù)字段以及目標(biāo)站點反爬嚴(yán)重等情況,提供定制化解決方案。具體包含但不
限于以下內(nèi)容:
1. 大模型相關(guān)數(shù)據(jù)采集
o 海內(nèi)外文本、圖片、音視頻等數(shù)據(jù)采集
o 保證數(shù)據(jù)多樣性及高質(zhì)量
2. 反爬蟲策略研究與實施
o 深度分析目標(biāo)網(wǎng)站或APP
o 突破反爬措施(協(xié)議破解、代理使用、驗證碼識別等)
o 提供反爬支撐服務(wù)建設(shè)
3. 大規(guī)模數(shù)據(jù)處理流程設(shè)計與開發(fā)
o 數(shù)據(jù)采集、清洗、轉(zhuǎn)換、存儲的全流程實現(xiàn)
o 確保數(shù)據(jù)準(zhǔn)確性與可用
針對外文語料數(shù)據(jù)采集工作,目前已經(jīng)對預(yù)訓(xùn)練數(shù)據(jù)采集、全站數(shù)據(jù)采集或者文
件文檔下載類的需求已經(jīng)開發(fā)了采集系統(tǒng)或者采集平臺進(jìn)行需求覆蓋。但是由于需求種類多樣還有較多類型的采集需求(定向采集,數(shù)據(jù)字段高定,目標(biāo)站點反爬比較嚴(yán)重等)數(shù)據(jù)系統(tǒng)與平臺無法進(jìn)行覆蓋需求,需要鋪設(shè)較多開發(fā)人員進(jìn)行單站點或者單需求進(jìn)行數(shù)據(jù)采集研發(fā)工作。
2 預(yù)算與人員資質(zhì)要求
? 需求人數(shù):2人
? 期望到崗時間:2025年11月初
? 崗位級別:中級采集工程師
? 教育背景與工作經(jīng)驗
o 本科及以上學(xué)歷,計算機相關(guān)專業(yè)
o 2年以上數(shù)據(jù)采集工作經(jīng)驗
? 核心技能
o 精通 JavaScript 逆向工程
o 有主流站點 Web端大規(guī)模數(shù)據(jù)采集經(jīng)驗
o 具備多類型驗證碼處理能力:包括滑塊、點選、GooglereCAPTCHA、
旋轉(zhuǎn)驗證碼等
o 熟悉 APP 脫殼、逆向、反編譯及自動化相關(guān)技術(shù)
o 具備 AST 反混淆 JavaScript 代碼及 JSVMP 算法還原能力
? 附加技能(優(yōu)先考慮):具有風(fēng)控應(yīng)對經(jīng)驗(如 Akamai 并發(fā)、Cloudflare 等
反爬蟲策略處理經(jīng)驗)
3 崗位描述
3.1負(fù)責(zé)大模型相關(guān)數(shù)據(jù)采集,包括不限于海內(nèi)外文本,圖片,音視頻數(shù)據(jù);
3.2負(fù)責(zé)對目標(biāo)網(wǎng)站或APP進(jìn)行反爬突破、協(xié)議破解和提取關(guān)鍵數(shù)據(jù);
3.3負(fù)責(zé)反爬蟲策略研究,代理、驗證碼識別等采集支撐服務(wù)建設(shè);
3.4 參與大規(guī)模數(shù)據(jù)處理流程的設(shè)計與開發(fā),包括但不限于數(shù)據(jù)采集、清洗、轉(zhuǎn)
換、存儲等過程。
4 服務(wù)范圍與內(nèi)容
4.1 服務(wù)目標(biāo)
協(xié)助開展各類數(shù)據(jù)采集業(yè)務(wù)(包括但不限于預(yù)訓(xùn)練數(shù)據(jù)采集、全站數(shù)據(jù)采
集、文件文檔下載等),針對多樣化的需求種類,特別是定向采集、高定數(shù)
據(jù)字段以及目標(biāo)站點反爬嚴(yán)重等情況,提供定制化解決方案。具體包含但不
限于以下內(nèi)容:
1. 大模型相關(guān)數(shù)據(jù)采集
o 海內(nèi)外文本、圖片、音視頻等數(shù)據(jù)采集
o 保證數(shù)據(jù)多樣性及高質(zhì)量
2. 反爬蟲策略研究與實施
o 深度分析目標(biāo)網(wǎng)站或APP
o 突破反爬措施(協(xié)議破解、代理使用、驗證碼識別等)
o 提供反爬支撐服務(wù)建設(shè)
3. 大規(guī)模數(shù)據(jù)處理流程設(shè)計與開發(fā)
o 數(shù)據(jù)采集、清洗、轉(zhuǎn)換、存儲的全流程實現(xiàn)
o 確保數(shù)據(jù)準(zhǔn)確性與可用
工作地點
地址:徐匯區(qū)上海庫帕思科技有限公司A
??
點擊查看地圖
詳細(xì)位置,可以參考上方地址信息
求職提示:用人單位發(fā)布虛假招聘信息,或以任何名義向求職者收取財物(如體檢費、置裝費、押金、服裝費、培訓(xùn)費、身份證、畢業(yè)證等),均涉嫌違法,請求職者務(wù)必提高警惕。
職位發(fā)布者
1851..HR
科銳爾人力資源服務(wù)(蘇州)有限公司
-
中介服務(wù)
-
1000人以上
-
國內(nèi)上市公司
-
中興路1520(上海火車站地鐵站6號口步行410米)
相似職位
-
嵌入式軟件和網(wǎng)絡(luò)信息安全 8000-12000元應(yīng)屆畢業(yè)生 碩士成都航天通信設(shè)備有限責(zé)任公司
-
外聯(lián)副總 80000-110000元應(yīng)屆畢業(yè)生 本科四川依科制藥有限公司
-
激光-三維制圖師 6000-10000元應(yīng)屆畢業(yè)生 不限四川錦鴻世紀(jì)能源科技有限公司
-
鍋爐安裝工程師、技術(shù)員 1000元以下應(yīng)屆畢業(yè)生 大專中國能源建設(shè)集團浙江火電建設(shè)有限公司
-
封裝工程師 10000-15000元應(yīng)屆畢業(yè)生 不限成都瑞迪威科技有限公司
-
項目總工 16000元以上5年以上 本科四川公路橋梁建設(shè)集團有限公司大橋工程分公司
應(yīng)屆畢業(yè)生
學(xué)歷不限
最近更新
1549人關(guān)注
注:聯(lián)系我時,請說是在四川人才網(wǎng)上看到的。
