職位描述
該職位信息待核驗,請仔細了解后再進行投遞!
崗位職責:
1.大模型部署與推理優(yōu)化
負責主流大模型(如Qwen、DeepSeek)的推理服務(wù)部署,使用 TensorRT、vLLM、SGLang 等框架進行推理加速,實現(xiàn)低延遲、高吞吐的在線服務(wù);主導模型量化(INT8/FP16)、剪枝、動態(tài)批處理、KV Cache優(yōu)化等技術(shù)落地,提升GPU資源利用率,降低單位推理成本。
2.AI系統(tǒng)運維與工程化
基于k8s容器化模型服務(wù),配合商業(yè)的算力池化平臺實現(xiàn)集群調(diào)度、自動擴縮容與服務(wù)高可用;構(gòu)建 CI/CD 流水線(GitLab CI/Jenkins),實現(xiàn)模型版本上線前測試、灰度發(fā)布與回滾;部署 Prometheus Grafana 監(jiān)控體系,追蹤模型響應(yīng)時間、顯存占用、請求成功率等核心指標,建立告警機制保障服務(wù)SLA。
3.智能體應(yīng)用構(gòu)建與業(yè)務(wù)落地
設(shè)計并實現(xiàn)基于 LangChain、MCP、Skills 等工具的智能體(Agent)系統(tǒng),完成RAG增強問答、多工具調(diào)用、記憶管理等核心功能;與產(chǎn)品、業(yè)務(wù)方深度協(xié)作,將模糊業(yè)務(wù)需求(如“提升客服效率”)轉(zhuǎn)化為可執(zhí)行的技術(shù)方案(如“構(gòu)建FAQ知識庫 Agent自動應(yīng)答鏈”),推動從PoC到生產(chǎn)環(huán)境的端到端落地。
任職要求:
1.精通 TensorRT、vLLM、SGLang 的部署與調(diào)優(yōu);熟悉模型量化(INT8/FP4)、動態(tài)批處理、PagedAttention、模型并行等優(yōu)化技術(shù);熟練使用 CUDA、Python、C 進行性能分析與底層優(yōu)化。
2.熟練掌握 Docker、K8s 集群管理,具備生產(chǎn)級CI/CD流水線搭建經(jīng)驗;熟悉 Prometheus、Grafana、Alertmanager 監(jiān)控體系,能自定義指標與告警規(guī)則。
3.有 LangChain、LlamaIndex、CrewAI、AutoGen 等框架的實際項目經(jīng)驗,能獨立構(gòu)建多智能體協(xié)作系統(tǒng);熟悉RAG流程優(yōu)化、向量數(shù)據(jù)庫(Milvus/Chroma)、檢索重排序(Rerank)等關(guān)鍵技術(shù)。
4.具備優(yōu)秀的跨團隊溝通能力,能將非技術(shù)語言的業(yè)務(wù)需求轉(zhuǎn)化為清晰的技術(shù)規(guī)格文檔;有主導過至少1個AI項目從0到1落地的完整經(jīng)驗。
1.大模型部署與推理優(yōu)化
負責主流大模型(如Qwen、DeepSeek)的推理服務(wù)部署,使用 TensorRT、vLLM、SGLang 等框架進行推理加速,實現(xiàn)低延遲、高吞吐的在線服務(wù);主導模型量化(INT8/FP16)、剪枝、動態(tài)批處理、KV Cache優(yōu)化等技術(shù)落地,提升GPU資源利用率,降低單位推理成本。
2.AI系統(tǒng)運維與工程化
基于k8s容器化模型服務(wù),配合商業(yè)的算力池化平臺實現(xiàn)集群調(diào)度、自動擴縮容與服務(wù)高可用;構(gòu)建 CI/CD 流水線(GitLab CI/Jenkins),實現(xiàn)模型版本上線前測試、灰度發(fā)布與回滾;部署 Prometheus Grafana 監(jiān)控體系,追蹤模型響應(yīng)時間、顯存占用、請求成功率等核心指標,建立告警機制保障服務(wù)SLA。
3.智能體應(yīng)用構(gòu)建與業(yè)務(wù)落地
設(shè)計并實現(xiàn)基于 LangChain、MCP、Skills 等工具的智能體(Agent)系統(tǒng),完成RAG增強問答、多工具調(diào)用、記憶管理等核心功能;與產(chǎn)品、業(yè)務(wù)方深度協(xié)作,將模糊業(yè)務(wù)需求(如“提升客服效率”)轉(zhuǎn)化為可執(zhí)行的技術(shù)方案(如“構(gòu)建FAQ知識庫 Agent自動應(yīng)答鏈”),推動從PoC到生產(chǎn)環(huán)境的端到端落地。
任職要求:
1.精通 TensorRT、vLLM、SGLang 的部署與調(diào)優(yōu);熟悉模型量化(INT8/FP4)、動態(tài)批處理、PagedAttention、模型并行等優(yōu)化技術(shù);熟練使用 CUDA、Python、C 進行性能分析與底層優(yōu)化。
2.熟練掌握 Docker、K8s 集群管理,具備生產(chǎn)級CI/CD流水線搭建經(jīng)驗;熟悉 Prometheus、Grafana、Alertmanager 監(jiān)控體系,能自定義指標與告警規(guī)則。
3.有 LangChain、LlamaIndex、CrewAI、AutoGen 等框架的實際項目經(jīng)驗,能獨立構(gòu)建多智能體協(xié)作系統(tǒng);熟悉RAG流程優(yōu)化、向量數(shù)據(jù)庫(Milvus/Chroma)、檢索重排序(Rerank)等關(guān)鍵技術(shù)。
4.具備優(yōu)秀的跨團隊溝通能力,能將非技術(shù)語言的業(yè)務(wù)需求轉(zhuǎn)化為清晰的技術(shù)規(guī)格文檔;有主導過至少1個AI項目從0到1落地的完整經(jīng)驗。
工作地點
地址:浦東南路360號新上海國際大廈24層
??
點擊查看地圖
詳細位置,可以參考上方地址信息
求職提示:用人單位發(fā)布虛假招聘信息,或以任何名義向求職者收取財物(如體檢費、置裝費、押金、服裝費、培訓費、身份證、畢業(yè)證等),均涉嫌違法,請求職者務(wù)必提高警惕。
職位發(fā)布者
君管HR
國泰君安期貨有限公司
-
基金·證券·期貨·投資
-
500-999人
-
股份制企業(yè)
-
靜安區(qū)延平路121號三和大廈26樓
相似職位
-
新媒體運營 面議應(yīng)屆畢業(yè)生 不限河北中慶綠建新型材料有限公司
-
新媒體運營 4000-6000元應(yīng)屆畢業(yè)生 大專河北冀光餐飲管理有限公司
-
深度學習算法工程師 15000-20000元應(yīng)屆畢業(yè)生 碩士湖南大唐先一科技有限公司
-
網(wǎng)絡(luò)運營 面議不限 大專河北冠宇環(huán)保設(shè)備股份有限公司
-
混凝土研發(fā)工程師 面議應(yīng)屆畢業(yè)生 不限中交公路長大橋建設(shè)國家工程研究中心有限公司
-
軟件工程師(后端開發(fā)) 8000-12000元應(yīng)屆畢業(yè)生 大專秦皇島首創(chuàng)思泰意達環(huán)??萍加邢薰?

應(yīng)屆畢業(yè)生
本科
2026-04-08 18:23:20
30人關(guān)注
注:聯(lián)系我時,請說是在河北人才網(wǎng)上看到的。
