一、基础要求:年 龄:35-40岁;性 别:不限;学 历:本科;工作经验:5年以上。
二、工作地点:base重庆
三、待遇范畴:40-60K(能力优秀者可谈)
【岗位职责】:
1、图像与视觉生成核心(70%)
Wav2Lip/SyncNet 的损失函数设计、实时推理优化,以及语音特征(Prosody、F0)驱动面部微表情的技术细节。
研发文本/语音→视觉生成链路,重点攻克多视角一致性、光影渲染、时序稳定性等关键问题。
构建实时视频生成引擎,集成扩散模型(如Sora技术栈)、3D渲染(Blender/Unity)及后处理模块。
设计数字人资源压缩方案(Mesh简化、动态纹理贴图压缩)。
2、大模型与语音技术融合(30%)
开发语音驱动唇动模型(LipSync),提升跨语种、复杂发音场景的同步精度(Wav2Lip/EMO优化)。
搭建多模态驱动框架:集成LLM生成文本(如情感化对话脚本)→ TTS 语音 → 唇动/表情的端到端流程。
实现语音-视觉联合优化:通过音频特征增强面部微表情生成(如Audio2Head技术迭代)。
3、工程落地与部署
主导算法服务化(gRPC/HTTP API)、高并发推理优化(TensorRT/模型量化)。
支持数字人SDK开发,适配云渲染、移动端轻量化等场景。
【任职要求】:
硬性条件:硕士及以上学历,计算机/人工智能/图形学相关专业
5年以上生成式AI算法研发经验,其中3年+专注数字人/虚拟形象生成领域
技术能力
1、图像/视觉核心能力(70%权重)
精通 3D生成技术(3DMM、NeRF、神经渲染),熟悉Mesh变形、骨骼驱动原理
掌握视觉生成模型:Diffusion Models(Stable Video Diffusion)、GANs(StyleGAN3)的调优与部署
具备视频生成工程经验:帧插值、超分、时序抖动消除等后处理技术
2、大模型与语音技术(30%权重)
熟悉LLM应用开发:文本生成对话系统(LLaMA/GPT微调)、提示工程
精通语音视觉对齐:LipSync模型(Wav2Lip/SyncNet)的损失函数设计与实时优化
了解多模态融合:CLIP引导生成、语音特征提取(Prosody, F0)驱动表情
3、工程能力
熟练使用 PyTorch/TensorFlow ,有分布式训练经验者优先
掌握模型服务化技术: Triton推理服务器、动态批处理、GPU内存优化
熟悉C++/Python高性能计算,有CUDA算子开发经验加分
加分项
在SIGGRAPH/CVPR/ICCV发表过3D生成/神经渲染相关论文
主导过日活超1万+ 的数字人产品算法落地
熟悉WebRTC实时通信与面部追踪(ARKit/MediaPipe)
团队定位
您将加入公司AIGC核心技术团队
设计说明
技术权重实现
图像70%:职责中4项视觉任务占3项,技术要求中视觉技能条目数量与深度远超语音模块
语音+大模型30%:聚焦LipSync优化与LLM-TTS集成,避免扩散入语音细节。
五、万博恒猎头联系方式:
手机:15012826929(微信同)
座机:0755-32925479
简历投递邮箱:wanboheng4131@qq.com