0755-32925479
当前位置:网站首页 - 人才通道 - 万博恒猎头招聘
虚拟数字人生成算法专家(AIGC方向)
发布时间:2025-09-28 13:52:32      点击次数:9057

一、基础要求:年 龄:35-40岁;性 别:不限;学 历:本科;工作经验:5年以上。

二、工作地点:base重庆

三、待遇范畴:40-60K(能力优秀者可谈)


【岗位职责】:‌

1、图像与视觉生成核心(70%)

Wav2Lip/SyncNet 的损失函数设计、实时推理优化,以及语音特征(Prosody、F0)驱动面部微表情的技术细节。

研发文本/语音→视觉生成链路,重点攻克多视角一致性、光影渲染、时序稳定性等关键问题。

构建实时视频生成引擎,集成扩散模型(如Sora技术栈)、3D渲染(Blender/Unity)及后处理模块。

设计数字人资源压缩方案(Mesh简化、动态纹理贴图压缩)。

2、大模型与语音技术融合(30%)

开发语音驱动唇动模型(LipSync),提升跨语种、复杂发音场景的同步精度(Wav2Lip/EMO优化)。

搭建多模态驱动框架:集成LLM生成文本(如情感化对话脚本)→ TTS 语音 → 唇动/表情的端到端流程。

实现语音-视觉联合优化:通过音频特征增强面部微表情生成(如Audio2Head技术迭代)。

3、工程落地与部署

主导算法服务化(gRPC/HTTP API)、高并发推理优化(TensorRT/模型量化)。

支持数字人SDK开发,适配云渲染、移动端轻量化等场景。


【任职要求】:‌

硬性条件:硕士及以上学历,计算机/人工智能/图形学相关专业

5年以上生成式AI算法研发经验,其中3年+专注数字人/虚拟形象生成领域

技术能力

1、图像/视觉核心能力(70%权重)

精通 3D生成技术(3DMM、NeRF、神经渲染),熟悉Mesh变形、骨骼驱动原理

掌握视觉生成模型:Diffusion Models(Stable Video Diffusion)、GANs(StyleGAN3)的调优与部署

具备视频生成工程经验:帧插值、超分、时序抖动消除等后处理技术

2、大模型与语音技术(30%权重)

熟悉LLM应用开发:文本生成对话系统(LLaMA/GPT微调)、提示工程

精通语音视觉对齐:LipSync模型(Wav2Lip/SyncNet)的损失函数设计与实时优化

了解多模态融合:CLIP引导生成、语音特征提取(Prosody, F0)驱动表情

3、工程能力

熟练使用 PyTorch/TensorFlow ,有分布式训练经验者优先

掌握模型服务化技术: Triton推理服务器、动态批处理、GPU内存优化

熟悉C++/Python高性能计算,有CUDA算子开发经验加分

加分项

在SIGGRAPH/CVPR/ICCV发表过3D生成/神经渲染相关论文

主导过日活超1万+ 的数字人产品算法落地

熟悉WebRTC实时通信与面部追踪(ARKit/MediaPipe)

团队定位

您将加入公司AIGC核心技术团队

设计说明

技术权重实现

图像70%:职责中4项视觉任务占3项,技术要求中视觉技能条目数量与深度远超语音模块

语音+大模型30%:聚焦LipSync优化与LLM-TTS集成,避免扩散入语音细节。


五、万博恒猎头联系方式:

手机:15012826929(微信同)

座机:0755-32925479

官网:http://www.wbhglzx.com

简历投递邮箱:wanboheng4131@qq.com

返回上一页

返回首页面

企业招聘/个人应聘