你好!LiveTalking 是一个优秀的实时数字人项目。
建议集成 FunASR(16K+ stars)作为语音识别引擎,特别适合实时交互场景:
低延迟流式识别:FunASR 提供 Paraformer-streaming 流式模型,专为实时场景设计,延迟极低。
170 倍实时 GPU 推理:在实时数字人场景中,ASR 的速度直接影响交互体验,FunASR 的高速推理可以降低对话延迟。
内置 VAD + 标点:不需要额外的 VAD 组件,语音活动检测和标点恢复开箱即用。
50+ 语种支持:SenseVoice 模型支持 50+ 语言,自动语言检测。
快速集成示例:
from funasr import AutoModel
# 流式识别(适合实时交互)
model = AutoModel(model="paraformer-zh-streaming", vad_model="fsmn-vad")
# 或使用 OpenAI 兼容 API 服务
# funasr-server --device cuda
# POST http://localhost:8000/v1/audio/transcriptions
FunASR 也提供 WebSocket 实时流式服务,可以直接对接数字人的音频输入管道。
如有兴趣可以帮忙对接!
你好!LiveTalking 是一个优秀的实时数字人项目。
建议集成 FunASR(16K+ stars)作为语音识别引擎,特别适合实时交互场景:
低延迟流式识别:FunASR 提供 Paraformer-streaming 流式模型,专为实时场景设计,延迟极低。
170 倍实时 GPU 推理:在实时数字人场景中,ASR 的速度直接影响交互体验,FunASR 的高速推理可以降低对话延迟。
内置 VAD + 标点:不需要额外的 VAD 组件,语音活动检测和标点恢复开箱即用。
50+ 语种支持:SenseVoice 模型支持 50+ 语言,自动语言检测。
快速集成示例:
FunASR 也提供 WebSocket 实时流式服务,可以直接对接数字人的音频输入管道。
如有兴趣可以帮忙对接!