Skip to content

Feature Request: 集成 FunASR 作为语音识别引擎 #601

@LauraGPT

Description

@LauraGPT

你好!LiveTalking 是一个优秀的实时数字人项目。

建议集成 FunASR(16K+ stars)作为语音识别引擎,特别适合实时交互场景:

低延迟流式识别:FunASR 提供 Paraformer-streaming 流式模型,专为实时场景设计,延迟极低。

170 倍实时 GPU 推理:在实时数字人场景中,ASR 的速度直接影响交互体验,FunASR 的高速推理可以降低对话延迟。

内置 VAD + 标点:不需要额外的 VAD 组件,语音活动检测和标点恢复开箱即用。

50+ 语种支持:SenseVoice 模型支持 50+ 语言,自动语言检测。

快速集成示例:

from funasr import AutoModel

# 流式识别(适合实时交互)
model = AutoModel(model="paraformer-zh-streaming", vad_model="fsmn-vad")

# 或使用 OpenAI 兼容 API 服务
# funasr-server --device cuda
# POST http://localhost:8000/v1/audio/transcriptions

FunASR 也提供 WebSocket 实时流式服务,可以直接对接数字人的音频输入管道。

如有兴趣可以帮忙对接!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions