
XSwitch 是一个“连接一切”的综合实时音视频多媒体通信平台。它不仅能对接传统的电话系统,还能无缝集成包括 AI 在内的新兴通信能力。本文将详细介绍如何将 XSwitch 与 人工智能 能力相结合,打造智能语音交互应用。平台提供了「零代码页面配置」与「全开放 API 调用」双模式,满足从快速验证到深度定制的不同需求,其核心能力涵盖智能路由、语音识别(ASR)、语音合成(TTS)、大模型对话及知识库问答。
在开始之前,请确保你已准备好以下资源:
- XSwitch 实例
- AI 模型(如 ChatGPT、文心一言、通义千问等)
- 知识库文档(如 Markdown 文件)
- ASR/TTS 引擎及对应的 API Key/Secret(如百度、阿里云、讯飞等厂商服务)
页面配置:10分钟快速对接
通过 XSwitch 后台的三大配置页:知识库 → 大模型 → AI 机器人,你可以快速完成一个基础智能语音机器人的搭建。
- 创建大模型:填写模型 URL、API Key,选择模型类型并测试连通性。
- 创建知识库:上传 Markdown 文件,系统可同步并自动生成问答对(QA),你可以根据场景进行细化补充。
- 创建 AI 机器人:绑定上述创建好的大模型、知识库,配置 ASR/TTS 引擎及各类 AI 响应词。
- 创建呼叫路由:设置一个被叫字冠(如
10000471),目的地类型选择「AI 机器人」,并关联刚创建的机器人。
- 拨打测试:呼叫
10000471,即可在实时日志中查看 ASR → LLM → TTS 的全链路交互过程。
各页面配置详解
大模型配置
- 入口:
AI -> 大模型 -> 新建
- 关键字段:
- 名称:自定义,如
GPT-4-cn。
- 类型:支持 OpenAI、Claude、文心、通义、自定义等。
- 功能:默认「推理」,可按需勾选「嵌入」、「知识库」等功能。
- 详情参数:
- 设置:配置
model_id、API Key、Base URL 等。
- 推理/嵌入/知识库/工具模型:分别指定用于对应功能的模型名称,如
gpt-4o-mini、embedding-v1 等。
知识库配置
AI 机器人通过绑定知识库可以实现更精准的问答,尤其适合回答结构化的业务问题。知识库支持 Markdown 文件批量上传、同步和管理。
- 入口:
AI -> 知识库 -> 新建
- 操作流程:选择已启用“知识库”功能的大模型作为引擎,上传
.md 文件。系统支持在「问答列表」中点击「自动生成」一键生成问答对,提交后自动同步。
AI 机器人配置
这是智能语音助手的核心控制单元。
- 模式设置:下拉选择已创建的大模型。
- 语音引擎设置:分别配置 ASR 和 TTS 的引擎、模型、语言及音色。
- 知识库设置:
- 绑定已创建的知识库。
- 设置
知识库匹配精度和QA匹配精度(范围0-1,值越高要求越严格)。
- 配置无匹配答案时的响应词。
- AI 响应设置:这是提升机器人表现的关键,包括:
- 提示词:定义机器人的角色、公司背景、回答风格等,越详细越准确。
- 欢迎语/结束语检测词/响应词:控制对话的开始、结束和超时响应。
- 打断/自动录音/异步模式/滴提示音:根据交互体验需求进行开关。
- 方法调用/转接功能:用于实现更复杂的业务流程,如呼叫转接。
XCC API 接口:深度定制与自主开发
对于页面配置无法满足的复杂场景,推荐使用 XCC API 进行自主开发。XSwitch 提供的 XCC 接口基于 NATS 消息队列,支持高并发和横向扩展,允许使用 Go、Python、Node.js、Java 等任何语言进行二次开发,提供完整的呼叫控制能力。
XCC 是双向通信协议,开发者可以接收完整的呼叫状态事件,非常适合构建外呼或复杂交互流程。音视频媒体流仍在 XSwitch 内核处理,XCC 仅负责控制信令。
一个典型的外呼接入AI机器人流程如下:
- 呼叫控制器调用 XCC
Dial 接口发起外呼。
- XSwitch 拨打电话,被叫应答后通知控制器。
- 控制器调用
Play 播放欢迎音。
- 控制器调用
Record 和 ASR 识别用户语音。
- 将识别文本送入 NLP 或大模型处理,得到回复文本。
- 控制器调用
Play(或通过TTS引擎)播放回复。
- 循环步骤 4-6,直至对话结束。

AIGC(如 ChatGPT)接入示例
XSwitch 通过开源的 CherryGPT 项目来专门对接 ChatGPT 等对话大模型。CherryGPT 本身是一个控制器的具体实现,它通过 XCC API 连接 XSwitch,另一端连接大模型,从而实现完整的 AI 语音对话链路。

下图清晰地展示了一次完整的电话呼入 AI 对话的时序交互过程:

关于 CherryGPT 的详细部署和使用,请参阅其技术文档。
总结
XSwitch 为 AI 与通信的融合提供了灵活、强大的支撑。无论是通过后台页面快速配置,还是利用 XCC API 进行深度定制开发,你都能高效地构建出贴合业务需求的智能语音交互解决方案。如果在实践中遇到任何问题,可以查阅官方文档或在 云栈社区 等技术论坛寻求交流与解答。
让每一次呼叫都更智能。
|