“克隆声音”为远方家人送陪伴

最新信息

“克隆声音”为远方家人送陪伴

2024-02-01 03:57:00

科技新知
　　临近春节，大家都希望能在假期回家陪伴家人，尤其是家里有孩子的，共聚天伦。然而，有些职业的特殊性，如警察、消防员、医护人员、公交地铁运营人员等，过年期间，他们需要留守岗位，为广大市民服务。如何陪伴远在千里之外的家人？如今有大模型支持下的AI技术能帮助大家解决这一问题。除了过年期间，“克隆”语音的情感传递，在智能客服、数字人等交互需求场景下，大模型逐一“落地”。
　　只需录10句话样本

　　可生成不同语言的故事朗读
　　“春节都是在消防车上过的。”作为消防员，这一特殊岗位，城市居民过年，就是他们最忙碌的时候。1月30日，广州市天河区珠江东消防救援站留守的消防员们迎来了一位“新朋友”。今年春节，虽然他们不能回家陪伴家人，但利用了AI声音克隆技术，他们依然能陪伴自己的孩子们共度春节。
　　AI声音克隆技术是如何使用？仅需按照AI团队提供的语句样板，对着机器进行录制，之后就是等待机器的“训练”了。原来，这项声音克隆技术背后是言犀大模型的支撑。京东云言犀团队技术人员介绍，目前依托言犀TTS（文本转语音）6.0模型，只需录制10句话样本，即可在30分钟内完成模型自动化训练与部署，还原真人音色、音调、语气。支持中文、英文、泰语及广东话、成都话等600多种外语和方言音色。“当时我录进去的是中文，给我孩子朗读出来的是英文故事，孩子听了之后跟我说，爸爸你的英文水平那么好，我就借此鼓励孩子要努力好好学习英文。”广州市天河区棠德消防救援站代理指挥员老裴对记者表示。
　　一篇篇“真人”讲故事的背后，是大模型在“努力”工作。在训练阶段，先给人工智能装上“耳朵”，让机器抓住每个人说话的特色。将真人采集的2~3分钟语音，自动切分为10秒内短句，通过ASR语音识别技术，语音转化为对应文本，同时提取音频的声学特征频谱，以此为目标值对基础模型进行微调，形成每个人专有的语音模型。
　　在合成阶段，再给人工智能装上“嘴巴”，让机器能像真人一样说话。将输入的故事文本分段、切句，传入训练好的语音模型，通过TTS语音合成技术，模型会依次反馈和播放语音，同时后端持续合成避免等待。不仅要还原录制人的音色，还为人工智能赋予丰富的情感，这也是当下人工智能技术的革新之处。
　　智能客服、数字人……
　　AI“克隆”满足不同交互场景
　　在智能客服交互领域，包括语音、文图生成等，大模型的价值被不断挖掘。现在部分平台尤其是电商、政务、金融、运营商、文娱传媒领域等，智能客服的使用频率不断提升。
　　传统客服无法支持“操作步骤讲解”这类复杂需求。新一代智能客服通过上下文信息补全，基于企业知识库进行问答推理，可以将复杂问题解决率提高30%。可以准确地识别用户情绪，及时给出安抚。可以分辨任务型、知识型、闲聊型话题，通过聊天的方式解决任务需求。“在用户体验上，大模型加持，也让智能客服更接近‘真人客服’。”腾讯云智能研发负责人副总裁吴永坚介绍。
　　从更大的交互范围来看，AI数字人是人的外貌、声音等多项AI技术支撑下的克隆。据了解，如今阿里、京东、百度、腾讯、蚂蚁等互联网大厂均推出数字人技术。百度的数字人技术用于AI电商，利用文心一言大模型的生成能力及多种自研技术，商家三个步骤，最快5分钟就能完成数字人直播间的制作，一键开播，数据显示，百度数字人能降低商家近80%的直播运营成本。
（文章来源：广州日报）

免责申明： 本站部分内容转载自国内知名媒体，如有侵权请联系客服删除。