“克隆声音”为远方家人送陪伴

最新信息

“克隆声音”为远方家人送陪伴
2024-02-01 03:57:00
科技新知
  临近春节,大家都希望能在假期回家陪伴家人,尤其是家里有孩子的,共聚天伦。然而,有些职业的特殊性,如警察、消防员、医护人员、公交地铁运营人员等,过年期间,他们需要留守岗位,为广大市民服务。如何陪伴远在千里之外的家人?如今有大模型支持下的AI技术能帮助大家解决这一问题。除了过年期间,“克隆”语音的情感传递,在智能客服、数字人等交互需求场景下,大模型逐一“落地”。
  只需录10句话样本

  可生成不同语言的故事朗读
  “春节都是在消防车上过的。”作为消防员,这一特殊岗位,城市居民过年,就是他们最忙碌的时候。1月30日,广州市天河区珠江东消防救援站留守的消防员们迎来了一位“新朋友”。今年春节,虽然他们不能回家陪伴家人,但利用了AI声音克隆技术,他们依然能陪伴自己的孩子们共度春节。
  AI声音克隆技术是如何使用?仅需按照AI团队提供的语句样板,对着机器进行录制,之后就是等待机器的“训练”了。原来,这项声音克隆技术背后是言犀大模型的支撑。京东云言犀团队技术人员介绍,目前依托言犀TTS(文本转语音)6.0模型,只需录制10句话样本,即可在30分钟内完成模型自动化训练与部署,还原真人音色、音调、语气。支持中文、英文、泰语及广东话、成都话等600多种外语和方言音色。“当时我录进去的是中文,给我孩子朗读出来的是英文故事,孩子听了之后跟我说,爸爸你的英文水平那么好,我就借此鼓励孩子要努力好好学习英文。”广州市天河区棠德消防救援站代理指挥员老裴对记者表示。
  一篇篇“真人”讲故事的背后,是大模型在“努力”工作。在训练阶段,先给人工智能装上“耳朵”,让机器抓住每个人说话的特色。将真人采集的2~3分钟语音,自动切分为10秒内短句,通过ASR语音识别技术,语音转化为对应文本,同时提取音频的声学特征频谱,以此为目标值对基础模型进行微调,形成每个人专有的语音模型。
  在合成阶段,再给人工智能装上“嘴巴”,让机器能像真人一样说话。将输入的故事文本分段、切句,传入训练好的语音模型,通过TTS语音合成技术,模型会依次反馈和播放语音,同时后端持续合成避免等待。不仅要还原录制人的音色,还为人工智能赋予丰富的情感,这也是当下人工智能技术的革新之处。
  智能客服、数字人……
  AI“克隆”满足不同交互场景
  在智能客服交互领域,包括语音、文图生成等,大模型的价值被不断挖掘。现在部分平台尤其是电商、政务、金融、运营商、文娱传媒领域等,智能客服的使用频率不断提升。
  传统客服无法支持“操作步骤讲解”这类复杂需求。新一代智能客服通过上下文信息补全,基于企业知识库进行问答推理,可以将复杂问题解决率提高30%。可以准确地识别用户情绪,及时给出安抚。可以分辨任务型、知识型、闲聊型话题,通过聊天的方式解决任务需求。“在用户体验上,大模型加持,也让智能客服更接近‘真人客服’。”腾讯云智能研发负责人副总裁吴永坚介绍。
  从更大的交互范围来看,AI数字人是人的外貌、声音等多项AI技术支撑下的克隆。据了解,如今阿里、京东、百度、腾讯、蚂蚁等互联网大厂均推出数字人技术。百度的数字人技术用于AI电商,利用文心一言大模型的生成能力及多种自研技术,商家三个步骤,最快5分钟就能完成数字人直播间的制作,一键开播,数据显示,百度数字人能降低商家近80%的直播运营成本。
(文章来源:广州日报)
免责申明: 本站部分内容转载自国内知名媒体,如有侵权请联系客服删除。

“克隆声音”为远方家人送陪伴

sitemap.xml sitemap2.xml sitemap3.xml sitemap4.xml