谷歌AI模型Gemini问世 AI产业加速向“多模态”方向演进

最新信息

2023-12-07 20:05:00

当地时间12月6日，谷歌官宣Gemini 1.0版正式上线。
　　此次发布的Gemini大模型是原生多模态大模型，包括三种量级：能力最强的Gemini Ultra，适用于多任务的Gemini Pro以及适用于特定任务和端侧的Gemini Nano。
　　多位业内人士告诉《证券日报》记者：“Gemini代表了人工智能在大模型领域的最新趋势和进展——‘多模态’，即可以处理语言、图像、视频的输入和输出。此外，Gemini使用了大量无监督学习数据进行预训练，可在不同任务之间共享知识，从而提高性能。”
　　Gemini的横空出世亦引发了市场对于通用人工智能的想象。截至12月7日收盘，AI概念股全线反弹，北京文化、龙版传媒、文投控股等10余只股票涨停。
　　“多模态”成最大亮点
　　谷歌此次发布的Gemini大模型性能实现了大幅提升。
　　据悉，Gemini Ultra在MMLU（大规模多任务语言理解数据集）中得分率高达90.0%，首次超越人类专家。MMLU数据集包含数学、物理、伦理等57个科目，用于测试大模型的知识储备和解决问题能力。
　　云从科技董事长周曦告诉《证券日报》记者：“谷歌不像OpenAI构建DALL·E（文生图模型）和Whisper（语音识别模型）那样单独训练图像和语音模型，而是从一开始就建立了一个多感官模型。与单一模态相比，原生多模态可更好地理解和解决复杂问题，相对单一模态具有更大的灵活性和适应性，可更好应对现实世界中的多样化和复杂性。”
　　谷歌的类ChatGPT应用Bard已升级到了Gemini Pro版本。此外，谷歌预计在明年初将推出“Bard Advanced”，其将使用Gemini Ultra。
　　“无论从大模型还是人工智能来看，原生多模态都是未来的发展方向。”IDC中国研究总监卢言霞告诉《证券日报》记者，“目前来看，静态大模型的应用确实以大语言模型居多，例如，我们看到一些文生视频即便仅有几秒，但现在都没有太成熟的技术，而未来真正的多模态必然会结合很多图片、视频，这才是未来的发展方向。”
　　不过，中国电子商务专家服务中心副主任郭涛提醒道：“Gemini1.0刚刚发布，实际效果不知道如何。另外即将到来的ChatGPT-5也是多模态模型，Gemini也面临较大的技术挑战。”
　　AI应用场景拓展
　　值得一提的是，谷歌还表示，Gemini能高效运行在数据中心和移动设备等多类型平台上，Pixel 8 Pro将是第一款运行Gemini Nano的智能手机。
　　“如果说人工智能的远景是打造一个具有大脑、神经、躯干与四肢的机器人，那么，硬件基础是躯干、四肢，更重要的是，要使得机器人能看会想、能听会说，就要搭建神经和大脑，而多模态大模型就是打造大脑的核心技术。”周曦告诉记者：“毫无疑问，多模态将极大扩展AI应用场景。”
　　国内AI大模型在此领域亦有突破。今年5月，云从科技推出了一款多模态系列大模型“从容”，并于9月发布AI精灵“云月”，其在形象、动作和智力层面接近真人水平，可与人自然交互。
　　目前云从科技正积极推动AI精灵、视觉、跨模态大模型融合应用，并在各行业加速落地。公司已与天津港集团等共同研发了全球首个港口大模型PortGPT，发布知行城市交通行业大模型，并联合华为昇腾发售从容大模型训推一体机，同时公司文档多模态大模型与医疗大模型已开始在金融与制药行业落地应用。
　　Gemini的问世同样提高了市场对AIGC的期待。截至12月7日收盘，AIGC板块涨幅居前，万兴科技、福昕软件、拓尔思等涨幅均超5%。
　　万兴科技表示，公司自2022年下半年以来在视频创意、文档创意、绘图创意等主要产品线均陆续发布了带有AI功能的新版本，并推出融入多项AI技术的新产品，将持续在数字创意领域进行AI技术相关新产品的研发与推广。
　　“国内相关企业和产业链将受益于Gemini的发布和发展。”郭涛认为，Gemini的灵活性和高效性为国内企业提供了更多的应用场景和商业机会。例如，在智能客服、智能助手和智能推荐等领域，国内企业可以利用Gemini的能力来提供更个性化和智能化的服务。对产业而言，Gemini的发布也将带动整个AI产业链的发展，包括硬件设备、算法研发和数据分析等方面。
（文章来源：证券日报）

免责申明： 本站部分内容转载自国内知名媒体，如有侵权请联系客服删除。