谷歌发布视频数据集SANPO 包含现实数据与合成数据

最新信息

谷歌发布视频数据集SANPO 包含现实数据与合成数据
2023-10-12 20:01:00
K图 GOOGL_0
K图 GOOG_0
  近日,Google AI发布了一个名为SANPO的数据集。这个多属性视频数据集包括真实世界数据和合成数据,支持各种密集预测任务。发布公告中指出,数据集将在未来用以帮助开发视觉导航系统,帮助视力受损者,并推动视觉场景理解领域的发展。
  此次发布的数据集SANPO包括真实数据(SANPO-Real)和合成数据(SANPO-Synthetic)。其中,真实数据集包含701个会话,使用两个立体摄像机录制,总计11.4小时的视频。而合成数据集SANPO-Synthetic则包含使用虚拟化 Zed 摄像机记录的 1961 个会话,所有会话都具有精确的相机姿势轨迹、密集像素精确深度图和时间一致的全景分割掩模以模拟真实场景。
  “由于硬件、算法和人为错误,现实世界的数据具有不完美的真实数据标签,但合成数据可以定制,可以提供近乎完美的‘真实数据’。”研究团队在公告中介绍,SANPO-Synthetic是谷歌与合成数据生成公司Parallel Domain合作,创建的,将作为SANPO-Real的补充。
  据介绍,与此前的重要视频数据集如SCAND、MuSoHu、Ego4D、VIPSe等相比,SANPO具备同时拥有全景分割和深度图、数据集内涵盖真实数据和合成数据等优势。
  数据是数字经济时代的“新石油”,人工智能技术商业化进程加速亦难离优质数据的驱动。在新一轮AI浪潮下,数据成为各类企业的“必争之地”。
  由于可能存在缺失、噪声、重复等情况,从数据源收集而来的数据并不能直接用于大模型训练,需要经过清洗、标注等工序后,生成可供大模型使用的数据集,再与算法、算力等结合,共同支撑起大模型的运转。
  国盛证券研报指出,高质量的数据集决定了AIGC质量与商业模式。数据集可以被视作是生成式人工智能的“粮食和血液”,国内外在发展这一领域上都做出了不少努力。
  不久之前,谷歌的DeepMind团队开放了一个名为Open X-Embodiment的大型共享数据集。据介绍,这是迄今为止最大的开源真实机器人数据集,通过汇集 60 个现有机器人数据集构建而成。它包含超过 100 万条真实的机器人轨迹,涵盖 22 个机器人实施例,展示了 527 项技能(160266 项任务),从单机器人手臂到双手动机器人和四足机器人
  而国内多地都曾发布相关政策以求推动建立高质量数据集。上海市就于去年10月发布《上海市促进人工智能产业发展条例》,指出要推动人工智能领域高质量数据集建设。今年5月,《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》指出,要提升高质量数据要素供给能力,归集高质量基础训练数据集;深圳也在6月发布的《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》提到要搭建全市公共数据开放运营平台,建立多模态公共数据集,打造高质量中文语料数据等。
(文章来源:21世纪经济报道)
免责申明: 本站部分内容转载自国内知名媒体,如有侵权请联系客服删除。

谷歌发布视频数据集SANPO 包含现实数据与合成数据

sitemap.xml sitemap2.xml sitemap3.xml sitemap4.xml