用AI“抢救”濒危古文字 合合信息发布古彝文基础编码“大字典”

最新信息

用AI“抢救”濒危古文字 合合信息发布古彝文基础编码“大字典”
2023-09-26 14:26:00
近期,合合信息联合上海大学、华南理工大学发布古彝文基础编码数据库,针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码。
  “古彝文”专指在民间流通使用的原生态彝文。根据《滇川黔桂彝文字集》,古彝文多达87046字。古彝文作为一门“濒临”消亡的语言,其典籍的数字化之路也面临着巨大的挑战。
  古彝文基础编码数据库项目技术负责人、华南理工大学电子与信息学院教授金连文提到,原生态彝文此前没有被系统性地进行数字化编码,古彝文没有公开数据集,标注困难,异体字繁多,每个字的异体写法少则两三种,多则几十种,且字体间风格差异大。因此,建立一个专门的数据库,通过基础编号将不同样式归纳,才能“破解”古彝文“一对多”的关系,解决文字查询问题。
  在对7万6千字符的样本进行训练后,团队成功建立了包含上千个古彝文基础编码的数据库。通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛。
  据悉,为了推进古彝文“大字典”项目的顺利进行,在收集语料收集的过程中,研究人员通过合合信息旗下扫描全能王“智能高清滤镜”功能,解决古彝文识别的版式检测、图像处理和文字识别等难题。“智能高清滤镜”通过算法大模型,让AI代替人去“思考”,达成图像识别、检测、分析、研判、结论的全链路闭环。
  目前,全球已有多家技术厂商、机构采用AI技术助力古籍保护。古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑表示,基础编码的发布,意味着这些文字在数字社会里从此拥有了“身份证号码”,能够被更多地展现在网络空间上,被更广泛的人群看见、认识、研究。
(文章来源:新华财经)
免责申明: 本站部分内容转载自国内知名媒体,如有侵权请联系客服删除。

用AI“抢救”濒危古文字 合合信息发布古彝文基础编码“大字典”

sitemap.xml sitemap2.xml sitemap3.xml sitemap4.xml