1/0
殷商甲骨文已入库!历代出土文字材料都可数字化处理
新民晚报2021-05-28 09:55:00

微信图片_20210528094247.png

图说:汉语古文字数据库  采访对象供图(下同)

新民晚报讯 (首席记者 王蔚)今天上午,华东师范大学举行“冷门绝学”专业建设成果发布会,由该校利用图像识别工具与数据库结合创建的“中国文字数字平台”已经取得重大成果,殷商甲骨文、商周金文、战国楚简等可搜集到的文字均已入库,目标是将中国历代出土的实物文字材料都纳入可以运用数字化来处理和研究的范围。

以往的技术仅能识别出某个出土文字图像属于今天哪个楷字的字目,却不能确认图像是哪个古文字材料中的哪个字。因为,历代出土实物文字材料的用字,大面积未被国际标准字符集覆盖,约7万个古文献用字存在网络使用障碍。而且,过去常见的文字数据库普遍存在集外字无法检索的问题。而建设“中国文字数字平台”,正是为了推动古文字图像识别走出“抽象识字”的局限。同时,该平台的建成还能消除已有的其他一些古文字数据库的盲点,可以实现数字平台中图片载体材料与字符集载体材料的自动数字关联,营造出古文字资料大数据生成和机器识读的环境。

微信图片_20210528094235.png

据华东师大中国文字研究与应用中心副主任刘志基 、华东师大计算中心高级工程师陈优广介绍,“中国文字数字平台”已被打造成智能型古汉语文字的数字平台,迄今为止,智能检索数据库所包含的文字材料,覆盖了自殷商到明清整个汉字发展史上各种时段、各种类型的文字。先秦部分基本囊括了目前已公布的文字资料,先秦以后部分则汇集了各时段代表性的文字资料。因此,该数字平台堪称电子版的“字海”,可以提供覆盖整个汉字发展史的相关文字信息的检索查询。此外,研究团队通过海量文献用字的逐一整理,还研发了完整的出土实物文字字符集标准体系,覆盖数据库使用所有字符的有效输入检索手段,这样就能保证库内所有字符与标准码位的一字一码精确对应,保证了数据库各种资料都处于有效的数字化处理范围之内。因此,“中国文字数字平台”上的智能检索数据库,也就成为目前世界上唯一可全字符(集外与集内字、楷字与原形字、整字与偏旁)检索的出土汉语文字数据库。

据悉,在目前的平台里,殷商甲骨文数据库有7万余片甲骨,110万字;商周金文数据库有1.7万篇器铭,18万字;战国楚简数据库有9种著录,10万字;先秦古玺、古陶、古币和石刻文字数据库有3.7万方,16万字;秦汉简牍数据库有50种简牍,90万字;汉代金石文字数据库有3万方金石,20万字;魏晋至元代石刻文数据库有1.5万种石刻,300万字;唐代写本文字数据库有500篇,60万字;元明刻本文字数据库有四种刻本,24万字;明清手写文字数据库有920片文字,7万字;中国古代字书数据库有6万字头,300多万字……

我要爆料 联系电话:021-22899999 新民网新闻未经授权不得转载
作者:王蔚
知识产权、免责声明以及媒体合作联系
继续了解
知识产权声明

【知识产权声明】

除本司(指上海东方网股份有限公司)另行声明外,本司网页及客户端产品(以下简称“本网”),包括但不限于东方新闻、翱翔、东方头条等,所涉及的任何资料(包括但不限于文字、图标、图片、照片、音频、视频、图表、色彩组合、版面设计、商标、商号、域名等)的知识产权均属本司和资料提供者所有。未经本司书面许可,任何人不得复制、转载、摘编、修改、链接、镜像或以其他任何方式非法使用东方网的上述内容。对于有上述行为者,本司将保留追究其法律责任的权利。

东方网、东方新闻、翱翔,以上均为本司享有权利之合法商标,未经本司书面授权,任何单位或个人不得使用上述商标,或将上述商标用作网站、媒体名称等。

【免责声明】

1、凡本网注明来源“东方网”或“东方新闻”或带有东方网LOGO、水印的所有内容,包括但不限于文字、图片、音频视频,版权均属本司所有,任何媒体、网站或其他任何形式的法律实体和个人未经本司书面授权均不得转载、链接或以其他方式复制传播。与我司签订有关协议或已经获得本司书面授权许可的媒体、网站或其他任何形式的法律实体和个人,应在授权范围内使用,且必须注明来源“东方网”。其目的在于传递更多信息,并不意味着本司赞同其观点或认可其内容的真实性。如果其他媒体、网站或其他任何形式的法律实体和个人使用,必须保留本司注明的“稿件来源”,并自负全部法律责任。如擅自篡改为“稿件来源:东方网”,本司将依法追究责任。

2、擅自使用东方网名义转载不规范来源的信息、版权不明的资讯,或盗用东方网名义发布信息,设立媒体账号等,本司将依法追究其法律责任。

3、鉴于本网发布主体、发布稿件来源广泛,数量较多,如因作者联系方式不详或其他原因未能及时与著作权拥有者取得联系,或著作权人发现本网转载了其拥有著作权的作品时,请主动来函、来电与本司联系,或与本司授权的中国文字著作权协会联系,提供相关证明材料,我方将及时处理。
中国文字著作权协会联系方式:
联系人:赵洪波 唐亚静
地 址:北京西城区珠市口西大街120号太丰惠中大厦1027-1036室
联系电话:010-65978917
邮 箱:wenzhuxie@126.com

4、本网所有声明以及其修改权、更新权及最终解释权均属本司所有。

【媒体合作】

本司为尊重保护著作权,鼓励有益于社会主义精神文明、物质文明建设的作品的创作和传播,促进互联网良性发展,本着平等互惠、资源共享的原则,诚邀各类媒体、网站、单位、个人与本网建立友好的合作关系。
媒体合作、内容转载请联系
联系人:杨老师
联系电话:021-22899781