知方号

知方号

激活中华典籍的“数字生命” <古籍在线检索工具有哪些>

编者按

我国古代典籍卷帙浩繁,见证着中华民族悠久的历史,是中华文化的重要载体。2023年10月,习近平总书记对宣传思想文化工作作出重要指示,明确提出要“着力赓续中华文脉、推动中华优秀传统文化创造性转化和创新性发展”。2023年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,明确提出“推进古籍数字化”。同年10月,全国古籍整理出版规划领导小组印发《2023—2035年国家古籍工作规划》,将“国家古籍数字化工程”列为四项重大工程之一,对相关工作进行详细规划。那么,当前我国古籍数字化的建设状况如何?产生了哪些大众喜闻乐见的案例?未来又该如何优化发展?围绕上述问题,光明日报记者会同中央民族大学组成联合调研组,对参与古籍数字化建设与传播工作的图书馆、科研院校、互联网企业、出版单位等工作人员开展深度访谈,并对文化类数字产品的活跃用户—青年群体进行问卷调查(有效问卷689份),在系统梳理古籍数字化建设经验的基础上,针对其高质量发展提出对策建议。

轻点鼠标,随着一缕悠远的音乐,“永乐大典”在隽秀的书法背景中缓缓浮现……

 

“终于让我们普通读者一睹国宝真容。”家住山东滕州的古籍爱好者李庆,在电脑屏幕前浏览《永乐大典》数字版时发出感叹。他所观看的,是由国家图书馆出版社有限公司和北京大学-字节跳动数字人文开放实验室联合研发的“《永乐大典》高清影像数据库”。历经600多年风雨,成书于明朝的《永乐大典》存世数量不及原书的4%,眼前的影像数据库让每一位读者都能感受它的厚重与魅力。

保护和传承中华古籍不仅是维护中华文明根基的重要任务,更是向世界传播中华文化智慧、造就中华文明新形态的关键环节。在学术意义上,古籍数字化意味着运用数字技术对古籍进行收藏与保护、整理与研究、呈现与出版,而在更广阔的人类文明衍进层面,数字化使古籍中的智慧精华,能够通过趣味性、前沿性和大众化的方式,得到传播与推广。调研中,98%的受访者认为应对古籍进行数字化转化,几乎相同比例的人认为数字技术对古籍保护和传承发挥着显著作用。

焕新以数字科技赓续中华文脉

古籍保护层面,数字化实现古籍生命永久存续,助力海外遗珍重现容颜。

中华文明是世界上唯一没有中断的文明,在数千年历史进程中,传世古籍浩如烟海。古籍不仅包含传统线装古籍,还包括甲骨、简帛、碑帖拓本、古地图等。《中国古籍总目》显示,我国现存古籍约有20万种。数字科技从根本上改变了古籍保护逻辑,通过“数字孪生”和“入库共享”,使古籍以数字形态永久保存。

“古籍数字化关系到我们国家文化资源的安全。古籍一旦遇到火灾、水灾等,将带来不可逆的损坏”,国家图书馆(国家古籍保护中心)办公室介绍。由国家图书馆(国家古籍保护中心)建设的“中华古籍资源库”,目前已发布古籍资源10.3万部(件),共2640万页,其中,读者利用率最高的善本古籍,已有2万多部实现上网。

对于壁画、彩塑等无法永久传世的文化形态,数字复刻更为重要。敦煌研究院的“数字敦煌”项目,将洞窟、壁画等制作成数字图像,一方面能永久保存敦煌文化信息,另一方面可使游客将线上参观与实地游览相结合,降低过量游客进入洞窟带来的文物保护压力。

除了在时间维度上永久延续古籍生命,数字技术还打破空间限制,使散布于国外的中华古籍能够以数字方式重现真颜。公开资料显示,由山东大学作为主体单位实施的“全球汉籍合璧工程”,对境外存藏的中华古籍进行调查摸底和数字化回引,至2023年7月,已经发现1900多种中国大陆缺藏的珍稀汉籍,并复制回归1600余种。

古籍整理层面,数字化推动古籍搭上智能“快车”,促进整理工作提质增效。

在影像复刻基础上,运用人工智能技术对古籍文本进行提取、标引、分析等,是数字科技助力古籍传承的关键一环。北京大学数字人文研究中心主任王军曾指出,依照国内修复整理古籍的速度,可能需要300年才能将现存古籍全部修复整理出来,但借助人工智能技术,这一时间大概会缩短至二三十年。

“古籍的数字化整理部分,我们从人力和资金的投入上来说是比较多的”,字节跳动公益古籍项目相关负责人告诉调研组。由于数字化整理需要把纸本内容转化成数字文档,古籍特有的假体字、异体字和书写方式等,对转化准确率形成挑战。在文本提取基础上,自动断句、自动标点以及识别文本中的人名、地名、官职名等,更体现着智能科技对古籍整理工作的颠覆式迭代。

当然,机器无法百分百准确地识别语义,人工标注和校对依然重要。借助数字平台,古籍整理的众包模式悄然兴起。中华书局下属的古联公司在2018年推出古籍整理众包平台,2023年上线了能在移动端分发任务的“i编纂”小程序。公司总经理洪涛向调研组介绍:“众包平台有5000多位注册用户,他们是来自各行各业的古籍爱好者。”据悉,该平台上编校过的任务近5万个,处理的古籍超14亿字。

古籍传播层面,数字化推动“蒙尘”古籍走向前台,搭载互联网实现开放共享。

小谭是中国古典文献学专业的在读研究生,日常学习“穿梭”于各大古籍网络平台。“这些平台基本能满足对材料的初步检索搜集,许多平台还提供珍贵古籍书影数据,不用去各地奔波就能看到古籍原貌。”

点开国家图书馆(国家古籍保护中心)建设的“中华古籍资源库”,排列着数字古籍、数字方志、赵城金藏、碑帖菁华、甲骨世界等20余个子栏目,支持单库检索、多库检索、精确检索、模糊检索。由北京大学-字节跳动数字人文开放实验室打造的“识典古籍”平台,提供原本影像对照、繁简转换、文白翻译等功能,并对内容添加了标点和注疏,还能显示文中人名、地名、书名等专有名词详细介绍。据调查,超过80%的受访者期待使用集搜索、翻译、注释等功能于一体的古籍应用平台,这些功能使古文褪去晦涩难懂的外壳,极大方便用户阅读和学习。

分布于全国各地的珍贵古籍也借助数字化浪潮纷纷亮相。截至2023年9月,国家图书馆(国家古籍保护中心)联合各地图书单位开展了8次古籍数字资源发布活动,地方图书单位累计发布古籍资源超过2.8万部(件),参与发布的机构下沉至县级图书馆。针对全省各地市馆不少珍贵古籍已做数字化处理但未能发布的情况,浙江图书馆建立了“浙江省历史文献数字资源总库”,已发布古籍2600余种,约6.5万余卷。联合发布让散布于中华大地的珍贵古籍重焕光彩。

活化融古于今绘就现代文明

内容的活化:萃取海量古籍中的知识网络

将海量古籍文本进行数字化提取,就形成了汇聚先哲智慧的“大数据库”。借助智能分析技术,能够针对其开展深度文本挖掘、社会网络分析、时空关系分析、知识图谱建构等,让大众全面又直观地理解古籍中的知识网络。

浙江大学徐永明教授团队开发的“智慧古籍平台”,在提供文本分词、标注、释义、文白翻译等功能基础上,还为用户呈现古籍著者的世系图、社会关系图等。“未来的发展方向,是将古籍文本与结构化数据进行关联,实现智能化处理”,徐永明教授告诉调研组,他的团队还开发了学术地图发布平台,以地理信息系统为依托显示其规律性、综合性数据,比如李白、杜甫一生中的地理迁徙轨迹图等,这一平台在中学语文教学中得到广泛应用。

对古籍文本知识进行显性化提取,也是北京大学数字人文研究中心持续发力之事。近期该中心上线“文献溯源分析平台”,能够呈现词语在古籍文本中的出现频次、共现情况等,并可追溯句子的来龙去脉,观察句意相似句子在形式和内涵上的流变过程。“吸引大众参与是古籍活化的重点,要利用智能技术让社会

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lizi9903@foxmail.com举报,一经查实,本站将立刻删除。