【热点回顾】

为中国古籍数字化探索新路
近日,由首都师范大学电子文献研究所、中国诗歌研究中心、清华大学中国古典文献研究中心联合主办的“第七届中国古籍数字化国际学术研讨会”在北京紫玉饭店召开。来自海内外高校及科研、出版机构、文博系统的60余名专家学者,包括来自日本、突尼斯、越南、马来西亚等国家的专家出席了研讨会。
本次会议主要围绕“大数据与人工智能对中文古籍数字化的影响”“移动终端环境下古籍数据库应用开发与设计”“中医古籍、谱牒文化、古典小说等专题数据库建设”“四库全书数据库建设”“古籍数字化教学与人才培养”“古籍数字化公共资源与知识产权研究”等议题展开研讨,希望为中国古籍数字化探索出一条可持续发展的创新之路。
开幕式上,首都师范大学李小娟副校长在欢迎词中表示,12年来首都师范大学在古籍数字化领域进行了多层次、多角度的尝试和探索,取得了可喜成果。2003年成立的电子文献研究所是全国高校系统第一个专门从事古籍数字化的专业研究机构。2008年创立的“数字文献学”,与出土文献学、文学文献学共同构成了首师大中国古典文献学的主体,由3个二级学科方向共同支撑的文献学专业在全国高校中独树一帜。近几年,学校在文献学专业研究生招生、科研教学环境改进等方面加大投入力度,2018年引进了国家图书馆原馆长詹福瑞先生为首师大的特聘教授,负责文献学的学科建设,争创一流学科。
中国民间文艺家协会邱运华书记、全国高校古籍整理研究工作委员会卢伟主任对首师大电子文献研究所在古籍数字化领域的工作的贡献予以了充分肯定。邱运华介绍了中国民间文艺家协会从2004年开始发起做中国传统文化的抢救工程,以及目前正在开展《中国民间文学大系》的编纂工作。“大系”将按照神话、史诗、民间长诗、民间说唱、民间小戏、谚语、民间传说、民间故事、民间歌谣、民间文学理论等12个类别编选,以省立卷,计划出版1000卷本,并同步建立数据库。
首都师范大学特聘教授詹福瑞先生指出,近两年来,在古籍数字化的开拓者、数字文献学学科负责人尹小林同志的带领下,首师大在古籍数字化人才培养、科研手段和成果形态方面取得了诸多成果。一是大型古籍全文检索数据库《国学宝典》已经被全球200多所高校和科研机构(包括中国国家图书馆)选用;二是约两亿字的《中华传世藏书》去年由浙江人民出版社正式出版,开创了古籍数据库在大规模古籍整理出版领域的一个成功案例;三是数字文献学三届硕士研究生顺利毕业并参加工作,标志着古籍数字化人才培养已进入良性循环的轨道。他表示,鉴于古籍数字化的重要性和紧迫性,首都师范大学将继续开辟学术阵地,创办学术刊物,并与清华大学紧密合作,在人文数字领域开辟出一片新天地。
清华大学刘石教授介绍了“基于大数据技术的古典文学经典文本分析与研究”课题及相关工作。他表示,清华将从“大数据时代的古代文学文本分析技术研究”入手,利用已经成熟的统计学、计算语言学等技术方法,构建适用于文学文本研究的(如比对查重、定量分析、人物网络关系等)统计分析、数据挖掘与算法模型。针对古代文学文本的特点,研发具有针对性和适用性的分析工具,并在此基础上构建相应的文本分析平台。
日本广岛大学本田義央教授与突尼斯、越南、马来西亚青年学者阿哈莱姆、易世安、刘勤分别以“谈谈日本汉译佛典的数字化”“电子信息化是阿拉伯文化传承、发展、交流的重要载体和必然手段”“越南古籍数字化的现状及意义”“中文书籍数字化在马来西亚的运用”为题,对本国的古籍数字化情况进行了介绍。
(以上来源:中国青年报,2019-10-14,作者章欣怡)
为了利用而保护——国家图书馆积极推进古籍数字化工作
2016年9月28日,由中国国家图书馆(以下简称“国图”)创建的“中华古籍资源库”正式开通运行,在线发布善本古籍影像10975部;2017年12月28日,又在线发布《赵城金藏》1281部、善本古籍影像2070部……
截至目前,“中华古籍资源库”已在线发布古籍资源3.2万余部,让国图超过60%的古籍善本资源实现在线阅读。
数字化是最好的保护方式
作为我国古籍收藏最丰富的单位之一,国图上承宋元以来历代皇家珍藏,旁搜明清以降南北藏书家毕生之积聚,形成1500余部宋元名刊、27万册古籍善本、70万件特藏、160余万册普通古籍的海量珍贵古籍馆藏。《敦煌遗书》《赵城金藏》《永乐大典》《四库全书》并称该馆四大专藏,可谓国之重宝。此外,国图还有甲骨卜辞、金石拓片、古代舆图、民族文献等无尽宝藏,其年代起自商周,迄于当代,充分展现出中华文明的源远流长、博大精深。
古籍,是中华优秀传统文化传承和发展的重要载体。然而,千百年来,许多珍贵典籍都不幸因各种因素及不可抗力而消失在历史长河。诚如明代藏书家叶盛所说:“夫天地间物,以余观之,难聚而易散者,莫书若也。”古籍保护工作关系到民族的未来,但如何才能实现有效保护?有一次,某位领导到国图参观时提出了这个问题,陪同参观的中国国家图书馆副馆长、国家古籍保护中心副主任张志清脱口而出的是3个字——“数字化”!
开展古籍数字化服务,不仅能从根本上把虫噬鼠咬、水火之患屏蔽于古籍之外,还能彻底打破古籍阅览的时空限制,从根本上实现不同地区、不同单位、不同级别的读者在获取古籍资源上的真正平等。
团结一切力量,更多更快发布数字资源
我国中文古籍的数字化工作虽然起步晚,但起步至今,无论是规模还是水平都已远超海外,这一方面得益于中华古籍保护计划的稳步推进,另一方面在于国图以有限资金,找到了一条快速发展的道路——在馆内开展数字资源建设的同时,积极对内促进“全国联动”、对外寻求“国际合作”,从而达成“更多更快发布古籍数字资源,努力完善古籍品种和版本,免费为社会公众提供服务”的目的。
自2007年中华古籍保护计划启动以来,国家加大了对古籍保护经费的投入力度,每年用于古籍数字化工作的专项资金在1000万元左右。但国家古籍保护中心的工作人员给记者算了一笔账,仅把现存已知20万个品种50万个版本的汉文古籍文献,每个品种和版本都选择一部进行数字化开发,加上图像采集、加工、标引、存储等费用,所需经费就高达60亿元,这还不算其他古代舆图、金石碑帖、少数民族文字古籍、外文善本等特藏资源的数字化。
“在有限的资金下,国图于2012年首先启动了馆藏善本缩微胶片的数字化工作。虽然它是黑白的,但成本低、进展快,目前已有近2万部古籍完成数字化。”张志清介绍,从2015年起,国图又陆续启动了“国家图书馆藏普通古籍数字化”“国家图书馆藏少数民族文字古籍数字化”项目,并积极建设各类特藏资源库,包括甲骨世界、碑帖菁华、敦煌遗珍等。如今,各类文献数字化已超过10万部(种)。
与此同时,许多古籍公藏单位也加快了古籍数字化的步伐。“如云南省图书馆对大理国写经等的数字化工作做得极为精细,注重体现细节,甚至能从图片上看到纸张的纤维。”张志清说,“我们已与这些图书馆达成了良好的合作关系,在承诺不用于商业开发的前提下交换数字资源的使用权。这种数字资源的互相备份,也为维护国家文化安全提供了保证。”
共同的目标,让协作进程逐步加快。2014年底,天津图书馆向国家图书馆提供总量5800余种约300万拍明清版本古籍数字资源;2016年下半年,云南省图书馆将139种727册95496拍的资源提供给国图……
此外,近年来,国家图书馆还携手全国21家古籍收藏机构举办了3次联合发布活动,在线发布古籍资源超过1.7万部,赢得社会广泛关注。
中国是世界上古籍流失最为严重的国家之一,为实现海外古籍回归,国图还开启了海外古籍数字化合作项目。2009年,国图与哈佛大学哈佛燕京图书馆达成协议,对该馆所藏中文善本和齐如山专藏进行数字化。2010年9月,“哈佛燕京图书馆藏中文善本特藏资源库”在国图正式发布,该项目共完成经部和史部善本数字化计741部11142册83.6万拍。此外,哈佛燕京图书馆还赠送了齐如山戏曲小说专藏204种。2009年11月,日本东京东洋文化研究所将所藏4000余种汉籍,以数字化方式无偿提供给国家图书馆。2015年,国家图书馆启动“海外中华古籍调查暨数字化合作项目”,在该项目的引领下,法国国家图书馆藏《圆明园四十景图》和5300号敦煌文献,大英图书馆、英国阿伯丁大学图书馆和牛津大学波德利图书馆藏《永乐大典》等一批珍贵文献以数字化形式实现了回归。
嘉惠学林,广受赞誉
“中华古籍资源库”自上线以来,其网络点击量呈逐年递增之势,点击量排名已跃居第3位,仅次于国图数字方志和中文图书的点击量。浙江大学教授薛春龙对国图在数字化建设方面的表率作用大加赞扬:“以前查善本资料,大多只能利用寒暑假,在国图附近找家旅馆住上一段时间,每天对着胶片机抄材料。胶片的借阅数量虽不受限制但装卸很费事,字迹也比较模糊。如今,只需一台电脑,便可查询海量资源。”
“古籍数字化能改变古籍整理研究的生态。鉴定古籍版本,我们一般通过序跋、牌记、刻工、避讳、字体可以大体确认,但还有大量证据不明确的,需要求助于兄弟馆的书影甚至海外的书影加以核对。过去,书影的交换主要通过书信的方式,今天数字化上线了,就可以随时核对书影了。”山东大学教授杜泽逊说。
很长一段时间以来,学者在一些古籍公藏单位提出借阅古籍时,有些馆会以“保护”为借口予以拒绝,但这种“深藏”的做法并不能发挥出古籍应有的价值。有关专家认为,推进古籍数字化服务已是大趋势,数字化很好地解决了古籍保护与利用的矛盾。
“国图的古籍数字化工作以实际行动为其他公藏机构作出了示范,许多网友更以‘前所未有的壮举’来评价这项嘉惠学林的惠民工程。希望国家能进一步加大古籍数字化力度,为实现文化的繁荣发展做好文献方面的整理、保护和利用工作。”有关专家表示。
(以上来源:中国文化报,2019-08-02,记者 李静)
数字化古籍:走出深闺待人识
《十年,哈佛燕京图书馆中文善本特藏数字化终完成,5.3万卷全部无偿共享,一键直达》,这篇发布于2017年8月的微信公众号文章,至今仍然不断被转发、阅读。
这篇文章热度不减的背后,是读者对于中国图书馆古籍数字化的殷殷期待:哈佛燕京图书馆的中文古籍只有4200部、5.3万卷,而国内现存的汉文古籍约300万部、3000万册,中国的古籍数字化能否跟上世界的脚步?
其实,近年来,国内不少图书馆都在对馆藏古籍进行数字化,仅国家图书馆“中华古籍资源库”在线发布的古籍就超过3.2万部,是哈佛燕京图书馆中文善本的8倍,而全国各图书馆在线发布的古籍总量已达到6.5万部。中文古籍的故乡在中国,绝大多数中文古籍存藏在中国,中文古籍数字化的主力也在中国。那些从历史深处走来的古籍,正在走出善本书库,走向互联网,走向更多读者的阅读生活。
国图60%善本数字化——研究生态就此改变
十几年前,浙江大学艺术与考古学院教授薛龙春还在南京艺术学院任教。连续两年暑假,他都专程到国图看书。那时,高铁还没开通,从南京到北京,坐特快列车要10个多小时,单程的硬卧票价200多元。到了北京,薛龙春住在国图附近的一家招待所,设施简单,每天100元,一住就是半个月。
搭上了时间,花了钱,看书的体验却不太好。说是看“书”,实际是看缩微胶卷。为了保护古籍,国图的大多数善本已经被拍摄成缩微胶卷,读者要在专门的机器上阅读这些胶卷。薛龙春关注的明末清初学人著作,很多是大部头,像张镜心的《云隐堂文集》和《云隐堂诗集》,加在一起有四十卷。一边翻动胶片机,一边阅读、抄写,有时需要回头查看某处文字,也没办法随意跳转,只能把胶卷一页一页地往回倒,其效率可想而知。
2016年9月,当国家图书馆“中华古籍资源库”上线的消息传来,薛龙春甚至不太相信会有这样的好事。直到亲自上网检索测试了一番,他才确定,这并非虚言。
“这几年,我一直在向熟悉的朋友、学生,还有一些海外学者,推荐这个资源库,他们都反映非常有用。”薛龙春说,他不仅通过这个资源库阅读古籍,有时也通过它进行一些校对,“如果没有这个库,或许,为了校对几个字,都得再跑一趟北京。”
对于中华古籍资源库的评价,学界有共识。北京大学图书馆研究馆员沈乃文说,2016年发布的“中华古籍资源库”,一举扭转了此前我国古籍数字资源库建设落后的状况。山东大学文学院教授杜泽逊则认为,“中华古籍资源库”等古籍数据库将改变古籍整理研究的生态,具有里程碑意义。
“读者无论在世界任何角落,只要有互联网,就可以在注册后远程阅览、调取中华古籍资源库中的古籍数字影像,完全克服了时间、空间的障碍,真正实现了古籍资源的共享。”国家古籍保护中心办公室主任林世田介绍,国家图书馆是国内古籍收藏量最大的单位,其收藏的汉文古籍在品种和版本数量上在国内都首屈一指。如今,国家图书馆所藏60%的善本古籍已经在“中华古籍资源库”在线发布。除了善本古籍的数字化,国图还在2015年启动了普通古籍数字化项目和少数民族文字古籍数字化项目。
“古籍数字化服务是图书馆界迟早要做的事,晚做不如早做,封闭不如开放,与其让社会推着走,不如我们主动前行。”对于古籍数字化,国家图书馆副馆长、国家古籍保护中心副主任张志清有这样的认识。
在古籍数字化的道路上,国家图书馆并不孤单。现在,上海图书馆在线发布的家谱超过8000种;在云南省图书馆发布的300余部古籍中,大理国写本《护国司南抄》、元官刻大藏经《大宝积经》这些特色文献;镇江市图书馆把读者利用率最高的20余种方志上网,正在建设中的镇江历史文献数字资源库、《镇江文库》数字化平台将在近年投入使用……
60亿元资金缺口:古籍数字化道阻且长
前不久,张志清开始利用业余时间整理三国时期刘劭的《人物志》,作为一名熟悉图书馆的普通读者,张志清首先想到的是去查一查中华古籍资源库——作为副馆长的他,并没有借用原本古籍的特权。刚好,那部明代万历刻本《人物志》已经上网。他进入资源库,点开一页,打印一页,点校一页,再打开一页,再打印一页,再点校一页……没花太长时间,就把这三卷书进行了初步整理。虽然自己用着还算顺手,但张志清也听过一些读者向他诉苦:资源库对浏览器、阅读器都有一定要求,即使按照网站给出的一套烦琐的“解决办法”逐步操作,有时也无法正常阅读古籍。
“我们刚起步做古籍数字化时,采用的是当时的先进技术,但电子信息技术发展很快,几年之后,原来的技术就已经不能很好地适应新的需要了。”张志清介绍,目前,国家图书馆正在开发一套新的系统,不久就会正式上线,新系统将实现云管理、云服务,中华古籍资源库的服务也将随之提升,读者会有更好的阅读体验,“看到华为鸿蒙系统问世的新闻,我感到很振奋。未来,图书馆的数字化服务可以与物联网系统结合,解决目前的技术传播短板。”
在很多专家看来,古籍数字化服务的技术问题终究可以解决,如何提供更多高质量的古籍影像,才是图书馆界面临的真正考验,这也是读者更为迫切的需求。
“中华古籍资源库每年都有一些更新,但速度还可以再快一点。学者的研究领域多种多样,仅靠这个资源库,还无法完全满足日常科研的需求,其他图书馆应该以国图为表率,让善本尽快上网。”薛龙春的期待,也是很多读者的心声。
让善本尽快上网,需要更多图书馆更为开放的理念,也需要更多资金支持。国家古籍保护中心办公室副研究馆员赵文友做过一个估算,如果将全国尚未数字化的40万个版本的古籍全部数字化,采集、组织、加工、存储、管理等费用大约需要60亿元。而国家古籍保护中心每年用于古籍数字化工作的经费不过1000万元,很多地方图书馆的古籍数字化经费更是捉襟见肘。
“在山东省图书馆,有限的古籍保护经费主要用于古籍普查、古籍修复等内容,古籍数字化的钱大多是从其他项目经费中节省出来的。”山东省图书馆副馆长李勇慧说,虽然该馆已经建设了易学古籍数据库、佛经专题数据库等项目,但是因为没有古籍数字化的专项经费,今后的古籍数字化做什么、做多少,既没有具体规划,也不敢做规划。
“近年来,古籍数字化工作愈发受到各图书馆的重视,地方财政也给予了一定支持,但古籍数字化经费一般是和古籍保护一般性支出捆绑在一起的,或者是在其他项目建设经费中列支的。”镇江市图书馆馆长褚正东遇到的问题,与李勇慧类似,“对于镇江市图书馆馆藏的18万册古籍来讲,目前通过多种渠道解决的古籍数字化经费是杯水车薪。财政部门没有对古籍数字化经费进行单独立项,是制约发展的首要难点。”
公共图书馆的免费政策,是否会导致古籍数字化的动力不足?北京大学中文系教授张剑提出了这样的疑问。不过,他也观察到,一些公司经营的收费古籍数据库,虽然建设速度很快,但因利益攸关,导致乱象纷呈,造成不少重复建设和浪费,结果是加重了读者的负担。
“古籍数字化工作,不能单打独斗,最好由国家有关部门统一组织协调,使之成为一个可持续发展的国家级文化工程,让中华优秀传统文化真正发扬光大。”张剑给出了这样的建议。
近些年,张志清一直在呼吁图书馆界利用好有限的古籍数字化经费,通过合作共建、资源权益互换等方式实现资源共享,避免重复建设。
“如果实现了数字资源共享,读者对甲馆的服务不满意,可以选择去乙馆的网站浏览;如果甲馆的服务器遭遇意外损害,乙馆还有副本留存。”张志清说,共享数字资源,不仅是为了提高图书馆服务的效率,也是为了保障国家文化安全。他希望他的呼吁得到更多人的响应。
(以上来源:人民网,2019-10-30,记者 杜羽)
【数据分析】
今年上半年,有800余年历史的巴黎圣母院遭遇大火,火灾中,高达93米的尖塔和大面积的屋顶坍塌,著名的玫瑰花窗也被烧毁。令人欣慰的是,巴黎圣母院已经有了一份精确可靠的数字档案,将在未来的重建中发挥不可替代的作用。由此可见,数字化保护措施在古籍保护中具有不可替代的重要作用。
古籍所记,皆为人类智慧之结晶。为了让书籍逃脱被毁的厄运,古人想到的是增加备份、分开保存,如四库全书被分藏于全国七座藏书楼即是一例。但是,即使到了科技如此发达的今天,我们仍然无法将无情水火完全屏蔽于古籍之外。因为,幸好有了数字化的手段,我们可以利用现代信息技术对古籍文献进行加工处理,使其转化为电子数据形式,通过光盘、网络等介质让古籍得到保存和传播。数字化无疑给了古籍以新的生命。
古籍数字化的意义,不仅表现在古籍的保存上,更表现在古籍的使用与传播上——在不对古籍原件造成任何损害的情况下,使其作为知识载体的功能得到最大限度的发挥,促进文化的传承与传播。从这个角度来说,古籍的数字化是一件功在当代、利在千秋的大事,是古籍保护历史和文化传播历史上的大事。数字化是解决古籍利用与古籍保护之间矛盾的最佳方案。
此外,古籍善本数字化将助推新时代文化繁荣和学术发展。经过全面的数字化处理,古籍善本本身的文本信息不仅得以彰显,且将其附带的批校、题跋、印章、纸背文献等信息也有效地展现出来。大量新信息的出现,必将为今后的学术研究提供广阔的沃土,也必将为新时代中华传统文化的繁荣和发展注入新的活力。
|