为总结公共图书馆智慧化创新应用实践经验,发挥典型示范作用,促进公共图书馆管理和服务与现代科技全面融合,推动公共图书馆智慧化转型,2024年,文化和旅游部面向各级公共图书馆,按照智慧化管理、智慧化服务、智慧知识资源建设、线下智慧空间等类别,遴选出一批运用5G、大数据、人工智能、物联网等新一代信息技术的智慧图书馆创新优秀案例。为便于各地学习借鉴优秀案例的做法,现将优秀案例的主要内容予以集中展示(按类别排序)。
中国家谱知识服务平台
上海图书馆(上海科学技术情报研究所)
一、背景
家谱是上海图书馆的重要特藏资源,也是公众最为感兴趣的资源之一。如何利用这些珍贵的资源来满足大众寻根问祖的需求、展示家谱资源、传承家谱文化,是上海图书馆一直以来所思考的问题。上海图书馆从2014年开始探索以数字人文的技术和方法来建设平台,对家谱据进行深度挖掘,从中提取姓氏、人、地、时、事等内容,并建设成人名规范库、历史纪年表、地理名词表等数据库,用这些数据链接和规范家谱文献,在数据底层建立逻辑关联,从而对公众提供数据和知识服务。2016年,上海图书馆推出了首个知识服务平台——中国家谱知识服务平台(https://jiapu.library.sh.cn/)。
二、主要做法
(一)项目建设内容及实施过程
中国家谱知识服务平台是上海图书馆对馆藏资源智慧知识资源建设的尝试,利用数字人文方法和关联数据技术,对中国家谱总目和馆藏家谱原文内容进行重组、丰富和格式转换,使数字图书馆以文献为中心的查询检索,向大数据时代的数据服务和知识服务转型。该平台自2016年推出后,已平稳对外服务7年,目前收录10万余种家谱,其中上海图书馆馆藏的有3万7千余种,其中7千多种家谱对外网开放查阅。
(二)项目功能作用及技术应用
1.功能作用
1)数据范围:包含全球630家馆藏机构的家谱书目数据,是全国最大的家谱联合目录;与多家机构共用的“家谱联合编目系统”数据互通、无缝对接,编目的数据可以直接进行服务,平台数据动态增加。
2)知识组织:揭示文献的书目数据的同时,揭示文献中的人、地、时、事相关的知识、事实和数据,探索世系表、迁徙图的内容组织方法。
3)服务内容:家谱元数据、全文影像图片、先祖名人相关介绍、谱系图、家规家训。
4)服务方式:提供文献检索服务的同时,提供数据可视化、数据统计分析、人/地/时/事多维分面探索,基于规范地名数据的地理空间服务等。
5)用户互动:开发了上传家谱、在线识谱和在线修谱等众包功能,支持用户贡献知识,并可以根据需要线上捐献和修谱,希望能够借助用户力量,丰富馆藏资源。
6)数据开放:为人提供知识服务的同时,为机器提供开放数据服务;为图书馆界开放数据,也在互联网上为第三方机构和个人开放数据;开放所有书目数据和规范数据,也开放部分全文影像。
7)数字展陈:在2022年9月新开的上海图书馆东馆中,上海图书馆基于中国家谱知识服务平台建设的资源、数据和知识,支持了家谱体验馆的各类展陈项目,如“君从何处来”、“生生不息”、“探姓觅谱”等。
将家谱知识服务平台中7万多种家谱,利用机器学习技术,基于事件本体做了数据提取处理,抽取始祖和始迁祖的迁徙事件,将其转换为语义化的关联数据,通过数据可视化和交互设计后,以可视化的迁徙航线图在大屏上向读者展示,给读者提供古往今来每个朝代的迁徙趋势的感官认知。此外项目还截取了数据较集中的移民潮,提供迁徙大事件的重点展演;开发了高级检索功能,支持馆员利用移动端设备(PAD、手机等)与大屏实时交互,按照个性化需求自由探索迁徙个案,开辟新的文献服务场景和新思路。
从读者在探索姓氏文化时的知识需求出发,通过一面实体姓氏墙展示家谱知识服务平台上的姓氏源流知识。展项选取现存家谱数量排名前300位的姓氏,参观者使用手机扫描某一姓氏后,在手机端查看该姓氏相关的姓氏简介、先祖名人、家规家训、家谱文献、迁徙历史等知识,并可分享。部分先祖名人有AI动态照片,供参观者体验。
展示馆藏家谱中胡适、李鸿章、盛宣怀三个家族可视化的3D家族树。播放精选家族树的生长动态视频;参观者也可操控PAD选择先祖节点和视角,并在大屏上相应播放。
在地图上展示家谱知识服务平台上收录家谱的分布情况。参观者可在PAD上绘制图形,搜索谱籍地在图形区域内的所有姓氏或某姓氏的家谱列表。
2.技术应用
上海图书馆采用的基于数字人文研究的资源加工与服务注重于内容分析与知识组织,对传统的数字化资源进行知识重组,通过数据收集、清洗、本体设计、加工、转换、可视化等步骤,把内容转化成细粒度的、规范化、结构化的数据,转换成可被机器处理和理解的知识,为读者提供面向内容与知识的精准服务,即可面向普通大众提供数据可视化的展示,也可面向专家辅助人文研究。
1)本体设计
本体设计是知识重组中非常重要的一环,本体设计的目的是一方面是为数据提供规范化和语义化的组织和编码基础,另一方面也服务于数据的开放和共享,以便与其他数据进行整合和交换,所以需要尽可能复用已有的规范标准,下图是项目建设单位所设计的家谱的本体,定义了文献、姓、人、地、时、事等概念及关联关系,而它的特点既是大多数字段都复用了已有的规范词表。
2)关联数据
在数据的层面,数字人文要求知识单元的细粒度化、知识组织的语义化、知识呈现的可视化。关联数据第一、二原则要求以HTTPURI来标识和定位一切事物(Thing),为互联网环境下的规范控制奠定了基础。关联数据的第三原则要求使用资源描述框架(RDF)作为抽象数据模型并尽可能多地揭示资源间的关系,是—种科学的知识组织方法。RDF以“主-谓-宾”结构的三元组作为基本的数据单位,不再以与一种文献对应的一条元数据记录作为基本的数据单位,—条元数据记录往往可以拆分成多个二元组。一个三元组是关于某个知识点、数据或事实的描述,具有独立描述逻辑,可以实现知识单元的细粒度化。关联数据的第四原则强调数据间内在的关联,并使得这种关联关系可被机器所理解,可以实现知识组织的语义化,因而基于关联数据的四原则来组织和发布家谱数据,可以很好地满足数字人文对数据的要求。
3)平台建设
图书馆的数字人文开放服务从内容到服务模式都需要平台来支撑。平台最大的特征是可伸缩性与能够满足需求的应变能力,可以通过模块化的架构来实现强伸缩性的目标,同时,以各类标准规范来管理平台上的各类模块、资源以及其他各类标准化的服务。其中,标准不仅限于图书馆行业的标准,也应同时参考信息网络界整体的标准规范架构,这样未来才能更好地与各类系统、资源开放互联。以开放化、平台化的思想进行系统的功能和架构设计,通过统一的访问接口,以RDF等标准的数据描述格式,将图书馆的馆藏资源和信息检索服务对外进行开放,方便读者对图书馆馆藏资源进行深度的利用。
4)数据可视化
利用计算机图形、图像处理、地图时空展示、虚拟现实等技术,将庞大复杂的数据形象的表现出来。常用与新兴展现方法技术包括地理信息系统(GIS)、关系图谱、虚拟现实(VR)、增强现实(AR)、混合现实(MR)等。可视化技术适用数据范围广泛,将数据通过图像、图标、动图等视觉形式,从时间、空间等维度展示,如作品分布图、人物关系图、迁徙图等。在中国家谱知识服务平台中,实现了时空图、地图、统计图、迁徙图等各类资源可视化展示。
5)数据开放
数据开放是大数据时代的发展趋势之一。图书馆的数字人文项目不仅为用户提供数据发现、检索、分析、展示等服务,还为用户提供数据开放服务,以促进数据资源的关联共享与深度挖掘,丰富数据的服务模式。家谱数据以应用程序接口(API)的方式提供开放数据服务,以基于HttpURI的内容协商、RestfulAPI、SparqlEndpoint等技术手段开放数据。一方面提供实时更新的数据,当后台数据更新时,不需要数据消费者修改应用程序就能获得最新的数据;另一方面,可对数据调用的情况进行统计分析,以便于调整数据开放策略,提供更好的开放数据服务。家谱数据自2016年起对外开放,同年上海图书馆举办的开放数据应用开发竞赛基于这一数据库,向全球征集以开放数据为基础的应用原型或服务创意,希望更加充分地释放平台中开放数据的价值,最大程度挖掘资源背后的应用潜力。
(三)项目运行管理
为了保证平台的正常运行,采用了跨中心协调运行管理机制,联合一线服务部门、系统网络中心、历史文献中心等多部门共同参与平台运维、推广和服务。为读者提供问题反馈窗口、收集用户问题,根据问题类型由对应负责人参与答复,确保能够及时反馈读者的问题。对于读者提出的意见与建议,在多方讨论、审核后按需进行系统功能升级迭代、数据补充修正完善、用户体验持续优化。每年提供一定的运维经费保障,有专业的研发团队支撑系统的稳定运行和不断完善。
(四)项目建设资金及日常运营维护资金投入
项目分两期建设,两期分别投入开发费50万元。自2016年起,每年数据加工费20万元左右,系统维护费10万元左右。
三、实际应用效果
平台年浏览量:100万余人次。
用户访问:资源相关展陈在上海图书馆东馆进行展示,吸引大量用户参观。
媒体报道:人民网、中国新闻网、上观新闻、纵相新闻等多家媒体跟进报道。
学术成果:作为国内图书馆界率先以关联数据和数字人文理念构建的知识服务平台,相关技术、理念、实践经验以论文、讲座等形式对外宣讲,在业界产生了一定的学术影响。发表相关论文如下:
[1]夏翠娟,刘炜,张磊,等.基于书目框架(BIBFRAME)的家谱本体设计[J].图书馆论坛,2014(11):5-19.
[2]夏翠娟,刘炜,陈涛,等.家谱关联数据服务平台的开发实践[J].中国图书馆学报,2016,42(3):27-38.
[3]夏翠娟,张磊.关联数据在家谱数字人文服务中的应用[J].图书馆杂志,2016(10):26-34
[4]夏翠娟.文化记忆视域下家谱文献价值的再认识和内容的深开发[J].图书与情报,2019.10
[5]刘倩倩,夏翠娟.家谱知识服务平台众包模式的设计与实现[J].图书馆论坛,2020,40(05):10-15.
[6]刘倩倩,夏翠娟,单舒扬.跨越千年的迁徙图——家谱迁徙数据的深度挖掘与可视化开发[J].信息资源管理学报,2024,14(02):95-103+161.
[7]单舒扬,夏翠娟,刘倩倩.资源与技术双重赋价视域下家谱知识服务模式探索——以“AR姓氏墙”展项为例[J].农业图书情报学报,2023,35(06):83-92.
四、经验启示
(一)解决的问题
资源分布散乱,缺乏统一展示平台:平台将全球范围内600余家机构、团体和个人收藏的家谱目录集中在一个平台上,方便用户进行家谱的检索和浏览。
资源发现困难,展示方式单一:上海图书馆家谱平台建设支持地图检索、分面统计、先祖名人导航、迁徙图、世系表可视化展示等功能,支持用户多维度检索、发现资源。
数据封闭孤立,缺乏开放共享:上海图书馆家谱平台建设以关联数据(LinkedData)的方式向互联网公开发布了基础知识库、文献知识库、本体词表,以及相关的研究资料,提供了各种数据消费接口,促进了数据的开放获取、共享和重用。
数据质量参差,缺乏规范控制:上海图书馆家谱平台建设利用了人名规范库、地理名词表、华人姓氏列表、收藏机构名录等关联开放数据集,实现了基于互联网的规范控制,提高了家谱数据的质量和准确性。
(二)创新经验
数字人文服务:数字人文带来了人文研究范式的革新,推动了知识生产方式和知识交流模式的变革。家谱知识服务平台建设全面探索了数字人文视域下图书馆资源组织、知识身缠和知识服务的新模式。利用数据清洗、资源整合、知识挖掘、数据分析、数据可视化、数据关联、关联数据(LinkedData)等相关技术,实现了对家谱资源的多维度、多层次、多角度的检索、展示和体验。
开放数据平台:向互联网公开发布了基础知识库、文献知识库、本体词表,以及相关的研究资料,提供了各种数据消费接口,促进了数据的开放获取、共享和重用。
众包参与模式:支持在线捐赠、在线识谱、在线修谱等功能,鼓励用户参与家谱数据的贡献和完善。利用大众知识盈余,丰富馆藏资源建设。
资源可视化展陈:将家谱资源中所蕴藏的知识以迁徙图、家谱树、姓氏墙等形式展示,结合互动设计,帮助读者更好地理解家谱数据中蕴藏的丰富信息,发现隐含的知识,引发对家谱文献本身的兴趣,促进家谱资源的开发利用。
全流程知识生产:数智时代的图书馆的知识生产包含资源的数字化、文本化、结构化、语义化与智慧化,最终形成可操控、可理解、可推理的数据之过程,家谱知识服务平台建设中,基于家谱联合编目系统实现了知识生产的全流程管理。系统实现了家谱采购、捐赠、编目、基于互联网的规范控制、专家审校与AI审校、工作量计算和不同维度的家谱编目数据统计分析、编目数据的导入导出、与FOLIO馆藏管理系统和中国家谱知识服务平台无缝集成的全流程管理;还实现了支持多机构在统一的系统上基于一致的著录规范进行家谱编目,同时利用上图数字人文建设已有的人、地、时、事等基础知识库,实现了在编目过程中对知识库中的URI参引、新知识注入和语义关联的补充丰富;并初步探索了如何将大模型技术引入到专家协同知识生产的过程中。
中国家谱知识服务平台为作为知识中介的图书馆重新思考知识生产方式、重组知识生产流程、提升知识服务效果式,以更高效快速地适应数字人文研究者对图书馆从提供文献服务转变为提供知识服务的新需求提供了参考。
本站文章大部分为原创,用于个人学习记录,可能对您有所帮助,仅供参考!
