为总结公共图书馆智慧化创新应用实践经验,发挥典型示范作用,促进公共图书馆管理和服务与现代科技全面融合,推动公共图书馆智慧化转型,2024年,文化和旅游部面向各级公共图书馆,按照智慧化管理、智慧化服务、智慧知识资源建设、线下智慧空间等类别,遴选出一批运用5G、大数据、人工智能、物联网等新一代信息技术的智慧图书馆创新优秀案例。为便于各地学习借鉴优秀案例的做法,现将优秀案例的主要内容予以集中展示(按类别排序)。
基于大数据的图书馆智慧管理
南京图书馆
一、项目建设背景
从国家战略层面上看,大数据已经成为继矿产、石油、水、土地和食物资源后的国家战略资源。2015年国务院发布《关于促进大数据发展的行动纲要》,从国家层面制定大数据战略发展规划,提出加快政府数据开放共享、推动资源整合、提升治理能力三大任务,其中包含公共服务大数据工程等十大工程。2022年5月中共中央办公厅、国务院办公厅印发了《关于推进实施国家文化数字化战略的意见》,提出“到2035年,建成物理分布、逻辑关联、快速链接、高效搜索、全面共享、重点集成的国家文化大数据体系”。
当前,信息化正在开启以数据深度挖掘和融合应用为主要特征的智能化阶段,图书馆发展正在进入智慧时代,大数据是智能化的基础,是建设智慧图书馆的重要前提。基于大数据,能从更多更细的维度,采用新的方法手段,全方位全视角展现全省图书馆事业的演化历史、当前状态和全局态势,能为行业管理者、学术研究者、图书馆决策者和工作者等各类人员研究发现图书馆运行客观规律和存在问题,预测预判图书馆发展趋势和未来状态提供必要的数据支撑。
二、主要做法
(一)项目建设内容及实施过程
“江苏省公共图书馆大数据服务平台”于2018年6月启动建设,2020年获江苏省智慧文旅示范项目称号。2021年4月,联合南京大学成立“图书馆大数据应用江苏省文化和旅游重点实验室”,是省文旅厅首批认定的重点实验室。2023年10月,“大数据服务平台”项目入选2023数字江苏建设优秀实践成果。几年来,江苏省公共图书馆大数据中心在组织协调、数据采集、数据治理、数据服务、应用研究等方面取得了成果,为图书馆高质量发展和智慧图书馆建设提供了数据支撑。目前该项目已完成四期软件平台迭代开发任务,构建了较为完整的数据采集汇聚管理、数据可视化和统计分析、智慧采访和编目应用软件功能体系。项目实施分两个阶段:
第一阶段:基础平台开发和数据中心初建阶段(2018-2020年)
(1)2018年,全面启动“江苏省公共图书馆大数据服务平台”一期项目,建设内容为“图书馆馆情填报系统、图书馆业务数据采集清洗系统、纸质文献统一检索系统、大数据统计可视化展示系统”的软件开发和全省75%的公共图书馆数据采集工作。
(2)2020年,建设“江苏省公共图书馆大数据服务平台”二期项目,建设内容为“图书馆大数据统计报告系统、馆情查询服务系统、读者活动数据采集系统、读者流量数据采集系统、实时数据发布系统”的软件开发,全省图书馆大数据中心初步建成。
第二阶段:全面建设和深化服务阶段(2021年-)
(1)2021年,建设“江苏省公共图书馆大数据服务平台”三期项目,建设内容为“采集数据监控服务系统、数据接口服务系统、书目数据清洗系统、优化升级馆情填报系统和文献统一检索系统”的开发。
(2)2022年,对“江苏省公共图书馆大数据服务平台”进行软件迭代开发,新建书目数据智慧更新系统;全面开放大数据统计报告系统,支持各馆定制个性化数据报告;开放大数据实时展示服务,支持各级公共图书馆定制本区域实时数据展示。
(二)项目功能作用
本项目基于体系1+3+N进行建设,即:一个全省公共图书馆大数据中心(数据服务中心);三种数据采集汇聚(图书馆动态数据、图书馆静态数据、图书馆与之关联的其他社会经济数据);以及基于大数据的N个应用系统。
按照功能目的可分为数据管理、辅助决策和业务管理三类。主要是面向各级文化主管部门领导(文旅厅局)、各级图书馆工作人员和管理人员、应用软件开发人员、研究人员提供服务。各个系统的功能说明如下:
1.数据管理类
数据管理类功能系统主要包括:数据采集(多源多种图书馆业务管理系统数据采集)、馆情填报(图书馆人财物保障条件详细信息填报)、数据清洗(多源多种业务管理系统的馆藏书目、读者外借等数据清洗)、数据开放管理(对八大类50多个API数据接口提供数据开放服务管理)等4个功能系统。
(1)数据采集
系统可采集国内外各个厂商各种版本的图书馆业务管理系统的数据,包括但不限于图创、汇文、力博、图星、ILAS、ALEPH等主流管理系统;可实时并发采集数百个图书馆的文献流通、读者用户和馆藏数据。支持多种采集方式(全库采集、批量采集、增量采集)和灵活的采集策略(数据对象、间隔时长、起止时间等)。
系统能对数据采集进行全过程全方位监控,对网络、数据库等各种异常情况和故障进行诊断分并记录,根据图书馆业务规律对数据的完整性和合理性进行判断和记录。提供了全面的采集信息可视化监控功能。
(2)馆情填报
对公共图书馆的主要构成要素(建筑空间及设备设施、经费投入构成、机构组织人员等)的详细信息进行填报数据采集。设计了综合信息、详细信息、直属服务单元信息、乡镇街道基层图书馆、社区图书室、合作分馆和流通点等6大类392个填报指标项,是一种全层次全方位摸家底式的在线数据填报系统。
(3)数据清洗
对采集完成的数据进行数据分析、清洗、转换、加载与集成。一是对馆藏书目数据进行清洗,将各个图书馆的不同来源的书目数据与国家标准书目数据进行关联;二是对各图书馆的文献外借数据进行清洗,依据读者信息、所借图书信息和借书行为建立机器学习清洗模型,区分出合理借阅数据和异常借阅数据。
(4)数据开放管理
通过申请、认证、分级、调用、管理、监控等完整的管理功能,有效且安全可控地将8大类50多个API数据接口提供给各图书馆、主管部门或行业机构进行应用开发调用,从而形成多领域数据融合开放共享的格局。具备数据开放用户界面,提供各个API接口的说明文档以及接口开发指南,满足用户对数据API调用的申请需求。数据接口包括常规数据接口和实时数据接口两大类型。常规数据接口包括一个统计周期的馆藏、读者数、外借、馆舍、年经费、活动、读者人次、机构信息等;实时数据接口包括实时或最近的客流、外借、读者、馆藏等。
2.辅助决策类
辅助决策类功能系统主要为图书馆及行业主管部门以报表或可视化等方式提供全省或一个地区图书馆的服务效能、业务建设和保障条件方面指标的多维度统计和分析结果。具体包括大数据统计可视化展示、实时数据发布和智慧统计报告3个功能系统。
(1)大数据统计可视化展示
从资源、读者、流通与综合信息四个方面,对全省、地市以及单馆进行多维度数据统计并以直观的图形进行可视化展示,各级图书馆及主管部门均可使用独立账号进行访问。各级机构管理人员可以直观了解图书馆的资源利用状况、用户行为、服务效能等重要信息,为决策提供数据支持。
(2)智慧统计报告
基于全省大数据,对图书馆保障条件、业务建设和服务效能的各项统计指标进行表格化组配,形成一系列统计报表单元,用户根据统计报告内容需求选择若干个所需的统计报表单元,设置相关的统计对象馆(群)、统计时间等统计范围条件,再编辑与统计报告相关的说明文字和报表格式,最终形成一个统计报告模板,将报告模板提交给计算机后台进行统计处理和格式化输出,可自动生成满足全省、各地区、多馆、各馆所需主题(馆藏、读者、流通)的任意时间周期(如月度、季度、年度)统计报告。目前系统已建立了200多个图书馆指标统计报表单元,可满足全省各级图书馆各类主题的统计报表生成需求。
(3)实时数据发布
基于实时采集的或设定时间周期采集的全省图书馆读者到馆流量、文献外借量、读者办证量、新增文献量、读者活动量等大数据,在大屏、手机、电脑等设备上以动态刷新的图形方式展示全省、一个地区或一个图书馆的实时客流、外借、活动等服务运行情况和最近读者、文献等增长变化情况,供图书馆和管理部门人员了解判断图书馆的运行和发展动态。系统具有对各类数据进行实时监控和分析处理功能,确保数据的合理性、完整性和可靠性。
3.业务管理类
业务管理类功能系统主要是基于对全省图书馆大数据的数据挖掘,分析出图书馆的业务规律,将规律性结果融合应用到图书馆的业务管理系统中,实现系统的智能化。业务管理类功能主要包括智慧采访和智慧编目。
(1)智慧采访
系统基于100多家图书馆读者借阅大数据及馆藏大数据统计分析结果,结合图书馆采访原则、采选计划(包括经费、特定分类主题)、全国出版发行数据(最新中国版本图书馆CIP数据),采用先进的机器学习数据模型,一键式生成图书采购智慧预选订单。实现了真正按读者需求选购图书的目的。系统支持智慧预选书单各种类型格式导出功能,支持第三方软件数据需求定制开发。
(2)智慧编目
系统基于全省图书馆馆藏书目大数据,参照国家标准书目数据对各馆书目数据进行深度比较检查,并自动批量将各馆运行系统的非标数据更新转换为国家标准数据,实现全省书目数据的标准化和统一化。系统支持全量和增量级的定时自动检查比较分析,比较分析的策略包括:对应字段比较分析、全字段比较分析、图像特征信息比较分析(如果有封面等图像数据)。系统在更新数据前备份原始数据以便恢复;系统支持将无法全自动更新的书目数据列入人工处理序列,由编目人员进行人工处理。
(三)项目技术应用
1.大数据体系架构
本项目在数据采集、存取方面采用了以Hadoop技术为基础的大数据分布式集群技术架构和应用数据计算平台体系,在此基础上提供一整套数据处理和应用工具。具体如下:
(1)主要的开发语言与架构:Java语言和J2EE开放架构;
(2)操作系统:Linux企业版;
(3)分布式计算架构:Hadoop;
(4)中间层使用ETL+Hadoop技术进行开发;
(5)后端数据存储采用分布式数据库系统;
(6)大数据处理转换:大数据ETL工具;
(7)大数据服务总线:大数据跨平台服务总线;
(8)大数据搜索引擎:分布式搜索引擎;
(9)运行环境:云计算环境+南京图书馆数据中心。
图9 图书馆大数据平台系统架构图
2.应用的数据模型
(1)智慧采访模型
基于如下4条原则的建立的智慧采访模型:1)基于借阅占比进行购买,基于比例去分配经费比例;2)利用率高的多买,利用率低的少买;3)平均外借册次高的多买,反之少买;4)借阅占比高于馆藏占比的多买,反之少买;基准借阅占比是共性主要参数,利用率、平均外借册次、外借占比与馆藏占比比值,是影响因子。
(2)外借数据清洗模型
基于数据建模统计分析的KNN分类模型,对外借记录进行训练预测大数据中外借异常数据情况。
(四)项目运行管理
本项目建立了“省厅主管、省图主建、全省参与、共建共享”的项目建设运行管理机制。
2018年11月省文旅厅向全省下发《关于开展江苏省公共图书馆大数据服务平台建设的通知》【苏文旅发(2018)30号】,在项目统筹规划和组织协调上,江苏省文化和旅游厅负责立项规划、项目监督、全面协调等工作,通过政府通知文件、专项资金支持和项目考核监管等措施协调各级文化主管部门组织发动、层层推进。在项目平台建设和运行管理上,南京图书馆负责项目建设实施、日常运行管理、全省数据服务等工作,创建了大数据重点实验室,通过签订合作协议、开展业务指导和人才培养、提供技术支持和全面服务、成立重点实验室等措施,实现了全省数据汇聚治理、数据共建共享的大数据建设目标。为更好实现共建共享大数据的目标,南京图书馆与全省119家市县图书馆就大数据的提供、管理、使用和服务签订《江苏省公共图书馆大数据共建共享协议书》。全省各设区市文化主管部门组织本地区各级图书馆对接南京图书馆,开展大数据服务平台建设和共享服务。
(五)项目建设资金及日常运营维护资金投入
本项目2018至2023年已经投入800余万用于平台开发、数据服务和平台维护。
三、实际效果
本项目构建了较为完整的软件功能体系,为江苏省公共图书馆高质量发展提供了强有力的数据支撑。具体建设成果如下:
(一)数据建设成果
构建了多馆多源大数据采集、清洗软件体系,协调发动全省市、县、乡镇图书馆参与大数据建设工作,到2023年底共采集汇聚全省图书馆有效数据7亿条,平均每天以18万条增长。其中:采集到112家图书馆业务管理系统的读者数据2485万条、馆藏数据1.2亿条、外借数据5.5亿条;采集到全省五级18196个图书馆(室)的填报数据500余万条;采集到79家图书馆的读者活动数据1万多条;采集到全省107家图书馆的读者到馆量数据162万条。此外,还购买了标准书目数据322万条,在版编目(CIP)数据60万条。形成了目前国内范围最广、类型最多、总量最大的公共图书馆大数据仓储。
(二)智慧管理应用成果
在数据管理方面,数据接口服务系统支持通过申请、认证、分级、调用、管理、监控等完整的管理模式,有效、可控的提供8大类50多个API数据接口。目前已为文旅厅等10多个单位提供应用数据接口,并为2家图书馆进行数据恢复,避免因数据丢失而造成重大损失。
在辅助决策方面,大数据统计可视化展示系统支持地市主管部门和各区县级以上图书馆分权限展示相关数据内容。智慧统计报告系统已建立了200多个图书馆指标统计报表单元,可满足全省各级图书馆各类主题的统计报表生成需求,并已连续36个月发布全省服务数据月统计报告,连续3年编制发布全省大数据年度统计报告,为50多个课题及研究人员提供专题数据服务。在2022年第七次全国县级以上公共图书馆评估定级中约有10家图书馆从大数据馆情填报系统中导出数据,作为评估定级填报参考。
在业务管理方面,实现了基于全省数据和模型的文献智慧采购功能,已有5个图书馆试用;实现了基于标准数据的各馆书目数据智能更新功能,已有20个图书馆试用。
(三)创新性突破成果
技术应用创新方面。本项目成果遵循大数据建设要求,采集汇聚全省域范围全部图书馆、各个应用系统的数据,真正具备了大数据的规模性、高速性、多样性、价值性等特点,在技术层面上,采用大数据技术建立了数据采集、数据清洗、数据治理、数据应用、系统运维等各个功能系统,是大数据技术在图书馆行业的一次应用创新。
业务管理创新方面。建立了“省厅主管、省图主建、全省参与、共建共享”的项目建设运行机制。
(四)未来发展预期以及产生的经济社会效益
当前,图书馆大数据应用基本上还停留在原生数据利用和统计数据服务阶段,未来将向以数据深度挖掘为主的数据分析和融合应用发展,“十四五”期间,将结合智慧图书馆体系建设发展目标,将大数据全面应用到智慧图书馆功能中。具体包括:文献智慧分配和调度、全域文献流通管理、文献资源精准推送、活动智慧管理等,这些智慧应用将会产生巨大的社会效益和经济效益。
四、经验启示
本成果填补了国内空白,是国内首个全省性的公共图书馆大数据服务平台,在国内首次实现了省域公共图书馆体系的数据汇聚治理、数据共享开放和数据开发利用。本成果已在江苏省各级文化主管部门和图书馆广泛应用,已产生实质性效益。相关经验启示总结如下:
(一)基于大数据解决问题
本项目解决了如下三大问题:一是基于全省大数据和大数据分析,以一种新的方法和新的手段全面、精准、深入细致了解到全省图书馆的运行现状、历史状况和发展趋势。二是基于大数据统计分析,能发现图书馆要素和重要指标的分布离散情况、要素之间的关联关系,分析出隐藏的、未知的或验证已知的规律。如馆藏与借阅、读者与借阅、空间与借阅、人口与借阅之间的数量关系。三是基于大数据智能分析,如采用各种神经网络技术(如卷积神经网络、生成式对抗神经网络GAN)建模对大数据进行更深层次的挖掘,大数据分析从事物要素的关联关系分析提升为因果关系分析,通过改变参数值能够得出事物发展可能结果,从而为决策提供指导性分析。如通过改变开放时间、借阅规则,能准确预测到读者办证量、读者到馆量、文献借阅量等服务效能结果。这是未来本项目进一步努力的方向。
(二)项目成果具有可推广性
大数据服务平台的推广有利于国内省级公共图书馆体系进行标准化业务建设,全面化、权威性地发挥公共文化服务数据效能,为各类机构和个体提供专业化数据服务,形成可持续的数据共享共建体系,为我国图书馆的数字化转型和智慧化发展打下坚实的数据底座基础。本成果能对国内各种图书馆业务系统进行数据采集,符合国内图书馆的普遍需求和标准化要求,具备通用性、可复制性和推广性。
本项目在技术上采用的最通用的Hadoop分布式系统基础技术架构;在数据源方面,能够针对国内所有主流的图书馆业务管理系统进行数据采集;在应用服务系统方面,充分考虑国内图书馆的普遍需求和标准化要求,具备通用性和推广性。目前,已经在黑龙江省公共图书馆完成了平台部署,基本完成全省70家公共图书馆业务系统的数据采集,平台已投入试运行。
本站文章大部分为原创,用于个人学习记录,可能对您有所帮助,仅供参考!
