碎片化设计重构数字出版演进史

刘志伟
2016-12-16
来源:中国出版传媒网

作为后工业时代的一种新型产业形态,数字出版的内容构成、产业特点、发展规律、经营策略等诸多方面与传统出版业都有本质的差别,既有的管理制度、管理模式、研究范式已不再适合。当前大多数的出版企业已经完成了对纸质内容的数字转化,但数字产品形态单一、生产与市场需要之间差距较大、数字出版收入在出版单位总收入中所占比例不高、投入与产出较低等问题仍较明显。如何进行技术创新,并赋予尖端技术广泛的商用价值,成为业界需要认真研究的新课题。出版企业需要跟上新产业、新技术、新模式的发展步伐,引领数字出版产业的发展演进。利用碎片化深度加工、人工智能化数据挖掘、隐性知识发现、内容动态重组等手段,是完善数字出版的一大发展趋势。

知识元:动态重组出版资源

知识体系的解构重建不是一日之功。出版企业需要用非传统的编辑方式来加工生产内容资源,将其定向规模化地汇集,并通过专家系统进行深度挖掘、发现和组织。这一过程需要横向、纵向聚集梳理各类资源,形成智力支撑的内容和知识。尽管工程浩大,但在各个专业领域和教育领域,这些数字内容有望发挥比纸质图书更大的作用。在这一背景下,出版企业开始展开探索对数字产品的碎片化、动态化的设计。

化学工业出版社的相关负责人温强在与记者交流时谈到,该社正通过知识服务模式的不断创新,采用迭代开发的形式进行平台升级,进而实现动态化、智能化的知识服务。目前,化工社开展的专业领域知识服务工作处在“泛知识服务”的阶段,以化工社万余种存量优质出版资源为基础,以增量的出版资源为核心,通过个性化打造的全媒体出版资源管理系统、版权资产管理系统和化工类语义资源加工系统进行基础支撑,通过“化工知阅”平台进行知识资源的出版发布,已经基本打通泛知识服务的出版全流程。

对于出版企业而言,打造数字产品、构建知识服务体系的同时,离不开对“知识元”的透彻理解和应用。所谓“知识元”,是指不可再分割的具有完备知识表达的知识单位。此前,同方知网技术有限公司基于知识元级别做了一些知识服务,在动态出版平台上进行深层次加工,包括知识库、知识元库、动态存储、结构化存储、内容碎片化等,为读者提供服务,形成一个知识生产、加工全流程的实际系统。又如,中南大学出版社开发制作了中国有色金属知识库,知识库的核心内容是其出版的有色金属图书和期刊全文内容以及有色金属行业期刊文献的摘要信息,涵盖地质、采矿、选矿、冶金、材料等相关学科内容。为了重组知识结构,体现碎片化、动态化的设计,该社并没有将知识库等同于单纯的数字化,而是经过具有专业知识背景的编辑标引,通过自主研发的“资源数字化加工平台”进行深度数字化,将其加工成为一个个“知识元”,形成有色金属专业知识的内聚与外延,成为具有知识网络结构的高质量专业知识库。

有了“知识元”后如果能将其进行“动态重组”,则会使得数字产品得到进一步完善。一位业外技术人员陈旷告诉记者,动态重组的步骤,首先是XML化,即出版资源的数字化、内容碎片化,遴选出有价值的知识内容制作成XML数据,包括篇章节、文字段落、图表、概念等。其次要对内容结构化存储,包含文本内容的结构、属性、关联信息,实现提取后数据完整性和结构化的标准化,自动将文档拆分为可重新利用的形式。有了内容组织后,要做的就是按照定义进行多样化的发布,最后动态重组产品。相似的,人民卫生出版社正在搭建的药学互动型知识库,也强调“动态”“互动”。其是以临床实践需求为导向,以智能服务为目标,旨在成为临床医生科学诊疗、合理用药、追踪学术、循证医学的权威工具。它改变数据库的单一搭建模式,突出实时更新、在线编写、循证实践、智能综合服务的特点,构建智慧互动型知识库,建立医药卫生数字服务新业态。

碎片化:升级内容检索标准

数字出版已经迎来大数据时代,检索功能的重要性开始提升。传统的数字产品包括对标题、关键字、全文、作者等项目检索,但随着用户和读者进行相关图书信息搜索的需求越发多样化,此前的检索方式由于不适应自然语言的结构而明显落伍。因此,形成独有的对知识点检索、图检索、表格检索、公式检索等功能,将为用户提供创新的科技知识服务。

读者自定义的搜索主题是用自然语言表述,是由字和词按一定规则构成,还可能包含一些符号或标点。图书内容也同样由这些基本元素构成。要想在两者之间建立起联系,就应当从这些基本单元入手。汉语中的词比单字具有更加完整的含义,所以把词作为基本的构成单元对待。将描述或构成图书内容的文本,拆分成具有独立含义的词,是寻找内容相关性的基本前提。而这一过程即“碎片化”。

出版企业在完善数字产品的一项重要步骤即对搜索引擎进行升级,从而确保用户或读者能够实现精准的检索,这样才能确保知识服务有效开展。就碎片化对搜索引擎性能的影响来看,科学出版社的相关负责人金安的观点颇具代表性。经过基本的碎片化加工之后,可以从出现频率的角度,定量地考察各相关词汇(索引词)与内容的相关度。但实践表明这还不够。由于没有对正文全部进行碎片化处理,就忽略了章节内容、长短对图书整体相关性产生的影响。因此,需要挖掘一些能够定性描述图书核心内容的关键词,来补偿或校正这一影响。既然这些词起的是定性作用,则需赋予其较大的权重,即其所代表的内容以高于平均值的频率出现在总体内容中。这一措施对提高搜索引擎的质量作出了重要贡献。

比如中华书局推出的“中华经典古籍库”(在线版)是此前推出的大型古籍数据产品“中华经典古籍库”(局域网版)的升级产品。它的创新功能就是强调“索引”。比如,中华书局专门为此搭建了“专名词库”将人名、篇目、事件、地点、职官、纪年等专名分门别类单独标引,构建这些知识点的资料库。又如提供“异称关联检索”,在繁简、异体字关联检索的基础上,整理并增加了人名、地名异称的关联,如字号、别号、谥号、官名等同步检索,简化了多次检索的繁琐操作,使检索更加灵活全面。

具体案例来看,南京大学出版社在2016年推出了“中文人文社会科学学术著作引文索引数据库”(CSSCI),项目的核心内容是构建人文社会科学各学科的双语术语库,为了建立双语术语库,核心工作大致可分为四个部分,即确定词汇来源、词汇采集与规范、术语翻译与术语库构建、术语库应用等。

谈及项目策划初衷,该社相关负责人戚宛珺介绍,知识服务是“十三五”规划期间出版行业融合发展的重要战略,为此除了需要制定一系列与出版行业相关的技术标准外,还需要建立较为规范的话语体系。规范化和标准化的学术术语库建设是话语体系建设的基础工程。

南大社在数据采集过程中首先对正式出版的各学科专业词典和术语词典中的词汇进行数字化,由专家审定后形成学科汉语基础词表,再借助研发的分词工具进行机器分词,对分词结果进行人工核对后交由专家审定,形成学科汉语核心词表。与此同时对CSSCI收录的学术文献进行整理,对期刊文献的关键词进行提取,对图书文献进行电子化加工并研发工具对电子化图书进行高频关键词提取;对关键词进行有效性筛选后与期刊关键词合并,进行机器分词,将分词结果进行人工核对后与第一部分数据加工形成的汉语核心词表比对,未能匹配的词语进行专家审定,审定有效的词汇与汉语核心词表中的词汇一起形成学科汉语术语词表。而在后续的动态更新过程中,此术语词表将代替之前的汉语核心词表作为底表供比对使用。

该项目最终词库应用,除了满足权威性外,还要满足准确性和有效性。为此,南大社在生成学科汉语术语词表后,对词表中的术语进行概念与语境抓取及核对,继而由专业团队结合资料、概念和语境进行术语翻译,并交由术语翻译专家和学科专家审定,将词条信息、翻译信息、概念信息、语境信息共同录入双语术语库,为学术翻译、学术交流及学术数据库精确化和国际化知识服务提供工具基础,同时在使用的过程中积累数据并挖掘用户行为,发现新的学术术语,经专家审核后动态更新学科术语词表。

分享