大数据中蕴含的宝贵价值成为人们存储和处理大数据的驱动力.大数据时代处理数据理念的三大转变,即要全体不要抽样,要效率不要绝对精确,要相关不要因果.因此,海量数据的处理对于当前存在的技术来说是一种极大的挑战.目前,人们对大数据的处理形式主要是对静态数据的批量处理,对在线数据的实时处理,以及对图数据的综合处理.
为了应对大数据带来的上述困难和挑战,近几年推出了各种不同类型的大数据处理系统.借助于新型的处理系统,深度学习、知识计算、可视化等大数据分析技术也得已迅速发展,已逐渐被广泛应用于不同的行业和领域.如,北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
其中KGB(Knowledge Graph Builder)知识图谱引擎是我们自主研发的知识图谱构建与推理引擎,基于汉语词法分析的基础上,采用KGB语法实现了实时高效的知识生成,可以从非结构化文本中抽取各类知识,并实现了从表格中抽取指定的内容等。KGB同时可以定义不同的动作,如抽取动作,并能自定义各类后处理程序。利用KGB知识图谱引擎可以抽取到产品的详细报价信息,方便进行下一步的数据挖掘与图谱构建。
例如KGB语法:
Knowledge: { [/LE;/w]+[采购方;甲方;发包方; 需方]} +1+{[-(/LE;/w)]20}s+{[(/LE;/w)]}
Action: Extract
Argument:甲方单位
表示的是:
如果 句首或者标点后,跟了{采购方;甲方;发包方};后面1步内跟的不是标点也不是是句尾,20个单元内的部分,将选中的词抽取为甲方单位。
因此,数据挖掘技术是一个发展十分快的领域, 随着对数据挖掘技术在各领域日益广泛的应用,实现了数据资源共享及技术发展的跨域,从而大大提高了工作效率,并带来巨大的成功。21世纪是信息时代的社会,“信息不仅是资源,更是财富”,要实现经济的腾飞,需依赖高新尖科技的发展,故利用提供的信息,充分进行数据挖掘,则将为数据库的应用开辟了广阔的前景,也为人类的文明开辟了一个崭新的时代。同时NLPIR大数据语义智能技术将对中文数据挖掘技术进行深入研究,必将提供出高质量、多功能的中文数据挖掘算法并促进自然语言理解系统的广泛应用。