随着网络信息技术的飞速发展,能获得的文本信息集合出现了爆炸性的增长。当人们在为如此海量、丰富的文本资源欣喜若狂的同时, 又不得不为很难发现其中蕴含的知识而扼腕叹惜。在现实世界中,知识不仅以传统数据库中的结构化数据的形式出现,还以诸如书籍、研 究论文、新闻文章、Web页面及电子邮件等各种各样的形式出现。 由于此类非结构化的数据源中也存在着大量的知识,因此也应该在这些数据源上进行数据挖掘,提取感兴趣的、潜在的有用模式和隐藏的信息。文本挖掘技术正是在这种背景下产生和发展起来的。文本挖掘指的是从大量的文本集合中发现潜在的模式和知识的过程。文本挖掘可以完成不同文档的比较,进行文档重要性和相关性排列,或者找出多文档的模式及趋势。因此,文本挖掘就成为了数据挖掘中的一个日益流行 且重要的研究课题。
文本挖掘从采集到知识的发现和使用是一个复杂的过程。首先需要确定文本挖掘的应用范围,包括收集应用所涉及领域内的背景知识,理解应用要求并且确定应用所要达到的目标等任务。之后确定目标文本集合,选取待处理和分析的文本。利用启发式规则和自然语言 处理技术从文本中抽取代表其特征的元数据,并存放在文本特征库中,作为文本挖掘的基础。经过文本预处理之后,根据应用的需要和文本的特点选择适当的挖掘功能。由于每一种文本挖掘功能都包含有不同的算法,各种算法又都有其自身的特点和适用范围,所以需要根据挖掘功能以及文本特点和用户需求,选取合适的算法,确定算法中包 含的参数。运行文本挖掘算法,寻找文本集合中的有用知识。算法运行完成后,以
某种方法对发现的知识进行评估,还可根据需要返回前面的步骤进行优化,直到满足要求为止。 解释说明发现的知识,以易于理解的方式提供给用户。把发现的知识运用于解决实际问题或供决策使用。
灵玖软件NLPIR大语义智能分析平台针对中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,先后历时十八年,服务了全球四十万家机构用户,是大时代语义智能分析的一大利器。
NLPIR大语义智能分析平台平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。
NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络采集、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。
中文信息处理技术从70年代的蓬勃发展至今,仅仅经历了短短20多年的时间,便完成了由初级阶段向比较成熟阶段的过渡,这是微电子技术和IT技术高速发展以及迫切的应用需求所促成的。
随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段,中文信息处理将具有更加广阔的市场。NLPIR大语义智能中文信息处理技术已成为中文信息技术研究、发展、应用和产业的提供了重要的帮助,在互联网日益成长的今天,NLPIR大语义智能中文信息处理技术将会更加成熟并创新。