如果需要修改,请先确定您已经登录
 如果您没有使用过Wiki,请查看帮助
 为了防范垃圾广告,现在仅有已经注册的用户才能注册新用户。如果您需要注册请找一个身边有账号的朋友,或者发邮件到11210190001ATfudan.edu.cn

文本挖掘

来自经济物理Wiki
跳转到: 导航, 搜索

文本挖掘 Text Mining 文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类文本聚类概念抽取文本挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。

文本挖掘和数据挖掘都区别主要有三点。其一,数据挖掘处理的往往是格式化数据,文本挖掘例如购物网站的数据库,而文本挖掘面对的是没有良好的格式化或者半格式化的数据,例如网页html的内容、一些研究公司pdf格式的文档等;其二,文本挖掘的数据即使在格式化之后仍然具有更高都维度,因为文本挖掘面对的研究对象主要是文字,还涉及文本的语义处理(中文分词等),还需要进行降维操作。

现在文本挖掘已经广泛应用在金融、医学、计算机等多方面都科研生产当中。

安克难

个人工具
名字空间

变换
操作
导航
友情链接
工具箱