Tf-idf算法
# 什么是 TF-IDF 算法?
TF(全称 TermFrequency),中文含义词频,简单理解就是关键词出现在网页当中的频次。
IDF(全称 InverseDocumentFrequency),中文含义逆文档频率,简单来说就是该关键词出现在所有文档里面的一种数据集合。
TF-IDF 用来评估字词对于文档集合中某一篇文档的重要程度。TF-IDF 的计算公式为:
TF-IDF = 某文档中某词或字出现的次数 / 该文档的总字数或总词数 * log(全部文档的个数 /(包含该词或字的文档的篇数)+1)
TF-IDF 的思想比较简单,但是却非常实用。然而这种方法还是存在着数据稀疏的问题,也没有考虑字的前后信息。
在信息检索中,tf-idf 或 TFIDF(术语频率 – 逆文档频率的缩写)是一种数字统计,旨在反映单词对集合或语料库中的文档的重要程度。
它经常被用作搜索信息检索,文本挖掘和用户建模的加权因子。tf-idf 值按比例增加一个单词出现在文档中的次数,并被包含该单词的语料库中的文档数量所抵消,这有助于调整某些单词在一般情况下更频繁出现的事实。Tf-idf 是当今最受欢迎的术语加权方案 ...