自然语言处理中的Tf-idf是什么意思

  统计/机器学习 自然语言处理
2

自然语言处理中的Tf-idf是什么意思?最好能有例子,谢谢!

 

雕牌   2017-05-01 20:03



   1个回答 
4

TF是term frequency,词频。

IDF是inverse document frequency,逆向文件频率。

比如我们有m个文件,TF-IDF是衡量一个词汇对于某个文件的重要性。

词汇$T_i$在文件$D_j$中的词频TF等于

$$TF_{i,j}=\frac{n_{i,j}}{\sum_{k=1,\cdots,m} n_{k,j}},$$

其中$n_{i,j}$是词汇$t_j$在文件$D_j$中出现的次数,分母是文件$D_j$中所有词汇的个数,作用是归一化。

词汇$t_i$的逆向文件频率idf等于

$$IDF_{i}=\log \frac{m}{1+|\{j:t_i\in D_j\}|}$$

其中 $|\{j:t_i\in D_j\}|$是m个文件中,包含词汇$t_i$的文件的个数。


接下来我们就有了tfidf的定义:

$$TFIDF_{i,j}=TF_{i,j}\times IDF_{i}.$$

$TFIDF_{i,j}$越大,说明词汇$t_i$在文件$D_j$中重要性越大,越有助于文件的区分度。



可爱多   2017-05-02 08:22



相关问题

文本处理中的tf是什么意思?如何计算?   1回答

python里怎么把中文字符串转化为成list   1回答

用python统计字符串中空格的个数   3回答

自然语言处理中的分词是什么意思?   1回答

请问NLP中这种编码方式有没有什么术语?   1回答

python去掉中文文本中所有的标点符号   3回答

word2vec的网络里为什么没有bias偏置项   1回答

gensim训练出的Word2Vec模型每次都不一样   1回答

NLP中的hashing trick是什么?   1回答

laplace光滑什么意思   1回答

为什么所有问答题目看不到   1回答

两个变量不相关但是也不独立   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!