gensim.models.word2vec模块的LineSentence有什么用?

  统计/机器学习 自然语言处理 Python    浏览次数:8766        分享
0

gensim.models.word2vec模块的LineSentence有什么用?

 

ziyu   2019-12-29 18:24



   1个回答 
3

LineSentence是按行读取文件中的每一行,

infilename = 'sample_text.txt'
lines = gensim.models.word2vec.LineSentence(infilename, max_sentence_length=10, limit=3)

max_sentence_length是返回的每句话中元素的最大个数,limit=3是说读取sample_text.txt中的前三行。

for line in lines:
    print(line)

你可以用上面的方法把lines里的每句话打印说来。

假如你的文件里一共有8行,第一行有16个词,第二行有8个词,第三行有22个词。那么你lines里最终得到的是六句话,第一句是10个词,第二句是6个词,第三句是8个词,第四句是10个,第五句是10个词,第六句是2个词。

你试试就知道了。

SofaSofa数据科学社区DS面试题库 DS面经

u_u   2020-04-19 22:24



  相关讨论

怎么把训练好的bin格式的word2vec模型导入到gensim中使用?

gensim的word2vec模型是skip-gram还是cbow?

gensim里word2vec的window指的是什么?包括的范围是多大?

教程中的利用Word2Vec判断是否是白话

gensim训练出的Word2Vec模型每次都不一样

word2vec怎么处理一词多义的情况?

为什么基于skip-gram的word2vec在低频词汇相比cbow更有效?

word2vec的网络里为什么没有bias偏置项

gensim word2vec中wmdistance是什么距离?

训练word2vec时移动窗口的大小怎么选择?

  随便看看

NLP里的OOV是什么意思?

怎么把pandas dataframe中一列英文文本全部转成小写?

plt.scatter plot怎么让不同的类别有不同的颜色

什么是K-Modes(K众数)聚类法?

python去掉中文文本中所有的标点符号