“阅读需要X分钟”这个功能是如何实现的?

  统计/机器学习 自然语言处理    浏览次数:511        分享
0

现在很多新闻和文章的开头都有类似于“阅读需要X分钟”,这个功能是如何实现的?用的什么算法?

 

godfly   2019-05-21 11:38



   2个回答 
4

国外一个专栏网站medium透露过他们计算阅读时长的方法,我觉得中文也是类似的。

基本上一个简单的公式就够了:

阅读时长 = 总字数 ÷ 平均阅读速度(例如:275字每分钟)

在此基础上,再给每一张图像 12 秒的时间。

随着平台的发展,越来越多的文章图文并茂。而原来的阅读时长是以漫画等「要看得比较久」的图片为基准,如果以原来的算法计算,那一篇包含 140 张图片的文章阅读时长会高达 87 分钟,这显然不合理。

因此,图片的读取时间修正为第一张 12 秒,第二张 11 秒,依次减少 1 秒到第 10 张之后,每张以 3 秒计算。

设置阅读时长的原因其实很好理解,这样用户就可以方便地把握阅读的时机 —— 是在等公交的时候看,还是先收藏起来一会儿再看。

SofaSofa数据科学社区DS面试题库 DS面经

子京   2019-05-22 11:31

谢谢,看起来好像挺简单,挺容易实现的 - godfly   2019-05-30 13:51
2

我觉得不需要算法吧。正常人的阅读速度是一秒钟5个字,一分钟300个字,字数除以300就得到时间了。

如果文章里有视频,就再加上视频的时间,如果有图的话,每个图可以再加5到10秒的时间。

SofaSofa数据科学社区DS面试题库 DS面经

东布东   2019-05-22 10:19



  相关主题

自然语言处理中的Tf-idf是什么意思   2回答

怎么判断一句中文话语是否通顺   1回答

jieba分词中最大正向匹配法是什么?   1回答

nlp里的stemming是什么意思?   2回答

教程中的利用Word2Vec判断是否是白话   1回答

文本处理中stop word什么意思   2回答

文本处理中的tf是什么意思?如何计算?   1回答

有个一万段文字 有一个关键词列表 找出文字中含有关键词的那些文字   1回答

gensim的word2vec模型是skip-gram还是cbow?   1回答

python里实现词云的package   3回答

gensim里word2vec的window指的是什么?包括的范围是多大?   1回答

bert里cls和sep分别是什么意思?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!