字体
关灯
   存书签 书架管理 返回目录
    第154章 你渴望推开那扇门么(中)(第 4/4 页)

    如果是直接同伊芙·卡莉交流的话。

    面对着一个同行直接交谈的话,林灰并不能保证不会露出马脚。

    有翻译在的话,多多少少多了一层缓冲。

    尽管如此,林灰说话依旧要慎之又慎。

    伊芙·卡莉向林灰着重介绍了这个时空里人们是如何评估文本相似度的。

    按照伊芙卡莉的表述,林灰才知道。

    原来此时这个时空的人们主要是利用基于知识库的方法来计算语义文本相似度的。

    不过这个时空人们主要是利用基于网络知识的方法来计算的。

    林灰知道这种方法的。

    这类方法是基于知识库计算相似度的一种。

    这种方法主要利用网络大型知识库资源,如wiki百科和摆渡百科等。

    通过网页内容和网页间的超链接进行相似度计算。

    随着互联网的快速发展,网络知识愈加丰富。

    能够充分利用网络中的资源进行语义文本相似度计算自然是一个不错的思路。

    不过基于知识库的方法来计算语义文本相似度可不只是这一种方法。

    据林灰所知基于知识库的语义文本相似度计算方法根据知识库的类型其实是可以分为两大类。

    除了基于网络知识方法的话。

    还有一类是基于本体的方法。

    这类方法运用结构化语义词典进行计算。

    其基本思想就是运用这些语义词典中包含的概念信息和概念间的层次关系进行语义文本相似度计算。

    按理说既然想到了基于知识库的语义文本相似度计算方法的话应该首先想到基于本体的相似度计算方法才对才对啊。

    为什么没先想到基于本体的方法?

    反而先想到了基于网络知识的方法?

    回想起伊芙先前的自我介绍,林灰恍然大悟。

    伊芙的团队没想到这种方法也可以理解。

    毕竟伊芙他们的团队原本是和谷/歌方面深度合作的。

    基于网络知识的方法利用网页内容和超链接相似度进行计算的话虽然不容易。

    但谷/歌的老本行pagerank算法引入到nlp领域后实现的功能本就跟这个差不多。

    这样看来,和谷/歌方面的团队有过深度合作关系的伊芙团队忽视基于本体的方法而直接选择基于网络知识的方法也是可以理解的。

    说起来基于网络知识方法计算相似度实现起来并不容易。

    毕竟网页中知识颗粒度较粗。

    说白了就是网页中有用的东西少。

    加之部分网页的知识结构化程度较低。

    如果直接对所有的网页链接进行分析,会导致知识含量稀疏、计算困难等问题。

    因此必须找网页结构高同时知识内容集中的网页才适合开发基于网络知识评估文本相似度的方法。

    什么样的网页具有这一特征呢?

    wiki百科和摆渡百科。

    只有这两个对应的网页同时具备网页结构程度化高以及网页中有用的东西多这两点。

    也正因为如此,林灰记得前世搞/基于网络知识的文本相似度识别的主要就是谷/歌和摆渡两家。

    说起来某度能长期居于b/at之首还是有些实力的。

    至少不像外人以为的那般花架子。

    伊芙·卡莉之后又详细地介绍了一些基于网页知识文本识别度的内容。

    之所以详细介绍这方面的东西。

    林灰知道的,伊芙·卡莉其实还是好奇林灰究竟是使用何种相似度模型来评估文本摘要和摘要之间的语义相关的?

    林灰没有直接回答。

    而是反问道:“关于使用向量介入进行语义文本相似度计算你怎么看?”
上一页 目录 下一章
最近更新 重生2011,二本捡漏985 割鹿记 别叫我恶魔 怪谈游戏设计师 苟成圣人,仙官召我养马 红色莫斯科 他比我懂宝可梦 重生都市仙帝 那就让她们献上忠诚吧! 元始法则 我在修仙界万古长青 退下,让朕来 寒门宰相 全职剑修 死灵法师 东晋北府一丘八 我对念能力超有兴趣 别再催眠我了,反派皇女! 星空职业者 精灵,谁让他做道馆馆主的
最多阅读 剑名不奈何 感化主角失败以后[穿书] 顶级猎食者 主角姜栀商池 我亲爱的法医小姐 女配没有求生欲 隔壁机长大叔是饿狼 是心跳说谎 反派肆意妄为[快穿] 看鸟吗哥 HP同人之格林童话 宝莲灯之风流猎艳 主角是邢棒芳华夫人 邢棒穿越皇宫一名假太监芳华夫人完整版 新婚燕尔 日夜妄想 穿书八零军官老公是个宠妻狂魔江念姿沈程 着迷 你老婆掉了 金牌调解员[快穿]