字体
关灯
   存书签 书架管理 返回目录
    第126章 飘洋过海的邮件(第 4/4 页)

    毕竟一些现成的语料库基本都是16年左右才问世的。

    尽管如此,如何解释语料库来源的问题难不倒林灰。

    事实上即便没有现成的语料库,想要构建一个可堪一用的能调/教出早期生成式摘要算法的语料库也不是太复杂。

    最简单的方式——借助互联网可以自动构建文本语料库。

    当利用这种方法构建语料库的时候,用户只需要提供所需的文本类别体系。

    而后从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。

    从每个网站中筛选出用户所需要的文本作为候选语料。

    这个过程其实不复杂,有点类似于爬虫抓取网页的过程。

    比较困难的是这种方法形成的语料库如何去噪。

    但这对于林灰也不是问题。

    只需要将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库。

    而后再对候选语料库中每个类别下的文本进行去噪处理就可以提高语料库的质量。

    在完成去噪之后就可以输出语料库。

    虽然这个过程实现起来仍旧不容易。

    但学术领域上除了个别被孤立的杠精喜欢钻牛角尖之外。

    大多数情况下只要逻辑自洽就没人死磕。

    除了好奇林灰是如何构建语料库之外。

    涉及到“使用相似度模型评估文本和摘要之间的语义相关性”

    伊芙·卡莉比较好奇林灰究竟是使用何种相似度模型来评估文本摘要和摘要之间的语义相关的。

    额,这个问题就比较涉及到林灰搞定的文本摘要准确度模型最核心的东西了。

    关于这个问题的答案就不是三言两语能说得清的了。
上一页 目录 下一章
最近更新 重生2011,二本捡漏985 割鹿记 别叫我恶魔 怪谈游戏设计师 苟成圣人,仙官召我养马 红色莫斯科 他比我懂宝可梦 重生都市仙帝 那就让她们献上忠诚吧! 元始法则 我在修仙界万古长青 退下,让朕来 寒门宰相 全职剑修 死灵法师 东晋北府一丘八 我对念能力超有兴趣 别再催眠我了,反派皇女! 星空职业者 精灵,谁让他做道馆馆主的
最多阅读 剑名不奈何 着迷 顶级猎食者 感化主角失败以后[穿书] 我亲爱的法医小姐 是心跳说谎 女配没有求生欲 隔壁机长大叔是饿狼 反派肆意妄为[快穿] 主角姜栀商池 看鸟吗哥 疾风吻玫瑰 邢棒穿越皇宫一名假太监芳华夫人完整版 HP同人之格林童话 主角是邢棒芳华夫人 嘘,国王在冬眠 宝莲灯之风流猎艳 日夜妄想 金牌调解员[快穿] 你老婆掉了