字体
关灯
   存书签 书架管理 返回目录
    第129章 步步紧逼的追赶者(中)(第 2/4 页)

    现在是加州大学伯克利分校的自然语言中心在和我们合作。

    我们测试x1验证算法时可是由10万个文本–摘要序列所组成的语料库作训练集的……”

    埃克莱尔·基尔卡加反驳道:“不不不,这远远不够!

    想要达到lin hui算法处理文本那种水平,我们起码需要百万级别文本-摘要序列组成的语料库做训练集。

    而这还只是冰山一角。

    我们还需要构建一个10^4级别带人工打分标签的文本–摘要序列作为验证集。

    以及一个10^3级别的个人工交叉打分一致的文本–摘要序列作为测试集。

    否则我们的衡量模型很可能达不到lin hui搞得那个模型那种置信度。”

    哈雷·普莱斯:“你的话确实有道理!

    为了缩小边际误差最实际的方法就是增加样本数量。

    百万级别文本-摘要序列组成的语料库倒是好说。

    这个相比于十万级别的语料库。

    构建难度只是线性增加而已。

    但是你确定我们要构建你说的那般庞大的带人工标记的验证集和测试集吗?

    仅仅是带人工打分标签的文本–摘要序列验证集保守估计就需要我们花费近一个月的时间去搭建。

    这还得是我们还其他语言学专业通力合作不产生嫌隙的情况下。

    而涉及到10^3级别人工交叉打分一致的文本–摘要序列测试集更是难上加难。

    以前我们只构建过10^2级别的。

    测试集的搭建每上涨一个数量级相应的构建难度可是指数级的往上增长。

    先前我们为测试提取式摘要算法构建的那个150条文本交叉打分一致的测试集就用了将近两个月的时间。”

    而且为什么我们还要引入人工因素?

    -->>(第 2/4 页)(本章未完,请点击下一页继续阅读)
上一页 目录 下一页
最近更新 重生2011,二本捡漏985 割鹿记 别叫我恶魔 怪谈游戏设计师 苟成圣人,仙官召我养马 红色莫斯科 他比我懂宝可梦 重生都市仙帝 那就让她们献上忠诚吧! 元始法则 我在修仙界万古长青 退下,让朕来 寒门宰相 全职剑修 死灵法师 东晋北府一丘八 我对念能力超有兴趣 别再催眠我了,反派皇女! 星空职业者 精灵,谁让他做道馆馆主的
最多阅读 女配没有求生欲 剑名不奈何 隔壁机长大叔是饿狼 着迷 反派肆意妄为[快穿] 我亲爱的法医小姐 是心跳说谎 入戏(娱乐圈) 顶级猎食者 感化主角失败以后[穿书] 疾风吻玫瑰 安徒生童话 看鸟吗哥 良辰美景好时光 嘘,国王在冬眠 韩立我是你家老祖 宝莲灯之风流猎艳 我的美女老板娘 海棠花下 元始法则