「关键字」抽取都有什么样计划？

2024-06-26

「关键字」抽取都有什么样计划？

他们所言的关键字一般来说由两个或数个 term 共同组成，即能是不定式后的 term，如“玫瑰花”、“外卖”，也能是数个 term 共同组成的 phrase，如“玫瑰花外卖”、“玫瑰花外卖公司”，英语常用用法是 keyword，keyphrase。

至于什么是关键字呢？至少必须满足两个关键前提：边界线不合法和有行业发展性。即使还能结合具体应用情景增加限制前提，如在排序电视广告中，还要考量品牌价值。

他们的作法是分分阶段：

备选词相匹配：如前所述关键字网页内容的多参数值得到备选，这儿最重要的组织工作是网页内容构筑，往往会结合多种方式：垂直公交站点辞汇，新浪网字典，注音细胞网页内容，电视广告商购买词，如前所述大规模记忆术的手动网页内容发掘（推荐杨家炜项目组的 shangjingbo1226/SegPhrase ，shangjingbo1226/AutoPhrase 方式）等。这儿会涉及大量的统计数据冲洗组织工作，即使还能有两个质量预测器决定什么样字典能进入网页内容。备选词关联性次序：包括无监督管理和有监督管理方式，如下：无监督管理方式：常用的有 TFIDF（须要统计统计数据 phrase 等级的 DF）， textrank（优势不明显，排序量大，禁用），topic 相近度（参看 baidu/Familia），embedding 相近度（须要训练或排序 keyword 和 doc embedding），TWE 相近度（参看 baidu/Familia）有监督管理方式：常用的有如前所述统计统计数据用例 SMT 的方式（转化成译者难题，能选用 IBM Model 1），如前所述字符串标示数学模型的方式（转化成核心理念成份辨识难题，类似 NER，状态只有0和1，即是不是核心理念成份，较适用于引言档），如前所述次序学习LTR的方式（转化成备选词次序难题，选用 pairwise 方式，或者深度语法相匹配方式，如 DSSM），如前所述传统机器学习进行分类方式（转化成相互倚赖或多元化进行分类难题）。有监督管理方式倚赖一定规模的标示统计数据，效果一般来说会显著好得多无监督管理方式。

上面的方式仅能抽出文档字面再次出现的词，会有 Vocabuary Gap 难题，大部分情况下是足够的，还有一种作法能如前所述聚合数学模型的方式，手动“抽出”聚合许多字面上未再次出现的字典，如 ACL 2017 Deep Keyphrase Generation（http://memray.me/uploads/acl17-keyphrase-generation.pdf ，memray/seq2seq-keyphrase）。另外，也能考量如前所述字面抽出的 keyword，扩展出许多语法相近的字典作为备选词，通过评分次序挑选出合适的保留下来。

特别的，对于许多存在规律描述模式的特殊类型文档，如 query log，还能选用如前所述 bootstrapping 的软参数值方式，一般来说准确度极高，停售率一般。

上一篇：关键字是甚么原意？

下一篇：关键字

新闻

「关键字」抽取都有什么样计划？

联系我们

友情链接