2024-06-26
「关键字」抽取都有什么样计划?
他们所言的关键字一般来说由两个或数个 term 共同组成,即能是不定式后的 term,如“玫瑰花”、“外卖”,也能是数个 term 共同组成的 phrase,如“玫瑰花外卖”、“玫瑰花外卖公司”,英语常用用法是 keyword,keyphrase。
至于什么是关键字呢?至少必须满足两个关键前提:边界线不合法和有行业发展性。即使还能结合具体应用情景增加限制前提,如在排序电视广告中,还要考量品牌价值。
他们的作法是分分阶段:
备选词相匹配:如前所述关键字网页内容的多参数值得到备选,这儿最重要的组织工作是网页内容构筑,往往会结合多种方式:垂直公交站点辞汇,新浪网字典,注音细胞网页内容,电视广告商购买词,如前所述大规模记忆术的手动网页内容发掘(推荐杨家炜项目组的 shangjingbo1226/SegPhrase ,shangjingbo1226/AutoPhrase 方式)等。这儿会涉及大量的统计数据冲洗组织工作,即使还能有两个质量预测器决定什么样字典能进入网页内容。备选词关联性次序:包括无监督管理和有监督管理方式,如下:无监督管理方式:常用的有 TFIDF(须要统计统计数据 phrase 等级的 DF), textrank(优势不明显,排序量大,禁用),topic 相近度(参看 baidu/Familia),embedding 相近度(须要训练或排序 keyword 和 doc embedding),TWE 相近度(参看 baidu/Familia)有监督管理方式:常用的有如前所述统计统计数据用例 SMT 的方式(转化成译者难题,能选用 IBM Model 1),如前所述字符串标示数学模型的方式(转化成核心理念成份辨识难题,类似 NER,状态只有0和1,即是不是核心理念成份,较适用于引言档),如前所述次序学习LTR的方式(转化成备选词次序难题,选用 pairwise 方式,或者深度语法相匹配方式,如 DSSM),如前所述传统机器学习进行分类方式(转化成相互倚赖或多元化进行分类难题)。有监督管理方式倚赖一定规模的标示统计数据,效果一般来说会显著好得多无监督管理方式。上面的方式仅能抽出文档字面再次出现的词,会有 Vocabuary Gap 难题,大部分情况下是足够的,还有一种作法能如前所述聚合数学模型的方式,手动“抽出”聚合许多字面上未再次出现的字典,如 ACL 2017 Deep Keyphrase Generation(http://memray.me/uploads/acl17-keyphrase-generation.pdf ,memray/seq2seq-keyphrase)。另外,也能考量如前所述字面抽出的 keyword,扩展出许多语法相近的字典作为备选词,通过评分次序挑选出合适的保留下来。
特别的,对于许多存在规律描述模式的特殊类型文档,如 query log,还能选用如前所述 bootstrapping 的软参数值方式,一般来说准确度极高,停售率一般。