行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 机器学习 > 正文

用于查找用户搜索意图的超快速机器学习模型

在2019年4月,本杰明·伯克霍尔德(本杰明·伯克霍尔德)(真是太棒了)发表了一篇中型文章,展示了他编写的脚本,该脚本使用SERP结果功能来推断用户的搜索意图。该脚本将SerpAPI.com API用作其数据,并通过以下方式标记搜索查询:

  • 信息性—该人正在寻找有关主题的更多信息。这是通过是否存在答案框或PAA(人们也问)框来表示的。
  • 导航—该人正在搜索特定的网站。这是通过是否存在知识图或是否存在站点链接来指示的。
  • 交易性-该人的目标是购买东西。这通过是否存在购物广告来指示。
  • 商业调查—该人的目标是尽快购买商品,但仍在调查中。通过是否存在付费广告,是否存在答案框,是否存在PAA或SERP底部是否存在广告来表明这一点。

这是估算搜索意图的最酷的方法之一,因为它利用了Google对搜索意图的理解(如针对该搜索显示的SERP功能所表示)。

Burkholder方法的一个问题是对Serp API的依赖。如果您要查找大量搜索查询,则需要通过API传递每个查询短语,然后由API进行实际搜索并返回SERP功能结果,然后Burkholder的脚本可以对其进行分类。因此,在大量搜索查询上,这既耗时又昂贵。

SerpAPI每个关键字的费用约为0.01美元,因此分析5,000个关键字将花费您50美元。通过Burkholder的标签脚本运行这些结果还需要3到5个小时来获得这5,000个关键字。

 

因此,我开始思考:如果我采用Burkholder的方法,而不是直接使用它对意图进行分类,可以使用它来训练机器学习模型,然后将其用于意图分类,该怎么办?换句话说,我将花费一次成本来生产带有Burkholder标签的培训集,并且假设它足够准确,那么我可以将该培训集用于所有进一步的分类,而无需花费任何费用。
 

有了准确的培训集,任何人都可以超快速地标记大量关键字,而无需花费一分钱。

寻找模型

哈姆雷特·巴蒂斯塔(Hamlet Batista)写了几篇关于如何利用自然语言模型(例如BERT)标记意图的出色文章。

在他的帖子中,他使用了现有的意图标签模型,该模型从Kaggle的Questions Answering Dataset中返回类别。尽管这些标签可能有用,但它们并不是真正符合我们通常针对意图分类法的“意图类别”,而是具有诸如“描述”,“实体”,“人”,“数字”和“位置”之类的标签。

通过培训BERT编码器,他获得了出色的结果,在预测新标签或未标签搜索关键字的标签方面,准确性接近90%。

对我来说,最大的问题是,我可以利用从Burkholder的代码中获得的搜索意图标签,利用相同的技术(Uber的Ludwig BERT编码器)创建准确的模型吗?

原来答案是肯定的!

怎么做

该过程的工作原理如下:

1.收集您的关键字列表。如果您打算训练自己的模型,建议您在特定类别/细分市场中这样做。训练与服装相关的关键字,然后使用该模型标记财务相关的关键字,其准确性可能大大低于训练与服装相关的关键字,然后使用该模型标记其他未标记的服装相关的关键字。就是说,我确实尝试使用在一个类别/细分市场上标记的模型来标记另一个类别/细分市场,但对我来说结果仍然相当不错。

2. 在步骤1的关键字列表上运行Burkholder的脚本。这将需要注册SerpAPI.com并购买积分。我建议使用此脚本获取至少10,000个搜索查询的标签,以用于培训。训练数据越多,您的模型将越准确。

3.将上一步中标记的数据用作BERT模型的训练数据。Batista的代码非常简单,本文将指导您完成该过程。使用大约10,000个训练数据标签,我能够获得约72%的准确性。

4.使用第3步中的模型来标记未标记的搜索数据,然后查看结果!

结果

我使用来自SEMrush的与服装/时尚相关的搜索词的巨大列表(13,000个关键字)作为我的训练数据来完成此过程。我得到的模型仅获得约80%的准确性。

用更多数据训练模型似乎有可能在一定程度上继续提高其准确性。如果您有任何尝试并提高了80%的准确性,我很想听听。我认为通过20,000多个标签搜索,我们可以看到高达85-90%的准确性。

这意味着,当您要求该模型预测无标签搜索查询的意图时,每10个模型中就有8次将为您提供与Burkholder基于Serp API规则的分类器返回的标签相同的标签。它还可以免费,大量,快速地做到这一点。

因此,原本需要花费数千美元和几天的时间才能完成的工作现在可以在几分钟之内免费完成。

就我而言,我使用了来自相关领域(化妆)的关键字而不是服装关键字,总的来说,我认为它做得很好。使用BERT模型,标记5,000个搜索查询花费了不到两分钟的时间。这是我的结果:

 

含义

为了使SEO工具有用,它们需要可扩展。关键字研究,内容策略,PPC策略和SEO策略通常依赖于能够对整个细分市场/主题/主题/网站进行分析。

在许多行业中,关键字longtails可以扩展到数百万个。因此,更快,更实惠的Burkholder解决方案可以带来很大的不同。

 

我预见到AI和机器学习工具将在我们的行业中越来越多地使用,使SEO,付费搜索专家和内容营销商获得在这些新的AI突破之前无法实现的超级能力。

微信公众号

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
SEM推广服务

Copyright©2005-2026 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

扫码入群
扫码关注

微信公众号

返回顶部