关键词感知检索_向量检索服务(VRS)-璇泰初网络

关键词感知检索

本文主要介绍带关键词感知能力的向量检索服务的优势、应用示例以及Sparse Vector生成工具。

背景介绍

关键词检索及其局限

在信息检索领域,“传统”方式是通过关键词进行信息检索,其大致过程为:

  1. 对原始语料(如网页)进行关键词抽取。

  2. 建立关键词和原始语料的映射关系,常见的方法有倒排索引、TF-IDF、BM25等方法,其中TF-IDF、BM25通常用稀疏向量(Sparse Vector)来表示词频。

  3. 检索时,对检索语句进行关键词抽取,并通过步骤2中建立的映射关系召回关联度最高的TopK原始语料。image

但关键词检索无法对语义进行理解。例如,检索语句为“浙一医院”,经过分词后成为“浙一”和“医院”,这两个关键词都无法有效的命中用户预期中的“浙江大学医学院附属第一医院”这个目标。

基于语义的向量检索

随着人工智能技术日新月异的发展,语义理解Embedding模型能力的不断增强,基于语义Embedding的向量检索召回关联信息的方式逐渐成为主流。其大致过程如下:

  1. 原始语料(如网页)通过Embedding模型产生向量(Vector),又称为稠密向量(Dense Vector)。

  2. 向量入库向量检索系统。

  3. 检索时,检索语句同样通过Embedding模型产生向量,并用该向量在向量检索系统中召回距离最近的TopK原始语料。image

但不可否认的是,基于语义的向量检索来召回信息也存在局限——必须不断的优化Embedding模型对语义的理解能力,才能取得更好的效果。例如,若模型无法理解“水稻灌溉”和“灌溉水稻”在语义上比较接近,就会导致无法通过“水稻灌溉”召回“灌溉水稻”相关的语料。而关键字检索在这个例子上,恰好可以发挥其优势,通过“水稻”、“灌溉”关键字有效的召回相关语料。

关键词检索+语义检索

针对上述问题,逐渐有业务和系统演化出来“两路召回、综合排序”的方法来解决,并且在效果上也超过了单纯的关键字检索或语义检索,如下图所示:image

但这种方式的弊端也很明显:

  1. 系统复杂度增加。

  2. 硬件资源(内存、CPU、磁盘等)开销增加。

  3. 可维护性降低。

  4. ......

具有关键词感知能力的语义检索

向量检索服务DashVector同时支持Dense Vector(稠密向量)和Sparse Vector(稀疏向量),前者用于模型的高维特征(Embedding)表达,后者用于关键词和词频信息表达。DashVector可以进行关键词感知的向量检索,即Dense Vector和Sparse Vector结合的混合检索。image

DashVector带关键词感知能力的向量检索能力,既有“两路召回、综合排序”方案的优点,又没有其缺点。使得系统复杂度、资源开销大幅度降低的同时,还具备关键词检索、向量检索、关键词+向量混合检索的优势,可满足绝大多数业务场景的需求。

说明

Sparse Vector(稀疏向量),稀疏向量是指大部分元素为0,仅少量元素非0的向量。在DashVector中,稀疏向量可用来表示词频等信息。例如,{1:0.4, 10000:0.6, 222222:0.8}就是一个稀疏向量,其第1、10000、222222位元素(分别代表三个关键字)有非0值(代表关键字的权重),其他元素全部为0。

使用示例

前提条件

Step1. 创建支持Sparse Vector的Collection

说明
  1. 需要使用您的api-key替换以下示例中的 YOUR_API_KEY、您的Cluster Endpoint替换示例中的YOUR_CLUSTER_ENDPOINT,代码才能正常运行。单击Cluster详情了解如何查看Cluster Endpoint。

  2. 本示例仅对Sparse Vector进行功能演示,简化起见,向量(Dense Vector)维度设置为4。

import dashvector

client = dashvector.Client(
    api_key='YOUR_API_KEY',
    endpoint='YOUR_CLUSTER_ENDPOINT'
)

ret = client.create('hybrid_collection', dimension=4, metric='dotproduct')

collection = client.get('hybrid_collection')
assert collection
重要

仅内积度量(metric='dotproduct')支持Sparse Vector功能。

Step2. 插入带有Sparse Vector的Doc

from dashvector import Doc

collection.insert(Doc(
    id='A',
    vector=[0.1, 0.2, 0.3, 0.4],
    sparse_vector={1: 0.3, 10:0.4, 100:0.3}
))
说明

向量检索服务DashVector推荐使用DashText生成Sparse Vector。

Step3. 带有Sparse Vector的向量检索

docs = collection.query(
    vector=[0.1, 0.1, 0.1, 0.1],
    sparse_vector={1: 0.3, 20:0.7}
)

Sparse Vector生成工具

  • DashText,向量检索服务DashVector推荐使用的SparseVectorEncoder,DashText

    相关内容推荐

    茂名seo优化排名seo优化的猫腻梅州搜狗优化seo大师兄seoseo代码的格式韶山seo优化排名廊坊seo推广方式福山seo优化推广北京seo第二贵阳seo怎么优化seo营销方案优化南京SEO优化排名jquery做网站seoseo外贸怎么设置邢庆涛 seo浦东seo排名报价什么是文章seoseo怎么转优化谢岗SEO优化google seo核心关键seo教程哪里有seo基础优化设置莆田seo优化价格黑帽seo意思北京做seo优化公众号seo软件黄冈seo在线咨询电话seo优化程序2022seo还tel eve seo nsseo后期优化方案大型的seo公司吉安恩施网站seo佛山网站排名seo成都网站seo开发seo容易入门吗大数据和seoseo自学霸屏北京seo第二SEO PHP是什么网站seo分析文档seo推广下拉际seo域名备案详解产品seo网站推广罗田seo推广技巧莆田seo站内优化怎么给网上seo做搜狗seo排名浙江seo找哪家kevin 微信seoseo的的好处都匀seo网站优化武汉seo刘恺好的软文seo新手学习seo 优化燃灯seo优化教程莱山seo网站设计Seo中毒机制是seo博客资源排名梅州seo详细报价seo点击不扣费seo经验是什么黄石seo推广作用湾仔seo推广费用云南seo排名样式福州seo排名工具盐城seo优化招聘南头网站seo排名判断seo的优点谈抖音seoseo网站深度分析seo开发电话seo基础优化引流宁波seo营销技巧网站seo指什么seo外链思维重庆seo优化软件忻州seo优化项目闪电seo使用教程东营网站seo服务纯数字链接seo留学机构seo营销seo建站优化公司seo优化选哪家源代码优化seoseo跳出率优化淘宝seo优化举例凯里网站seo建设苹果cms提升seoSEO排名代刷seo 优先收录主页嵌入网页 seo嘉兴seo优化排名vue如何兼顾seo贵州seo优化收费徐州seo排名方案黄山seo引擎优化北京seo营销引流seo怎么诊断数据培训seo哪家最好seo专业案列seo优化岗位薪酬seo2.apkshopify如何营销seo女主叫seo young开原seo引流推广seo优化排名培训seo目标如何设定seo术语100个seo008视频SEO监控检测卵泡seo有什么课程seo文章标题不变免费seo网址运营google seo核心关键网站 seo 优化建议武汉seo网站价格seo网站优化稿seo锚文本制作站长黑帽seo黑帽seo交易济宁资深seo报价seo被收域名seo平台那个牛seo基础ppc教程黑帽seo 判刑清远seo推广优化海南seo推广公司开封知名seo优化SEO写作素材霸气公司seo网络推广深圳seo新站收录极致seo快排seo软件免费使用宿迁seo营销推广网络seo哪家便宜建湖seo选哪家seo技术招聘信息抖音seo品牌江北seo引擎优化保定seo排名工具锦州seo公司报价大亚湾seo优化推广seo和白帽seo制作方法山东seo优化排名武汉谷歌seo招聘翔安seo优化价格seo诊断与分析seo 站内地图南昌seo推广推荐seo编程语言大全江干seo公司seo蜘蛛池视频seo关键包含哪些seo域名和空间seo师培训机构seo长尾词霸屏seo的步骤分析保定seo人工优化什么是seo权重大连企业seo推广SEO文案策划相关马来西亚seoseo是干啥的谷歌seo培训苏州seo年后计划灵宝seo网站推广seo优化职业前景SEO人才公寓租房seo哪本书最好绍兴seo外包网站白杨seo学习教程SEO优化服务介绍温州seo排名价格海口seo学徒招聘陕西seo优化代理恩平网站优化seoseo怎么设置模型泉州seo效果分析嘉兴网站seo方法淘宝seo运营规则南京seo布局优化邢台seo推广价格单页如何seo老板支持seo理由汕头seo站内优化广州花都seo服务seo很少加班网店裤子SEO优化seo图片文字化小雨seo技术博客seo与模板建站青岛seo优化收费seo行业服务平台seo推广计划方法和田市seo镇江稳定seo推广lntitle 如何学好seo什么是seo公司

    合作伙伴

    璇泰初网络

    seo.xtcwl.com
    seo.china185.com
    www.urkeji.com
    www.he1tech.com
    www.mtcddc.cn
    www.china185.com
    www.maijichuang.cn
    www.imcrd.com
    www.urkeji.com
    www.haowangjiao.cc
    kuai.urkeji.com
    baidu.07yue.com
    zz1.urkeji.com
    www.urkeji.com
    www.haowangjiao.cc
    www.28j.com.cn
    seo.china185.com
    idc.urkeji.com
    www.akz.net.cn
    seo.jsfengchao.com