当前位置：首页 > 科技 > 软件

Elasticsearch 电商场景：明明有这个关键词，但是搜不出来，怎么办？

来源：责编：时间：2024-05-16 09:08:51 85观看

导读1、实战问题场景：电商创业公司（非传统巨头）读者描述需求：content是一个text类型，用的 ik_max_word 分的词，需要根据关键词做精准匹配，并且按照发布时间倒序。比如我搜：小米6s，搜出来的结果要精确匹配到：小米6s，并且按照用户的发

1、实战问题

场景：电商创业公司（非传统巨头）
读者描述需求：

content是一个text类型，用的 ik_max_word 分的词，需要根据关键词做精准匹配，并且按照发布时间倒序。

比如我搜：小米6s，搜出来的结果要精确匹配到：小米6s，并且按照用户的发布时间倒序排序。

现在的问题是用 match_pharse 搜索的时候，有时候文档里明明有这个关键词，但是搜不出来，尝试了好几种手段......

熟悉咱们公众号推文的同学应该知道，咱们分别在 2018年、2020年、2022年都做过多次类似问题的讨论。

探究 | 明明存在，怎么搜索不出来呢？

Elasticsearch能检索出来，但不能正确高亮怎么办？

由 Elasticsearch 空间换时间的线上问题说开去......

2、重新梳理一下检索认知

2.1 分词和词典的本质

数据索引化的过程是借助分词器完成的，如读者的分词器是 IK 中文分词器。

问题来了？IK 中文分词器能包含全部的词汇吗？

大家看 medcl 大佬开源的 IK 分词器的源码中能找到 main.dic 大小是 2.92 MB。并且这个词典 8 年+ 没有更新过。

图片

显然：IK 默认词典覆盖不了全部词汇，尤其诸如“显眼包”、“小米14”、“奥利给”、“叶氏那拉”等的新词。如下截图是我自定义的词典的词库检索截图。

图片

再来一波举例看看：

PUT my_index_0512{  "mappings": {    "properties": {      "title": {        "type": "text",        "analyzer": "ik_smart",        "fields": {          "keyword": {            "type": "keyword"          }        }      }    }  }}

POST my_index_0512/_bulk{"index":{"_id":1}}{"title":"奥利给是一个网络流行词，第一次出现在一名快手主播直播时说的正能量语录里。"}## 分词为：“奥利” 和 “给” 两个词POST my_index_0512/_analyze{  "text":"奥利给是一个网络流行词，第一次出现在一名快手主播直播时说的正能量语录里。",  "analyzer":"ik_smart"}## 检索不能召回结果，这里用 term 主要说明问题，合理性待商榷！POST my_index_0512/_search{  "profile": true,   "query": {    "term": {      "title": "奥利给"    }  }}

图片

结论：词典决定分词，词典里没有的词，极大可能（有一定概率，比如：match_phrase 词+词组合的情况）检索会检索不到。

ps: 关于 term、match、match_phrase 区别等，推荐阅读：检索选型。

2.2 全文检索的本质

全文检索的本质是查询待检索的关键词在写入所创建的索引中是否存在的过程。

存在，则召回；不存在，则返回空。

2.3 明明有这个关键词，但是搜不出来的本质

表面上可以看出，之前咱们2018年、2020年、2022年讨论的方案用 match、match_phrase、match_phrase_prefix 等再结合 slop，貌似能解决一些问题，好像有些不召回的情况，可以召回了。

但，依然治标不治本。依然会存在一些“新词”、“词典里没有的词”等看似明明一段话里存在的词，就是检索不到的原因。

3、能不能根治呢？

答案：不完全能！

但，可以尝试空间换时间，借助 Ngram 能解决 99% 以上场景的问题。

针对读者的问题，借助 Ngram 分词实操一下：

### 3.1 创建索引DELETE new_spy_uat2PUT new_spy_uat2{  "settings": {    "index.max_ngram_diff": 10,    "analysis": {      "analyzer": {        "my_analyzer": {          "tokenizer": "my_tokenizer",          "char_filter": ["my_char_filter"]        }      },      "char_filter": {        "my_char_filter": {          "type": "pattern_replace",          "pattern": "[^//p{L}//p{N}//s]+",          "replacement": ""        }      },      "tokenizer": {        "my_tokenizer": {          "type": "ngram",          "min_gram": 2,          "max_gram": 10        }      }    }  },  "mappings": {    "properties": {      "content": {        "type": "text",        "analyzer": "my_analyzer",        "fields": {          "keyword": {            "type": "keyword"          }        }      }    }  }}

在提供的 Elasticsearch 配置中，my_tokenizer 是一个基于 n-gram 的分词器，配置了从最小 2 个字符到最大 10 个字符的 n-gram。

在《一本书讲透 Elasticsearch》第6.4 章节 P111 解读了自定义分词器的三大核心组成：

character filter
tokenizer
token filter

咱们上面的“my_char_filter”定义了文本在分词前进行预处理的字符过滤规则。实际是使用正则表达式删除所有非字母、非数字、非空格字符，只保留字母、数字和空白字符，中文字符是可以保留的。

N-gram 是一种分词方法，通过从文本中提取 n 个连续字符的滑动窗口来创建词元（tokens）。这种方法在处理需要部分匹配和模糊搜索的应用中非常有用，比如搜索建议和拼写错误的容错处理。

在这种配置下，文本会被分解成所有可能的 2 到 10 个字符的组合。

例如，要执行如下检索：

POST new_spy_uat2/_analyze{  "analyzer":"my_analyzer",  "text":"奥利给这几年才流行"}

分词结果如下：

图片

这种方法可以大大增加索引的大小因为每个词都被分解成多个子词，但同时也提高了搜索的灵活性和准确性，尤其是在搜索短文本或关键词片段时。

这样的分词器尤其适合于搜索引擎的自动补全功能和处理用户可能的输入错误，因为它能够在用户输入部分信息时就开始匹配相关的词条。

3.2 导入数据

POST new_spy_uat2/_bulk{ "index" : { "_index" : "new_spy_uat2", "_id" : "1" } }{ "content" : "新品豪车❗️限1000单食物链巴氏小仙包犬湿粮360g 
                本文链接：//www.dmpip.com//www.dmpip.com/showinfo-26-88368-0.htmlElasticsearch 电商场景：明明有这个关键词，但是搜不出来，怎么办？
                声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com
                上一篇： 一文彻底搞明白中介模式
                下一篇： 定时任务轻松搞定：使用Cron表达式和Quartz库实现定时任务调度

 
			
            	标签：


        
        
        
            热门焦点
        
        
        
              
             
            
                
                
                    消息称迪士尼要拍真人版《魔发奇缘》：女主可能也找黑人演员
                    
                                             8月5日消息，迪士尼确实有点忙，忙着将不少动画改成真人版，继《美人鱼》后，真人版《白雪公主》、《魔发奇缘》也在路上了。据外媒消息称，迪士尼将打造真人版
                    
                
            
             
            
                
                
                    三言两语说透设计模式的艺术-简单工厂模式
                    
                        一、写在前面工厂模式是最常见的一种创建型设计模式，通常说的工厂模式指的是工厂方法模式，是使用频率最高的工厂模式。简单工厂模式又称为静态工厂方法模式，不属于GoF 23种设计
                    
                
            
             
            
                
                
                    K6：面向开发人员的现代负载测试工具
                    
                        K6 是一个开源负载测试工具，可以轻松编写、运行和分析性能测试。它建立在 Go 和 JavaScript 之上，它被设计为功能强大、可扩展且易于使用。k6 可用于测试各种应用程序，包括 Web
                    
                
            
             
            
                
                
                    2023 年的 Node.js 生态系统
                    
                        随着技术的不断演进和创新，Node.js 在 2023 年达到了一个新的高度。Node.js 拥有一个庞大的生态系统，可以帮助开发人员更快地实现复杂的应用。本文就来看看 Node.js 最新的生
                    
                
            
             
            
                
                
                    三言两语说透设计模式的艺术-单例模式
                    
                        写在前面单例模式是一种常用的软件设计模式，它所创建的对象只有一个实例，且该实例易于被外界访问。单例对象由于只有一个实例，所以它可以方便地被系统中的其他对象共享，从而减少
                    
                
            
             
            
                
                
                    10天营收超1亿美元，《星铁》比《原神》差在哪？
                    
                        来源：伯虎财经作者：陈平安即便你没玩过《原神》，你一定听说过的它的大名。恨它的人把《原神》开服那天称作是中国游戏史上最黑暗的一天，有粉丝因为索尼在PS平台上线《原神》，怒而
                    
                
            
             
            
                
                
                    OPPO、vivo、小米等国内厂商Q2在印度智能手机市场份额依旧高达55%
                    
                                                7月20日消息，据外媒报道，研究机构的报告显示，在全球智能手机出货量同比仍在下滑的大背景下，印度这一有潜力的市场也未能幸免，出货量同比也有下滑，多家厂
                    
                
            
             
            
                
                
                    电博会上海尔智家模拟500平大平层，还原生活空间沉浸式体验
                    
                                         电博会为了更好地让参展观众真正感受到智能家居的绝妙之处，海尔智家的程传岭先生同样介绍了展会上海尔智家的模拟500平大平层，还原生活空间沉浸式体验。程传
                    
                
            
             
            
                
                
                    北京：科技教育体验基地开始登记
                    
                        　　北京“科技馆之城”科技教育体验基地登记和认证工作日前启动。首批北京科技教育体验基地拟于2023年全国科普日期间挂牌，后续还将开展常态化登记。　　北京科技教育体验基


    
    
    
        
            最新推荐
            
				  
				 
				
					
					
						如何考过英语四六级？你要做好这两件事
						2023-08-13 
					
				
				 
				
					
					
						河南省公务员考试公告已经发布  2月18日开始报名
						2023-08-13 
					
				
				 
				
					
					
						课件的作用你真的了解了吗？
						2023-08-13 
					
				
				 
				
					
					
						大学学习委员竞选演讲稿
						2023-08-13 
					
				
				 
				
					
					
						小学信息技术教师竞聘演讲稿
						2023-08-13 
					
				
				 
				
					
					
						金融行业支行长竞聘演讲稿
						2023-08-13 
					
				
				               
            
        
        
		
            猜你喜欢
            
				  
				 
                
					
					50元一个的汉堡用过期材料 Shake Shack被当地调查
				
				 
                
					
					老年人“瘦”好，还是“胖”好？
				
				 
                
					
					脚后跟总是疼痛是怎么回事可 能与这4种骨科疾病有关
				
				 
                
					
					为什么脑血管疾病越来越高发？要警惕是这4大元凶在作怪！
				
				 
                
					
					脚后跟总是疼痛是怎么回事可 能与这4种骨科疾病有关
				
				 
                
					
					陕西省徒步大会在太白山举办
				
				 
            
        
        
		
            热门推荐
            
				  
				 
                美国今年已有超4万人死于涉枪事件，含近300名11岁以下儿童
				 
                大象与蜜蜂——亚洲象和TA的邻居们
				 
                澳大利亚新南威尔士州发生飞机坠毁事故致1人死亡
				 
                强国评论丨加快建设农业强国是一项基础性战略性工程
				 
                被批应变不力，夏威夷毛伊岛紧急事务局局长辞职
				 
                加拿大环境与气候变化部长吉尔博赴华出席国合会年会
				 
                新漫评：“崩溃论”“威胁论” 美国屡唱屡败
				 
                援资更援智：“温州模式”孵化高原创业者，双创风潮劲涌
				 
                泰国血色婚礼致5死1重伤：新郎枪杀新娘岳母后自杀，新人曾在婚礼上发生争执真相究竟是什么？
				     
            
        
		
		
            相关资讯
            
				  
				 
                
					
					跑分安卓第一！Redmi K60至尊版8月发布！卢伟冰：目标年度性能之王
				
				 
                
					
					零售大模型“干中学”，攀爬数字化珠峰
				
				 
                
					
					中国家电海外掘金正当时｜出海专题
				
				 
                
					
					自律，给不了Keep自由！
				
				 
                
					
					华为发布HarmonyOS 4：更好玩、更流畅、更安全
				
				 
                
					
					OPPO Reno10 Pro英雄联盟定制礼盒公布：萨勒芬妮同款配色梦幻十足