博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Lucene】Apache Lucene全文检索引擎架构之中文分词和高亮显示
阅读量:4293 次
发布时间:2019-05-27

本文共 6344 字,大约阅读时间需要 21 分钟。

前面总结的都是使用Lucene的标准分词器,这是针对英文的,但是中文的话就不顶用了,因为中文的语汇与英文是不同的,所以一般我们开发的时候,有中文的话肯定要使用中文分词了,这一篇博文主要介绍一下如何使用smartcn中文分词器以及对结果的高亮显示。

1. 中文分词

使用中文分词的话,首先到添加中文分词的jar包。

org.apache.lucene
lucene-analyzers-smartcn
5.3.1
1
2
3
4
5
6

然后弄一些数据,使用中文分词器来生成一下索引,以便于后面搜索用到。

public class Indexer {
private Directory dir; //存放索引的位置 //准备一下用来测试的数据 private Integer ids[] = {
1, 2, 3}; //用来标识文档 private String citys[] = {
"上海", "南京", "青岛"}; private String descs[] = { "上海是个繁华的城市。", "南京是一个有文化的城市。", "青岛是一个美丽的城市。" }; //生成索引 @Test public void index(String indexDir) throws Exception { dir = FSDirectory.open(Paths.get(indexDir)); IndexWriter writer = getWriter(); for(int i = 0; i < ids.length; i++) { Document doc = new Document(); doc.add(new IntField("id", ids[i], Field.Store.YES)); doc.add(new StringField("city", citys[i], Field.Store.YES)); doc.add(new TextField("desc", descs[i], Field.Store.YES)); writer.addDocument(doc); //添加文档 } writer.close(); //close了才真正写到文档中 } //获取IndexWriter实例 private IndexWriter getWriter() throws Exception { SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();//使用中文分词器 IndexWriterConfig config = new IndexWriterConfig(analyzer); //将标准分词器配到写索引的配置中 IndexWriter writer = new IndexWriter(dir, config); //实例化写索引对象 return writer; } public static void main(String[] args) throws Exception { new Indexer().index("D:\\lucene2"); }}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41

建立好了索引,接下来就是查询了。

public class Searcher {
public static void search(String indexDir, String q) throws Exception { Directory dir = FSDirectory.open(Paths.get(indexDir)); //获取要查询的路径,也就是索引所在的位置 IndexReader reader = DirectoryReader.open(dir); IndexSearcher searcher = new IndexSearcher(reader); SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer(); //使用中文分词器 QueryParser parser = new QueryParser("desc", analyzer); //查询解析器 Query query = parser.parse(q); //通过解析要查询的String,获取查询对象 long startTime = System.currentTimeMillis(); //记录索引开始时间 TopDocs docs = searcher.search(query, 10);//开始查询,查询前10条数据,将记录保存在docs中 long endTime = System.currentTimeMillis(); //记录索引结束时间 System.out.println("匹配" + q + "共耗时" + (endTime-startTime) + "毫秒"); System.out.println("查询到" + docs.totalHits + "条记录"); for(ScoreDoc scoreDoc : docs.scoreDocs) { //取出每条查询结果 Document doc = searcher.doc(scoreDoc.doc); //scoreDoc.doc相当于docID,根据这个docID来获取文档 System.out.println(doc.get("city")); System.out.println(doc.get("desc")); String desc = doc.get("desc"); } reader.close(); } public static void main(String[] args) { String indexDir = "D:\\lucene2"; String q = "上海繁华"; //查询这个字符 try { search(indexDir, q); } catch (Exception e) { e.printStackTrace(); } }}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36

看一下查询结果:

匹配上海繁华共耗时15毫秒

查询到1条记录
上海
上海是个繁华的城市。

2. 高亮显示

  一般查询出来的效果都要高亮显示的,例如百度里查出来的结果都会标红啥的,Lucene中也可以这么干。首先要引入高亮显示的jar包。

org.apache.lucene
lucene-highlighter
5.3.1
1
2
3
4
5
6

然后要在上面搜索的java代码中添加以下高亮显示的部分。

public class Searcher {
public static void search(String indexDir, String q) throws Exception { //省略…… System.out.println("匹配" + q + "共耗时" + (endTime-startTime) + "毫秒"); System.out.println("查询到" + docs.totalHits + "条记录"); SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("",""); //如果不指定参数的话,默认是加粗,即 QueryScorer scorer = new QueryScorer(query);//计算得分,会初始化一个查询结果最高的得分 Fragmenter fragmenter = new SimpleSpanFragmenter(scorer); //根据这个得分计算出一个片段 Highlighter highlighter = new Highlighter(simpleHTMLFormatter, scorer); highlighter.setTextFragmenter(fragmenter); //设置一下要显示的片段 for(ScoreDoc scoreDoc : docs.scoreDocs) { //取出每条查询结果 Document doc = searcher.doc(scoreDoc.doc); //scoreDoc.doc相当于docID,根据这个docID来获取文档 System.out.println(doc.get("city")); System.out.println(doc.get("desc")); String desc = doc.get("desc"); //显示高亮 if(desc != null) { TokenStream tokenStream = analyzer.tokenStream("desc", new StringReader(desc)); String summary = highlighter.getBestFragment(tokenStream, desc); System.out.println(summary); } } reader.close(); } public static void main(String[] args) { String indexDir = "D:\\lucene2"; String q = "上海繁华"; //查询这个字符 try { search(indexDir, q); } catch (Exception e) { e.printStackTrace(); } }}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41

看一下查询结果:

匹配上海繁华共耗时15毫秒

查询到1条记录
上海
上海是个繁华的城市。
上海是个繁华的城市。

  这里简单解释一下上面程序中的那个得分,也就是说,在一段文本中,可能搜出来有关键字的地方不止一处,所以Lucene会自动计算每一处的得分,也就是最接近用户搜索,然后显示该位置附近的一些片段。上面的例子中描述部分太少了,就一句话,体现不出来,我把对南京的描述加长一点,如下:

南京是一个文化的城市南京,简称宁,是江苏省会,地处中国东部地区,长江下游,濒江近海。全市下辖11个区,总面积6597平方公里,2013年建成区面积752.83平方公里,常住人口818.78万,其中城镇人口659.1万人。[1-4] “江南佳丽地,金陵帝王州”,南京拥有着6000多年文明史、近2600年建城史和近500年的建都史,是中国四大古都之一,有“六朝古都”、“十朝都会”之称,是中华文明的重要发祥地,历史上曾数次庇佑华夏之正朔,长期是中国南方的政治、经济、文化中心,拥有厚重的文化底蕴和丰富的历史遗存。[5-7] 南京是国家重要的科教中心,自古以来就是一座崇文重教的城市,有“天下文枢”、“东南第一学”的美誉。截至2013年,南京有高等院校75所,其中211高校8所,仅次于北京上海;国家重点实验室25所、国家重点学科169个、两院院士83人,均居中国第三。[8-10] 。

这下够长了,如果我搜索“南京文化”,看一下结果:

南京是一个文化的城市南京,简称宁,是江苏省会,地处中国东部地区,长江下游,濒江近海。全市下辖11个区,总面积6597平方公里,2013年建成区面积752.83平方公里,常住人口818.78万,其中

如果我搜索“南京文明”,再看一下结果:

城镇人口659.1万人。[1-4] “江南佳丽地,金陵帝王州”,南京拥有着6000多年文明史、近2600年建城史和近500年的建都史,是中国四大古都之一,有“六朝古都”、“十朝都会”之称,是中华文明

  这就是Lucene中所谓的得分,其实也就是最匹配的片段。可以看出,Lucene的中文检索也是很强大的,当然咯,如果是专业搞搜索的,那还得好好研究研究,一般开发中站内搜索已经够使用了。

  


—–乐于分享,共同进步!

—–我的博客主页:

转载地址:http://ruzws.baihongyu.com/

你可能感兴趣的文章
Javascript:指针、帽子和女朋友
查看>>
Android中的ALERTDIALOG使用_优就业
查看>>
java使用javacsv读取csv文件 导入Mysql数据库
查看>>
Apache2.4 + Tomcat7负载均衡和集群(一)
查看>>
基于角色和资源的用户权限控制(用SpringMVC实现)
查看>>
前端代码入门——选择器与优先级 优就业
查看>>
javascript面试的5个冷门知识点
查看>>
Lucene初探
查看>>
Git简介、安装及创建版本库
查看>>
如何在JavaScript中编写一个简单的Bug跟踪器
查看>>
jQuery 效果 - 滑动
查看>>
对Java多态的深入理解
查看>>
javascript重点-表达式和运算符_优就业
查看>>
springmvc整合poi导出报表
查看>>
Oracle Data Guard延迟的原因
查看>>
java8 遍历数组的几种方式
查看>>
java基础知识(七)--Object类
查看>>
Object.prototype.toString_优就业
查看>>
JS之浏览器对象BOM
查看>>
分布式架构系列: 负载均衡技术详解
查看>>