Python公开课 - 全文检索模块Whoosh详解(3)

前言

在上一章中,我们使用Whoosh对文档进行索引进行了介绍,接下来,我们将阐述如何对已建立索引的文档进行检索。

1 创建Searcher对象

Searcher对象来源于Index类,我们可以非常方便的使用

with ix.searcher() as searcher:
    ...

我们可以通过lexicon(fieldname)方法,来获取对应field的词典列表

import whoosh.index as index
from whoosh.fields import *
schema = Schema(title=TEXT(stored=True), path=ID(stored=True), content=TEXT)

ix = index.create_in("indexdir", schema)

writer = ix.writer()
writer.add_document(title=u"First document", path=u"/a", content=u"This is the first document we've added!")
writer.add_document(title=u"Second document", path=u"/b", content=u"The second one is even more interesting!")
writer.commit()

ix = index.open_dir("indexdir")
with ix.searcher() as searcher:
    print(list(searcher.lexicon("content")))

输出:

[b'added', b'document', b'even', b'first', b'interesting', b'more', b'one', b'second', b've']

当然searcher中最重要的方法自然是search()咯,通过它来对关键词进行检索并匹配的的结果。

from whoosh.qparser import QueryParser

qp = QueryParser("content", schema=schema)
q = qp.parse(u"hello world")

with ix.searcher() as s:
    # 每页20个,返回第5页
    results = s.search_page(q, 5, pagelen=20)

2 关于排序

Whoosh默认的是以BM25F算法进行排序,当然,你也可以指定排序算法,例如使用TF/IDF

from whoosh import scoring

with myindex.searcher(weighting=scoring.TF_IDF()) as s:
    ...

3 关键字高亮显示

可以使用highlights()方法,来使关键字高亮显示

from whoosh.qparser import QueryParser

qp = QueryParser("title", schema=schema)
q = qp.parse(u"second")

with ix.searcher() as s:
    # 每页20个,返回第1页
    results = s.search_page(q, 1, pagelen=20)
    for hit in results:
        print(hit.highlights("title"))

输出:

<b class="match term0">Second</b> document

4 相关关键字扩展

可以使用highlights()方法,来使关键字高亮显示more_like_this()方法扩展查询关键词

with ix.searcher() as s:
    # 每页20个,返回第1页
    results = s.search_page(q, 1, pagelen=20)
    for hit in results:
        more_results = hit.more_like_this("title")
        print(more_results)

5 查询多个字段

例如你想查询的关键字可能存在title中,也可能存在content中,那么这种情况,你需要使用MultifieldParser来处理

from whoosh.qparser import MultifieldParser

mparser = MultifieldParser(["title", "content"], schema=myschema)

相关阅读


相关主题:
相关推荐
  1. 警方通报:武汉男子持刀至五死一伤,嫌犯已跳桥
  2. 防微杜渐
  3. 宋玉进谗
  4. 割错了马尾巴
  5. 上海市浦发中学
  6. 通才鼯鼠
  7. 武汉动物园火烈鸟孔雀排队打疫苗
  8. 百名网媒总编辑登上知音号欣赏武汉夜色
  9. 武汉市第四十五中学
  10. 重庆合川大石中学
  11. 盐城市建军路小学盐湾校区
  12. 按图索骥
  13. Django的Cache框架(下)
  14. 易中天给英雄武汉的一首诗 - 武汉新鲜事
  15. 央媒聚焦!国庆假期173.78万人次打卡大美黄陂
  16. Google Adsense禁止将ads投放到弹出式窗口
  17. 上海市静安大宁国际小学
  18. 脱单!武汉的相亲角在哪你知道吗?
  19. 平谷博苑幼儿园 - 北京幼儿园黄页
  20. 小刺猬进城
  21. 宁波市江北区慈城中心小学
  22. 吉林市桦甸市明钰幼儿园 - 吉林市幼儿园黄页
  23. 圆球公主
  24. 婴儿鼻塞吃奶少了一直睡觉怎么回事 - 育儿经验
  25. 临沂市第九中学
  26. 吉林市丰满区俏娃娃双语幼儿园 - 吉林市幼儿园黄页
  27. iconv - Mac OS 文本格式转换工具
  28. 南安市国光中学
  29. Ubuntu16.04部署phantomjs出现QXcbConnection问题
  30. 戴斗笠的地藏菩萨
  31. ImageMagick将图像转换为300dpi的两种方式
  32. 太原市小店区嘉华宝国际幼儿园 - 太原幼儿园黄页
  33. 鞍山市立山区红花艺术幼儿园 - 鞍山幼儿园黄页
  34. 城角幼儿园 - 石家庄幼儿园黄页
  35. 江门市崖门镇田边小学
  36. 云师大实验中学昆明湖校区
  37. 快睡吧,小田鼠
  38. 金溪县对桥中学
  39. 大名中学
  40. 湖北将发放消费券 - 武汉新鲜事
  41. Python公开课 - 爬虫介绍
  42. 长沙长郡中学
  43. 合肥市育英中学
  44. 重庆市北碚区小小幼儿园 - 重庆幼儿园黄页
  45. 上海市长宁区北新泾第三小学
  46. 古韵南京 - 二日游
  47. Python公开课 - 新项目选择Python2还是Python3
  48. 济南市天桥区泺口李庄小学
  49. 详解Tesseract之安装及基本使用
  50. Python的起源 - 二十年前的故事
  51. 武汉00后大二学妹拍视频月入七十万
  52. 武汉一女子七天被骗220万
  53. 北京市东城区新怡小学
  54. 宜春市第六小学
  55. 40天婴儿感冒鼻塞怎么办 - 育儿经验
  56. 武汉推出越王勾践剑交通卡
  57.  白痴皇帝
  58. 苏州市吴中区临湖第一中心小学(临湖一中心)
  59. 华中科技大学同济医学院附属小学(同济附小)
  60. 太原市小店区蓓蕾幼儿园 - 太原幼儿园黄页