李林超博客
首页
归档
留言
友链
动态
关于
归档
留言
友链
动态
关于
首页
Java
正文
Lucene作者简介
Leefs
2021-02-09 AM
2308℃
0条
### 1、人物介绍 ![01.Doug Cutting简介.jpg](https://lilinchao.com/usr/uploads/2021/02/3640853304.jpg) **Doug Cutting**是一位美国工程师,迷上了搜索引擎。在1997年,Doug Cutting用一个周末时间,使用Java语言创作了一个文本搜索的开源函数库,目的是为各种中小型应用软件加入全文搜索功能,不久以后,==Lucene==诞生了,2000年Lucene称为Apache开源社区的一个子项目。 ![01.Doug Cutting简介02.jpg](https://lilinchao.com/usr/uploads/2021/02/2949241927.jpg) Lucene从问世之后,引发了==开源==社区的巨大反响,程序员们不仅使用它构建全文检索应用,而且将之集成到各种系统软件中去,除此之外还用来构建Web应用。**维基百科**用Lucene建立了一个站内的强大搜索功能,用以检索站内数以千万的词条。**IBM**的商业软件Web Sphere也采用了Lucene作为全文索引引擎。Lucene以其开放源代码的特性、优异的索引结构、良好的系统架构获得了越来越多的应用。 2004年,Doug Cutting再接再厉,在Lucene的基础上,和Apache开源伙伴Mike Cafarella合作,开发了一个款可以代替当时的主流搜索的开源搜索引擎,命名为Nutch。 ![01.Doug Cutting简介06.gif](https://lilinchao.com/usr/uploads/2021/02/664243751.gif) Nutch是一个建立在Lucene核心之上的网页搜索应用程序,可以下载下来直接使用。它在Lucene的基础上加了网络爬虫和一些网页相关的功能,目的就是一个简单的站内搜索推广到全球网络的搜索上,就像Google一样。 Nutch在业界的影响力比Lucene更大。 大批网站采用了Nutch平台,大大降低了技术门槛,使低成本的普通计算机取代高价的Web服务器成为可能。甚至有一段时间,在硅谷有了一股用Nutch低成本创业的潮流。 随着时间的推移,无论是Google还是Nutch,都面临搜索对象”体积“不断增大的问题。 尤其是Google,作为互联网搜索引擎,需要存储大量的网页,并不断优化自己的搜索算法,提升搜索效率。 在这个过程中,Google确实找到了不少好方法,并且无私地分享了出来。 2003年,Google发表了一篇技术学术论文,公开介绍了自己的谷歌文件系统GFS(Google File System)。这是Google公司为了存储海量搜索数据而设计的专用文件系统。 第二年,也就是2004年,Doug Cutting基于Google的GFS论文,实现了**分布式文件存储系统**,并将它命名为**NDFS(Nutch Distributed File System)**。 ![01.Doug Cutting简介07.jpg](https://lilinchao.com/usr/uploads/2021/02/2496662733.jpg) 还是2004年,Google又发表了一篇技术学术论文,介绍自己的**MapReduce编程模型**。这个编程模型,用于大规模数据集(大于1TB)的并行分析运算。 第二年(2005年),Doug Cutting又基于MapReduce,在Nutch搜索引擎实现了该功能。 ![01.Doug Cutting简介08.jpg](https://lilinchao.com/usr/uploads/2021/02/2165457930.jpg) 2006年,当时依然很厉害的Yahoo(雅虎)公司,招安了Doug Cutting。 ![01.Doug Cutting简介09.jpg](https://lilinchao.com/usr/uploads/2021/02/65364604.jpg) 加盟Yahoo之后,Doug Cutting将NDFS和MapReduce进行了升级改造,并重新命名为`Hadoop`(NDFS也改名为HDFS,Hadoop Distributed File System)。 这个,就是后来大名鼎鼎的大数据框架系统——Hadoop的由来。而Doug Cutting,则被人们称为Hadoop之父。 ![01.Doug Cutting简介10.jpg](https://lilinchao.com/usr/uploads/2021/02/356491980.jpg) Hadoop这个名字,实际上是Doug Cutting他儿子的黄色玩具大象的名字,所以,Hadoop的Logo,就是一只奔跑的黄色大象。 ![01.Doug Cutting简介11.png](https://lilinchao.com/usr/uploads/2021/02/4124357523.png) 我们继续往下说。 还是2006年,Google又发论文了。 这次,它们介绍了自己的BigTable。这是一种分布式数据存储系统,一种用来处理海量数据的非关系型数据库。 Doug Cutting当然没有放过,在自己的hadoop系统里面,引入了BigTable,并命名为HBase。 ![01.Doug Cutting简介12.jpg](https://lilinchao.com/usr/uploads/2021/02/1667565442.jpg) 好吧,反正就是紧跟Google时代步伐,你出什么,我学什么。 所以,Hadoop的核心部分,基本上都有Google的影子。 ![01.Doug Cutting简介13.jpg](https://lilinchao.com/usr/uploads/2021/02/458081492.jpg) 2008年1月,Hadoop成功上位,正式成为Apache基金会的顶级项目。 同年2月,Yahoo宣布建成了一个拥有1万个内核的Hadoop集群,并将自己的搜索引擎产品部署在上面。 7月,Hadoop打破世界记录,成为最快排序1TB数据的系统,用时209秒。 > Lucene、Nutch、Solr、Elasticsearch关系 + Lucene Lucene,是一个开放源代码的全文检索引擎==工具包==,但它不是一个完整的全文检索引擎,而是一个==全文检索引擎的架构==,提供了完整的**查询引擎**和**索引引擎**,**部分文本分析引擎**。官网地址:`https://lucene.apache.org/` + Nutch Nutch是建立在Lucene核心之上的网页搜索应用程序,它在Lucene的基础上加了爬虫和一些网页相关的功能,目的就是从一个简单的站内检索推广到全球网络上的搜索上。官网地址:`http://nutch.apache.org/` + Solr Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。官网地址:`http://lucene.apache.org/solr/` + Elasticsearch Elasticsearch跟Solr一样,也是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。官网地址:`https://www.elastic.co/products/elasticsearch` **总结** ![01.Doug Cutting简介05.jpg](https://lilinchao.com/usr/uploads/2021/02/1256541254.jpg)
标签:
Elasticsearch
非特殊说明,本博所有文章均为博主原创。
如若转载,请注明出处:
https://lilinchao.com/archives/988.html
上一篇
Nginx动静分离介绍
下一篇
windows环境下elasticsearch安装教程
评论已关闭
栏目分类
随笔
2
Java
326
大数据
229
工具
31
其它
25
GO
47
NLP
4
标签云
Spark Core
Elasticsearch
Java阻塞队列
字符串
Typora
链表
工具
Sentinel
DataWarehouse
递归
数据结构和算法
VUE
算法
MyBatisX
MyBatis-Plus
GET和POST
二叉树
Spark RDD
Linux
Golang基础
BurpSuite
数学
SpringCloudAlibaba
JVM
设计模式
Ubuntu
Eclipse
线程池
栈
随笔
友情链接
申请
范明明
庄严博客
Mx
陶小桃Blog
虫洞
评论已关闭