itgo.me

  • 开源大数据索引项目hive-solr 日期:0006年05月06日

    github地址:https://github.com/qindongliang/hive-solr  欢迎大家fork和使用  关于这个项目的介绍,请参考散仙前面的文章:  http://qindongliang.iteye.com/blog/2283862  最新更新:  (1)添加了对solrcloud集群的支持  (2)修复了在反序列时对于hive中null列和空值的处理bug  (3)优化了在构建索引时对于null值和空值的忽略  一些测试:  数据量:约一千二百万,8个字段,其中一个是大文本,2个是分词字段,索引前数据体积约20G  索引总耗时:约15分钟  索引后体积

  • 如何使用Hive集成Solr? 日期:0006年03月17日

    (一)Hive+Solr简介  Hive作为Hadoop生态系统里面离线的数据仓库,可以非常方便的使用SQL的方式来离线分析海量的历史数据,并根据分析的结果,来干一些其他的事情,如报表统计查询等。  Solr作为高性能的搜索服务器,能够提供快速,强大的全文检索功能。  (二)为什么需要hive集成solr?  有时候,我们需要将hive的分析完的结果,存储到solr里面进行全文检索服务,比如以前我们有个业务,对我们电商网站的搜索日志使用hive分析完后 存储到solr里面做报表查询,因为里面涉及到搜索关键词,这个字段是需要能分词查询和不分词查询的,通过分词查询可以查看改词的相关的产品在某

  • spring - Solr Slice v Page

    up vote 0 down vote favorite Is it possible to use Slice via solrTemplate ? actually I am struggling to see if it will even make a difference because even without using spring, there doesnt appear to be any way of telling Solr

  • solr4.4+hadoop2.1.0beta整合 日期:0003年09月08日

    solr4.4支持索引存储到hdfs中下载 hadoop2.1.0-beta下载 解压solr4.4,hadoop2.1.0-beta 我的solr是运行在tomcat web容器中 solr4.4用的是hadoop2.0.5alpha版本,如果不改成hadoop2.1.0-beta会报很多奇怪的错误。 删除solr webapp/WEB-INF/lib中的jar包,用我已经整合好的lib替换 整合好的tomcat下载 注意修改的地方 solrconfig.xml <directoryFactory name="DirectoryFa

  • 浅谈Solr和ElasticSearch建索引性能优化策略 日期:0006年04月27日

      由于Solr和ElasticSearch都是基于Lucene构建的,所以他们之间有很大程度的相似性,故而他们的一些优化策略基本也是通用的,面对越来越多的海量数据,如何优化全量索引的写入性能呢? 散仙简单总结了下面几个方向的优化策略,如有疑问,欢迎拍砖。  (一)硬件优化:  (1)CPU加大,有利于并发写入  (2)内存提升,加大写入缓冲  (3)磁盘IO,使用SSD或者IO读写更快的磁盘  (4)网络IO,保证客户端与服务端的通信带宽充足  (二)服务端框架优化:  (1)加大shard的数目,理论上shard越多,写入速度越快  (2)设置较大的索引flush触发条件

  • 开源大数据索引项目hive-solr 日期:0006年05月06日

    github地址:https://github.com/qindongliang/hive-solr  欢迎大家fork和使用  关于这个项目的介绍,请参考散仙前面的文章:  http://qindongliang.iteye.com/blog/2283862  最新更新:  (1)添加了对solrcloud集群的支持  (2)修复了在反序列时对于hive中null列和空值的处理bug  (3)优化了在构建索引时对于null值和空值的忽略  一些测试:  数据量:约一千二百万,8个字段,其中一个是大文本,2个是分词字段,索引前数据体积约20G  索引总耗时:约15分钟  索引后体积

  • 开源大数据索引项目hive-solr 日期:0006年05月06日

    github地址:https://github.com/qindongliang/hive-solr  欢迎大家fork和使用  关于这个项目的介绍,请参考散仙前面的文章:  http://qindongliang.iteye.com/blog/2283862  最新更新:  (1)添加了对solrcloud集群的支持  (2)修复了在反序列时对于hive中null列和空值的处理bug  (3)优化了在构建索引时对于null值和空值的忽略  一些测试:  数据量:约一千二百万,8个字段,其中一个是大文本,2个是分词字段,索引前数据体积约20G  索引总耗时:约15分钟  索引后体积

  • 开源大数据索引项目hive-solr 日期:0006年05月06日

    github地址:https://github.com/qindongliang/hive-solr  欢迎大家fork和使用  关于这个项目的介绍,请参考散仙前面的文章:  http://qindongliang.iteye.com/blog/2283862  最新更新:  (1)添加了对solrcloud集群的支持  (2)修复了在反序列时对于hive中null列和空值的处理bug  (3)优化了在构建索引时对于null值和空值的忽略  一些测试:  数据量:约一千二百万,8个字段,其中一个是大文本,2个是分词字段,索引前数据体积约20G  索引总耗时:约15分钟  索引后体积

  • apache - Solr HTTP 400 Error Bad Request on search

    var ados = ados || {}; ados.run = ados.run || []; ados.run.push(function () { ados_add_placement(22,8277,"adzerk729160168",4).setZone(43); });

  • apache - Indexing PDFs in solr4 No Docs Returned on search

    var ados = ados || {}; ados.run = ados.run || []; ados.run.push(function () { ados_add_placement(22,8277,"adzerk1614487100",4).setZone(43); });