Solr4.2.1 拼写检查组件

标签： solr4 拼写检查 | 发表时间：2014-03-12 17:16 | 作者：windows9834

出处：http://windows9834.blog.163.com

在做搜索时一般可以在用户输入检索条件时使用suggest，而在点击完搜索时，使用拼写检查，二者结合给可以用户带来比较好的用户体验！

suggest与spellcheck看似功能一样，出发点是不一样的，使用条件也不一样，spellcheck是在没有搜索出结果时才有的功能，搜索词正确是没能spellcheck结果的，而suggest是任何情况下都有结果的。

Solr4.0以后又新增了一个拼写检查组件：org.apache.solr.spelling.DirectSolrSpellChecker，以前只有这两个：
org.apache.solr.spelling.IndexBasedSpellChecker
org.apache.solr.spelling.FileBasedSpellChecker
IndexBasedSpellChecker是基于Solr或lucene索引字段的，FileBasedSpellChecker是基于字典文件的，这个在用于词的搜索热门度排名有用。
在solr 4.0版本引入了solr.DirectSolrSpellChecker拼写检查组件，是个实验性的组件，可以为主索引提供拼写建议功能，且不需要在每次commit索引时重建。

4.0还有一个org.apache.solr.spelling. WordBreakSolrSpellChecker ：

4.x的配置：

schema.xml

      <!-- 自定义自动完成单个词字段类型 -->	      
 <fieldType class="solr.TextField" name="text_auto_s" positionIncrementGap="100">        
     <analyzer>      
	<tokenizer class="solr.WhitespaceTokenizerFactory"/>      
	<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" atenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>      
	<filter class="solr.LowerCaseFilterFactory"/>      
     </analyzer>      
 </fieldType>      
	      
<!-- 自定义自动完成短语字段类型,如果使用词组，你需要定义自己的分词类(对于中文如庖丁、iK等) -->      
<fieldType class="solr.TextField" name="text_auto">        
   <analyzer>      
      <!-- 整个字段做为一个词，不进行分词 -->      
      <tokenizer class="solr.KeywordTokenizerFactory"/>      
      <filter class="solr.LowerCaseFilterFactory"/>      
   </analyzer>      
</fieldType>

solrconfig.xml

      <searchComponent name="spellcheck" class="solr.SpellCheckComponent">      
    <!-- 查询分析器，如果不指定的话，默认会使用field字段类型的分词器 
              作为拼写检查用，为了提高校正的准确率，一般对校正的词，不要进行分词，所以用string就好了,拼写检查的配置主要是在solrconfig.xml里面配置. -->      
    <str name="queryAnalyzerFieldType">string</str>      
    <lst name="spellchecker">      
      <str name="name">default</str>      
      <str name="field">text_spell</str>      
      <str name="classname">solr.DirectSolrSpellChecker</str>      
      <str name="distanceMeasure">internal</str>      
      <float name="accuracy">0.5</float>      
      <int name="maxEdits">2</int>      
      <int name="minPrefix">1</int>      
      <int name="maxInspections">5</int>      
      <int name="minQueryLength">4</int>      
      <float name="maxQueryFrequency">0.01</float>      
      <!-- uncomment this to require suggestions to occur in 1% of the documents      
      	<float name="thresholdTokenFrequency">.01</float>      
      -->      
    </lst>
     </searchComponent>
           
       <requestHandler name="/spell" class="solr.SearchHandler" startup="lazy">
         <lst name="defaults">      
      <str name="df">text_spell</str><!--The default field for spell checking. -->      
      <str name="spellcheck.dictionary">default</str>      
      <!--<str name="spellcheck.dictionary">wordbreak</str>-->      
	  <str name="spellcheck">on</str>      
      <str name="spellcheck.extendedResults">true</str>             
      <str name="spellcheck.count">10</str>      
      <str name="spellcheck.alternativeTermCount">5</str>      
      <str name="spellcheck.maxResultsForSuggest">5</str>             
      <str name="spellcheck.collate">true</str>      
      <str name="spellcheck.collateExtendedResults">true</str>        
      <str name="spellcheck.maxCollationTries">10</str>      
      <str name="spellcheck.maxCollations">5</str>               
    </lst>      
    <arr name="last-components">      
      <str>spellcheck</str>      
    </arr>      
  </requestHandler>

要想把拼写检查组件合并在/select查询功能中：

       <requestHandler name="search" class="solr.SearchHandler" default="true">      
     <lst name="defaults">      
       <str name="echoParams">explicit</str>      
       <str name="q">abcdefghik</str><!-- 增加没有q参数的容错性 -->      
       <int name="rows">10</int>      
     </lst>
          <!-- 这行代码非常重要，如果没有这行，拼写检查，是不同时起作用的 -->      
     <arr name="last-components">      
	<str>spellcheck</str>      
     </arr>      
</requestHandler>

在solrj里有代码：

      //拼写检查建议       
query.getSolrQuery().set("spellcheck", "true");	       
query.getSolrQuery().set("spellcheck.q",condition.getSearchWord());       
query.getSolrQuery().set("spellcheck.count", 5);  
      ....
              //当搜索不到结果时，显示建议词       
	SpellCheckResponse spellCheckResponse = rsp.getSpellCheckResponse();       
        if (spellCheckResponse != null) {            
        	if(!spellCheckResponse.isCorrectlySpelled()){       
        		List<String> wordList = new ArrayList<String>();       
	        	for(Suggestion s:spellCheckResponse.getSuggestions()){       
	        		wordList.addAll(s.getAlternatives());       
	        	}       
	        	result.setSuggestions(wordList);       
        	}                         
        }

在solr4.0以前的版本中，spellcheck模块还有buildOnCommit选项，是使用IndexBasedSpellChecker组件，buildOnCommit=true在每次创建索引时生成拼写检查字典会影响索引创建的性能，spellcheck都需要构建自己的索引，每次配置后都需要更新索引，要生成spellchecker目录，比较麻烦。而solr4.0以后，通过solr.DirectSolrSpellchecker就可以在main索引中直接用spellcheck功能了。虽然可以使用buildOnOptimize或手工生成拼写检查字典代替，在索引比较大时，还是对生成索引的速度有很大影响，基本上要增加成倍的时间。

而且之前配置完后还要先执行spellcheck=true&spellcheck.build=true，才会生成拼写检查索引。