¿Qué es un segmentador de palabras en Solr?
El trabajo del tokenizador es cortar una cadena de texto en tokens, que generalmente son subconjuntos del texto. El analizador procesa un campo y el tokenizador enfrenta una cadena de texto. El tokenizador lee una cadena de texto y luego la corta en un grupo de objetos simbólicos.
Se eliminarán los espacios o conectores de la cadena. Se agregarán o reemplazarán caracteres, como alias de mapeo o abreviaturas para reemplazar abreviaturas con el formato normal. El tokenizador puede producir un token que no sea consistente con el valor del campo original, o que la longitud no sea consistente con el texto original. Es necesario tener en cuenta esto cuando se utilizan metadatos simbólicos para resaltar los resultados de búsqueda en campos de texto. lt;lt;/codegt;fieldType?name="text"?class="solr.TextField"gt;
lt;lt;/codegt;analyzergt;
lt;lt ;/codegt;tokenizer?class="solr.StandardTokenizerFactory"/gt;
lt;/lt;/codegt;analyzergt;
lt;/lt;/codegt;fieldTypegt;
El nombre de clase del elemento no es un tokenizador real, pero apunta a una clase que implementa la interfaz org.apache.solr.analysis.TokenizerFactory. Esta fábrica creará una instancia del tokenizador cuando sea necesario. Los objetos creados por la fábrica deben heredar?org.apache.lucene.analysis.TokenStream.