分词化

控制文本分词和转义

全文搜索的工作原理是比较查询的单词、URL、数字和其他元素针对每个文档的可搜索字段中的文本。然而将查询的整个文本与每个字段的整个文本，因此搜索系统不会执行此作。相反，它将文档文本拆分为简短的重要部分调用令牌，并将令牌存储为文档的索引数据。

在搜索过程中，查询系统还会对 query 文本，然后简单地将查询中的标记与存储的标记进行比较对于每个文档。查找这样的匹配项比 pattern matching 要高效得多整个文本还允许您使用词干提取和停用词来进一步改进搜索。有关概念的一般介绍，请参阅这篇关于 Tokenization 的文章。

Redis Stack 对文档使用非常简单的分词器，对查询使用稍微复杂的分词器。两者都允许对字符串转义和分词化进行一定程度的控制。

以下部分介绍了对文本字段和查询进行分词的规则。请注意，标记字段本质上是文本字段，但它们使用更简单的标记化形式，如前所述在 Tokenization rules for tag fields 部分中。

文本字段的分词规则

所有标点符号和空格（下划线除外）将文档和查询分隔为标记。例如，,.<>{}[]"':;!@#$%^&*()-+=~将文本分解为多个术语，因此文本foo-bar.baz...bag将被标记化为[foo, bar, baz, bag]
在查询和文档中转义分隔符是通过为任何分隔符加上反斜杠来完成的。例如，文本hello\-world hello-world将被标记化为[hello-world, hello, world].在大多数语言中，在格式化文档或查询时，你需要一个额外的反斜杠来表示实际的反斜杠，因此输入到 redis-cli 中的实际文本将是hello\\-world.
下划线（）在文档或查询中都不用作分隔符，因此文本_hello_world在分词后将保持原样。
重复的空格或标点符号将被去除。
拉丁字符将转换为小写。
第一位数字前的反斜杠会将其标记为术语。这会将符号转换为 NOT，否则将使数字变为负数。在前面添加反斜杠-.如果要搜索浮点数。例如-20 -> {-20} vs -\20 -> {NOT{20}}.

标记字段解释一个文本字段，由分隔符（逗号 “，”，由 default）的 S S分词器只是在找到分隔符的地方分割文本，因此大多数标点符号和空格是每个标记标记中的有效字符。唯一的分词器对标签所做的更改包括：

这意味着，在定义 tag 字段时，无需转义任何字符，但在您希望前导或尾随空格成为标签文本的一部分的不常见情况下。但是，您确实需要对针对 tag 字段的查询中的某些字符进行转义。请参阅查询语法和精确匹配页面以了解有关转义的更多信息以及如何使用 DIALECT 2，这是涉及标记的完全匹配查询。