在大数据集中查找匹配项
在大数据集的情况下,grepl("fox", test_sentences)
的调用效果不佳。大数据集是例如爬网网站或数百万推文等。
第一个加速度是使用 perl = TRUE
选项。更快的是 fixed = TRUE
选项。一个完整的例子是:
# example data
test_sentences <- c("The quick brown fox", "jumps over the lazy dog")
grepl("fox", test_sentences, perl = TRUE)
#[1] TRUE FALSE
在文本挖掘的情况下,通常使用语料库。语料库不能直接与 grepl
一起使用。因此,请考虑以下功能:
searchCorpus <- function(corpus, pattern) {
return(tm_index(corpus, FUN = function(x) {
grepl(pattern, x, ignore.case = TRUE, perl = TRUE)
}))
}