在大資料集中查詢匹配項
在大資料集的情況下,grepl("fox", test_sentences)
的呼叫效果不佳。大資料集是例如爬網網站或數百萬推文等。
第一個加速度是使用 perl = TRUE
選項。更快的是 fixed = TRUE
選項。一個完整的例子是:
# example data
test_sentences <- c("The quick brown fox", "jumps over the lazy dog")
grepl("fox", test_sentences, perl = TRUE)
#[1] TRUE FALSE
在文字挖掘的情況下,通常使用語料庫。語料庫不能直接與 grepl
一起使用。因此,請考慮以下功能:
searchCorpus <- function(corpus, pattern) {
return(tm_index(corpus, FUN = function(x) {
grepl(pattern, x, ignore.case = TRUE, perl = TRUE)
}))
}