GitHub 的基本設定
這個例子討論瞭如何從 GitHub 倉庫設定 CoreNLP。GitHub 程式碼具有比官方版本更新的功能,但可能不穩定。此示例將指導你下載,構建和執行 CoreNLP 的簡單命令列呼叫。
先決條件:
- Java 8 或更新版本。
- Apache Ant
- 混帳
- 例如:Bash 或類似的 shell,以及 wget 或 curl
腳步:
-
克隆 CoreNLP Git 儲存庫:
git clone git@github.com:stanfordnlp/CoreNLP.git
-
輸入 CoreNLP 目錄:
cd CoreNLP
-
將專案構建為自包含的 jar 檔案。最簡單的方法是:
ant jar
-
下載最新型號。
wget http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar
或者使用 curl(macOS 上預設獲得的):
curl -O http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar
-
設定類路徑。如果你使用的是 IDE,則應在 IDE 中設定類路徑。
export CLASSPATH="$CLASSPATH:javanlp-core.jar:stanford-corenlp-models-current.jar"; for file in `find lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; done
如果你經常使用 CoreNLP,這是一個有用的行,你的
~/.bashrc
(或等效的)檔案,用你解壓縮 CoreNLP(3 個替換)的適當路徑替換目錄/path/to/corenlp/
:export CLASSPATH="$CLASSPATH:/path/to/corenlp/javanlp-core.jar:/path/to/corenlp/stanford-corenlp-models-current.jar"; for file in `find /path/to/corenlp/lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; don
-
試試看! 例如,以下內容將生成一個簡單的文字檔案進行註釋,並在此檔案上執行 CoreNLP。輸出將作為 JSON 檔案儲存到
input.txt.out
。請注意,CoreNLP 需要相當多的記憶體。在大多數情況下,你應該給它至少 2GB(-mx2g
)。echo "the quick brown fox jumped over the lazy dog" > input.txt java -mx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat json -file input.txt