GitHub 的基本设置
这个例子讨论了如何从 GitHub 仓库设置 CoreNLP。GitHub 代码具有比官方版本更新的功能,但可能不稳定。此示例将指导你下载,构建和运行 CoreNLP 的简单命令行调用。
先决条件:
- Java 8 或更新版本。
- Apache Ant
- 混帐
- 例如:Bash 或类似的 shell,以及 wget 或 curl
脚步:
-
克隆 CoreNLP Git 存储库:
git clone git@github.com:stanfordnlp/CoreNLP.git
-
输入 CoreNLP 目录:
cd CoreNLP
-
将项目构建为自包含的 jar 文件。最简单的方法是:
ant jar
-
下载最新型号。
wget http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar
或者使用 curl(macOS 上默认获得的):
curl -O http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar
-
设置类路径。如果你使用的是 IDE,则应在 IDE 中设置类路径。
export CLASSPATH="$CLASSPATH:javanlp-core.jar:stanford-corenlp-models-current.jar"; for file in `find lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; done
如果你经常使用 CoreNLP,这是一个有用的行,你的
~/.bashrc
(或等效的)文件,用你解压缩 CoreNLP(3 个替换)的适当路径替换目录/path/to/corenlp/
:export CLASSPATH="$CLASSPATH:/path/to/corenlp/javanlp-core.jar:/path/to/corenlp/stanford-corenlp-models-current.jar"; for file in `find /path/to/corenlp/lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; don
-
试试看! 例如,以下内容将生成一个简单的文本文件进行注释,并在此文件上运行 CoreNLP。输出将作为 JSON 文件保存到
input.txt.out
。请注意,CoreNLP 需要相当多的内存。在大多数情况下,你应该给它至少 2GB(-mx2g
)。echo "the quick brown fox jumped over the lazy dog" > input.txt java -mx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat json -file input.txt