Initial commit.
[robmyers:contemporary-art-daily-analysis.git] / NOTES
1 ## For unknown reasons stemCompletion gives bad results with this corpus,
2 ## materi->materia for example, if we stem the dtm then try to complete the
3 ## terms from the lda. This seems to make up terms, or use ones that appear at
4 ## most once.
5 ## Alternatively, stemming then completing the corpus takes forever because:
6 ## https://stackoverflow.com/questions/16988151/max-reasonable-size-for-stemcompletion-in-tm
7 ## So, for the moment, don't stem.
8
9 ## tm 0.60+ doesn't like using simple character functions with tm_map
10 ## so we wrap tolower in a content_transformer to handle this.
11 ##texts.corpus <- tm_map(texts.corpus, content_transformer(tolower))
12 ##texts.corpus <- tm_map(texts.corpus, removePunctuation)
13 ##texts.corpus <- tm_map(texts.corpus, removeNumbers)
14 ##texts.corpus <- tm_map(texts.corpus, removeWords, stopwords("english"))