夏威夷語翻譯[問題類型]: 程式諮詢 [軟體熟悉度]: 入門(寫過其他程式,只是對語法不熟習) [問題敘述]: 各人好,比來剛接觸文字探勘 參考了陳嘉葳大大的文章:用R進行中文 text Mining (http://goo.gl/3mTrDg) 鉦昱翻譯公司也照做了一番,有些地方因為有更新所以有自己點竄翻譯 問題1: 在輸出TermDocumentMatrix時,出現了以下的樣子 不知道怎麼把 弄掉,本來的文章也沒有長這樣。 Docs Terms 1 2 3 4 5 平生 自願 0 0 0 0 0 平生 味道 0 0 0 0 0 一家 嘴 罐子 1 0 0 0 0 連續串 0 0 0 0 0 人 0 0 0 0 0 人 人 人 強者 同學 0 0 0 0 0 人 人 小學 0 0 0 0 0 人 人 事 課 精力 0 0 0 0 0 人 人 器械 0 0 0 0 0 人 山 雙手 0 0 0 0 0 問題2: 輸出的文字雲長這樣 http://i.imgur.com/W6Bo2Tk.png

明明程式碼一樣,不知為何我的倒是方的,並且沒有很密集。 想知道問題出在哪。 問題3: 由於原文章只鎖命名詞 d.corpus <- tm_map(d.corpus[1:100]翻譯社 segmentCN, nature = TRUE) d.corpus <- tm_map(d.corpus, function(sentence) { noun <- lapply(sentence翻譯社 function(w) { w[names(w) == "n"] }) unlist(noun) }) 若所有詞性都想要,該怎麼做呢? 我有試做看看,卻在輸出tdm時得到error Error in `[.simple_triplet_matrix`(tdm翻譯社 1:10, 1:5) : subscript out of bounds [程式典範榜樣]: 也許的程式碼以下: d.corpus0 <- Corpus(DirSource('doc'), list(language = NA)) #語料庫 d.corpus_clean <- tm_map(d.corpus0, removePunctuation) d.corpus_clean <- tm_map(d.corpus_clean, removeNumbers) d.corpus_clean <- tm_map(d.corpus_clean, function(word) { gsub("[A-Za-z0-9]"翻譯社 ""翻譯社 word) }) d.corpus_seg <- tm_map(d.corpus_clean[1:100], segmentCN, nature = TRUE) d.corpus_seg2 <- tm_map(d.corpus_seg, function(sentence) { noun <- lapply(sentence翻譯社 function(w) { w[names(w) == "n"] }) unlist(noun) }) #d.corpus_vec <- Corpus(VectorSource(d.corpus_seg)) #沒法run d.corpus_stop <- tm_map(d.corpus_seg2翻譯社 removeWords, myStopWords) #建立TermDocumentMatrix(本身修改過) corpus_clean <- tm_map(d.corpus_stop, PlainTextDocument) d.corpus_vec <- Corpus(VectorSource(corpus_clean)) tdm <- TermDocumentMatrix(d.corpus_vec, control = list(wordLengths = c(2, Inf))) #文字雲 m1 <- as.matrix(tdm) v <- sort(rowSums(m1), decreasing = TRUE) d <- data.frame(word = names(v), freq = v) wordcloud(d$word翻譯社 d$freq, min.freq = 2, random.order = F, ordered.colors = F, colors = rainbow(length(row.names(m1)))) 這個問題已困擾我好幾天,想了良久也找很多資料仍是無解,才想說上來請列位高手解 答 小妹第一次在本版發文,若有任何不當請多多見原:) [關頭字]: 文字探勘,text mining

文章出自: https://www.ptt.cc/bbs/R_Language/M.1439908857.A.A29.html有關各國語文翻譯公證的問題歡迎諮詢鉦昱翻譯公司02-23690937

arrow
arrow
    文章標籤
    翻譯社
    全站熱搜
    創作者介紹
    創作者 marieu3775l3 的頭像
    marieu3775l3

    marieu3775l3@outlook.com

    marieu3775l3 發表在 痞客邦 留言(0) 人氣()