##設定自己jre位置
Sys.setenv(JAVA_HOME='C:/Program Files/Java/jdk1.8.0_121/jre')
library(rJava)
library(xlsx)
sd_content <- read.xlsx("sd_content.xlsx",header = TRUE,sheetIndex=1,encoding = "UTF-8")
class(sd_content$ar_ID)
library(openxlsx) ##檔案過大時,使用openxlsx
sd_ofile <- read.xlsx("sd_of_new_1.xlsx",sheet = 1)
ar_id_df <- read.xlsx("ar_id_df.xlsx",sheet = 1)
##check第一列第一個欄位,匯入時的多編碼
nchar(sd_content$ar_ID[1])
sd_content$ar_ID[1] <- c("1928")
nchar(sd_content$ar_ID[1])
## weblog與content結合,輸出有被點擊的文章
count <- nrow(ar_id_df)
for(i in 1:count){
ar_sit <- which((ar_id_df$Document[i]==sd_content$ar_ID)==TRUE)
ar_con <- sd_content$ar_content[c(ar_sit)]
write.table(ar_con,file=sprintf("sd_articles/sd_%s.utf8",ar_id_df$Document[i]),fileEncoding = "UTF-8",quote = F,row.names = F,col.names = F)
}
2017年9月25日 星期一
匯入資料,抓文章
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言