2017年9月25日 星期一

匯入資料,抓文章


##設定自己jre位置
Sys.setenv(JAVA_HOME='C:/Program Files/Java/jdk1.8.0_121/jre')
library(rJava)
library(xlsx)


sd_content <- read.xlsx("sd_content.xlsx",header = TRUE,sheetIndex=1,encoding = "UTF-8")
class(sd_content$ar_ID)

library(openxlsx) ##檔案過大時,使用openxlsx
sd_ofile <- read.xlsx("sd_of_new_1.xlsx",sheet = 1)
ar_id_df <- read.xlsx("ar_id_df.xlsx",sheet = 1)
##check第一列第一個欄位,匯入時的多編碼
nchar(sd_content$ar_ID[1])
sd_content$ar_ID[1] <- c("1928")
nchar(sd_content$ar_ID[1])

## weblog與content結合,輸出有被點擊的文章
count <- nrow(ar_id_df)
for(i in 1:count){
  ar_sit <- which((ar_id_df$Document[i]==sd_content$ar_ID)==TRUE)
  ar_con <- sd_content$ar_content[c(ar_sit)]
  write.table(ar_con,file=sprintf("sd_articles/sd_%s.utf8",ar_id_df$Document[i]),fileEncoding = "UTF-8",quote = F,row.names = F,col.names = F)
}

沒有留言:

張貼留言