pink.2chのスレをRのrvestを用いてスクレイピングする
前回
2chのスレをRのrvestを用いてスクレイピングする - saikeisai's diary
2chのpinkではstatsがないためそのままだとスクレイピングできないということだった。
今回pink.2chのスクレイピングする。
今回も、スレッドのURLを与えた際にスレッドタイトルとレスの内容とレス日付を求めた。
以下にコードを示す。
library("rvest") url<-"http://phoebe.bbspink.com/test/read.cgi/soap/1493567426/" #2ch html<-read_html(x=url) #スレタイ title_nodes<-html_nodes(html,"h1.title") thread_title<-html_text(title_nodes) thread_title<-gsub("\\n","",x=thread_title) res_nodes<-html_nodes(html,"dd") res<-html_text(res_nodes) res<-gsub("\\n","",x=res) res<-gsub(" ","",x=res) date_nodes<-html_nodes(html, xpath='//*[@class="date"]') date<-html_text(date_nodes) #\32 > dt > span.date date<-gsub("\\((月|火|水|木|金|土|日)\\)"," ",date) date<-gsub(" "," ",date) date<-gsub(" [ID].+","",x=date) date_POSIX<-as.POSIXlt(date,format = "%Y/%m/%d %H:%M:%S.%OS")
構成は結構したらばと似てますね。
ようやくxpathがわかってきたような気がします。
次は爆サイ(bakusai)をやってみようかと思います。