pink.2chのスレをRのrvestを用いてスクレイピングする

前回
2chのスレをRのrvestを用いてスクレイピングする - saikeisai's diary
2chのpinkではstatsがないためそのままだとスクレイピングできないということだった。
今回pink.2chスクレイピングする。


今回も、スレッドのURLを与えた際にスレッドタイトルとレスの内容とレス日付を求めた。
以下にコードを示す。

library("rvest")
url<-"http://phoebe.bbspink.com/test/read.cgi/soap/1493567426/" #2ch
html<-read_html(x=url)

#スレタイ
title_nodes<-html_nodes(html,"h1.title")
thread_title<-html_text(title_nodes)
thread_title<-gsub("\\n","",x=thread_title)

res_nodes<-html_nodes(html,"dd")
res<-html_text(res_nodes)
res<-gsub("\\n","",x=res)
res<-gsub(" ","",x=res)

date_nodes<-html_nodes(html, xpath='//*[@class="date"]')
date<-html_text(date_nodes)
#\32 > dt > span.date
date<-gsub("\\((月|火|水|木|金|土|日)\\)"," ",date)
date<-gsub("  "," ",date)
date<-gsub(" [ID].+","",x=date)
date_POSIX<-as.POSIXlt(date,format = "%Y/%m/%d %H:%M:%S.%OS")

構成は結構したらばと似てますね。
ようやくxpathがわかってきたような気がします。
次は爆サイ(bakusai)をやってみようかと思います。