ここまで、BeatifulSoup、boilerpipe、PyQueryとやってみましたが、正直、テクストをぶっこ抜くだけなら、好きなのを使いなって感じです。
import urllib2
from pyquery import PyQuery as pq
o = urllib2.build_opener()
r = urllib2.Request('http://www.miyadai.com/index.php?itemid=1061')
h = o.open(r).read()
div = pq(h).find('div')
for n in range(0,10000) :
t = div.eq(n).find('div.itembody').text()
if t:
print t
else:
break
0 件のコメント:
コメントを投稿