巨人の肩の上に登ったつもりが滑り落ちて、立体機動装置が故障してたもんだから、即行で喰われる: 【MIYADAI.com】からテクストをパクる（３）

では、PyQueryで、MIYADAI.comでテクストをパクってみます。

ここまで、BeatifulSoup、boilerpipe、PyQueryとやってみましたが、正直、テクストをぶっこ抜くだけなら、好きなのを使いなって感じです。

　import urllib2
　from pyquery import PyQuery as pq
　o = urllib2.build_opener()
　r = urllib2.Request('http://www.miyadai.com/index.php?itemid=1061')
　h = o.open(r).read()
　div = pq(h).find('div')
　for n in range(0,10000) :
　t = div.eq(n).find('div.itembody').text()
　if t:
　print t
　else:
　break

巨人の肩の上に登ったつもりが滑り落ちて、立体機動装置が故障してたもんだから、即行で喰われる

2015年1月3日土曜日

【MIYADAI.com】からテクストをパクる（３）

0 件のコメント:

コメントを投稿

ブログアーカイブ