2015年1月2日金曜日

【MIYADAI.com】からテクストをパクる(2)

BeautifulSoupが高機能っぽいんですが、どうもテクストの抽出がもっさりしているんで、嫌だなぁって感じでしたが、ありましたよ、boilerpipeが。

まあ何しろ、出来ることが出来りゃあいいんですが。
と言うわけで、下記に示す。

  from boilerpipe.extract import Extractor
  u = 'http://www.miyadai.com/index.php?itemid=1061'
  e = Extractor(extractor='ArticleExtractor', url=u)
  print e.getText()

あざっす。

0 件のコメント:

コメントを投稿