BeautifulSoupが高機能っぽいんですが、どうもテクストの抽出がもっさりしているんで、嫌だなぁって感じでしたが、ありましたよ、boilerpipeが。
まあ何しろ、出来ることが出来りゃあいいんですが。
と言うわけで、下記に示す。
from boilerpipe.extract import Extractor
u = 'http://www.miyadai.com/index.php?itemid=1061'
e = Extractor(extractor='ArticleExtractor', url=u)
print e.getText()
あざっす。
0 件のコメント:
コメントを投稿