--------(--)

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

2012-05-05(Sat)

Python BeautifulSoupを使ってみた

HTMLパーサーのインストール方法をメモ。

easy_installを使う。
$ sudo easy_install BeautifulSoup

Version確認
$ python
>>> from BeautifulSoup import BeautifulSoup
>>> print BeautifulSoup.__version__
3.2.1

試しに使ってみる。
>>> from BeautifulSoup import BeautifulSoup
>>> import urllib2
>>> url = 'http://kumagonjp2.blog.fc2.com/'
>>> data = urllib2.urlopen(url).read()
>>> b_ret = BeautifulSoup(data)
"<dt>"のタグを抽出したい場合、以下のとおりとなる。
>>> for b in b_ret('dt'):
... print b
... break
...
<dt class="plg_title" style="text-align:left">プロフィール</dt>

整形して出力
>>> print soup.prettify(encoding='UTF-8')
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<meta http-equiv="Content-Style-Type" content="text/css" />
<meta http-equiv="Content-Script-Type" content="text/javascript" />
<meta name="author" content="kumagonjp2" />
<meta name="description" content="忘れていく知識をここにメモしていきます。" />
.....................

タグを指定してして出力
>>> for b in b_ret('dt'):
... print b.renderContents()
... break
...
プロフィール

うまく動いているみたいですね。


参考:
 BeautifulSourp公式ホームページ

関連記事
スポンサーサイト

コメントの投稿

管理者にだけ表示を許可する

コメント

プロフィール

kumagonjp2

Author:kumagonjp2
Python,Django,R,Mongo,MySQL,Struts,Spring,データマイニングなどサーバー関係のメモを残していきます。

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
雪が3Dで降るブログパーツ ver2

マウスで見る方向変えられます

検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。