--------(--)

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

2012-02-18(Sat)

RMeCabで解析する[2]





(3). Ngram解析
ある単語がどのような文脈で出現するのかを調べる。
(Nは文字の連なり数意味)
N=2 -- バイグラム
N=3 -- トライグラム
Ngram()関数またはNgramDF()を使う。
type : 0--文字単位、1--形態素単位、2--品詞情報単位

> txresDF <- NgramDF("001.txt", type=1, pos="名詞", N=3)
> class(txres)
[1] "data.frame"
> class(res)
[1] "data.frame"
>

両方同じ型だった。出力形式だけの違いなのか?
> txresDF <- NgramDF("001.txt", type=1, pos="名詞", N=3) # 名詞のみを抽出、トライグラムを指定
> txresDF1 <- txresDF[txresDF["Freq"] > 1,] # 発生頻度が2以上に絞る
> txresDF1
Ngram1 Ngram2 Ngram3 Freq
1118 頃 余 滝 2
1179 仕事 口 生活 2
1252 時間 大切 こと 2
1402 書斎 の 常 2
1677 他人 彼 部屋 2
2110 彼 他人 程度 2
2127 彼 部屋 間 2
2178 部屋 間 無理 2
2350 夜 時間 大切 2
2355 夜 夜 時間 2

2387 余 以外 他人 2
2450 余 日 録 2

結果:
 「夜の仕事の時間は大切で常に書斎にいる」ということが記載されている。
つづく。

参考:
 The R Tips―データ解析環境Rの基本技・グラフィックス活用集
 Rによるデータサイエンス - データ解析の基礎から最新手法まで
関連記事
スポンサーサイト

コメントの投稿

管理者にだけ表示を許可する

コメント

プロフィール

kumagonjp2

Author:kumagonjp2
Python,Django,R,Mongo,MySQL,Struts,Spring,データマイニングなどサーバー関係のメモを残していきます。

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
雪が3Dで降るブログパーツ ver2

マウスで見る方向変えられます

検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。