ようこそ言語情報研究室へ

当研究室ではWeb上に溢れている大量のテキスト情報を積極的に活用するための技術とし て、自然言語処理を基に、テキストマイニング技術等の研究を行っています。

News

2015 Sep. 10
大学Webページから抽出した研究室トップページを検索対象とした研究室検索システム(LiLas)を公開しました。
2014 Oct. 22
決算短信PDFから抽出した業績要因を検索対象とした決算短信PDF検索システム(CEES)を公開しました。
2014 Jun. 1
決算短信PDFにおける因果関係検索システム(CS)を公開しました。
2013 Sep. 17
企業WEBページから抽出したキーワードを検索対象とした企業検索システム(Lics)を公開しました。
2012 Nov. 20
手がかり表現自動抽出プログラム(CluPes)を公開しました。
2012 Aug. 1
研究紹介にCausal Expressions Extraction System(CEES)を追加しました。
2012 Mar. 25
本ページを公開しました。

研究分野

公開システム

CEES : http://hawk.ci.seikei.ac.jp/cees/
企業のWebサイトで公開されている決算短信PDFファイルから業績要因を含む文を自動的に抽出し、その抽出した業績要因を対象にした決算短信PDF検索システムです。例えば「太陽電池」で検索すると、太陽電池を業績要因にもつ業績要因文を検索し、その文が記載されている決算短信PDFとその企業を表示します。それにより、「太陽電池」が業績要因である企業=「太陽電池」と関連のある企業を検索する企業検索としても利用が可能です。「↑」「↓」の矢印は、決算短信、もしくは業績要因の極性(ポジティブ・ネガティブ)を表します。
 
CS : http://hawk.ci.seikei.ac.jp/CS/
決算短信PDFから因果関係を抽出し,それを用いて因果関係を検索することができるシステムです。例えば原因として「猛暑」,結果として「エアコン」を入力すると,原因が「猛暑」で結果が「エアコン」を含む因果関係を情報として記述している決算短信PDFとその企業を検索することができます。それにより、「猛暑」であれば「エアコン」が好調な企業=「猛暑」で業績が変動する企業を見つけることができ、その企業に投資するための判断材料として役立つことができます.
 
LiLas : http://hawk.ci.seikei.ac.jp/Lilas/
大学WEBサイトから抽出した研究室Webサイトを検索対象とした研究室検索システムです。例えば「テキストマイニング」で検索すると「テキストマイニング」を研究している研究室のトップページと、その所属大学を検索することができます。
 
Lics-Plus : http://hawk.ci.seikei.ac.jp/LicsPlus/
非上場企業も含めた16,461社の企業WEBサイトから重要なキーワードを抽出し,抽出した重要なキーワードを検索対象とした企業検索システムです。例えば「太陽電池」と検索することで、太陽電池に関連のある企業を検索できます。また、企業名を入力すると、その企業と関連のある企業を検索することができます。例えば「エプソン」で検索すると「ブラザー工業」が検索されます。

Lics-β : http://hawk.ci.seikei.ac.jp/Lics/
上場企業に限定した企業WEBサイトから抽出したキーワードを検索対象とした企業検索システムです。現在、関連企業検索機能は未実装です。

公開プログラム

CluPes : http://www.ci.seikei.ac.jp/sakai/clupes.html
CEES(Causal expression extraction system)で使用した手がかり表現(「が好調」等)の自動抽出プログラムです。 OSはLinuxで、Ubuntu 14.04にて動作確認をしています。

テキストマイニング

情報洪水の時代と言われるようにWeb上に溢れている情報に溺れることなく積極的に活用するための情報技術として、自然言語処理を基に、テキストマイニング、テキスト自動要約、質問・応答システム、Webマイニング等を重点的に研究しています。具体的には、新聞記事から交通事故事例記事を抽出し、さらに、事故原因表現を抽出する技術、経済新聞記事から企業の業績発表記事を抽出し、さらに、その記事における業績要因(なぜ、業績が回復したのか、その要因を表している表現)を抽出する技術、抽出した業績要因に対して極性(ポジティブ、ネガティブ)を付与する技術、複数文書要約技術、略語とその元となった語との対応関係の自動抽出といった技術を開発してきました。

自然言語処理について

自然言語処理とは、人間が日常的に使っている自然言語やテキスト情報をコンピュータに処理させる一連の技術です。例えば、ひらがなを漢字に変換する技術も自然言語処理です。また、情報検索も自然言語処理の分野に入ります。なぜなら、検索サイトが対象にしている情報はWeb上のテキスト情報であり、それらを収集し、高速に検索できるように変換する処理が必要になるからです。その他にも、企業のコールセンターに寄せられる大量の質問事項を自動的に分析して商品開発に役立てたり、企業のプレスリリースや新聞記事を自動的に分析して株式投資判断の支援に使ったりといった事例があります。

自然言語処理の面白さ(+大変さ)

自然言語処理の根本にあることは、「人間がやれば膨大な時間がかかることを計算機を使って自動的に行う。」です。情報検索でも(実際は不可能ですが)すべてのWebページを人間が記憶して、頭の中で検索すればいいわけです。これを計算機が自動で行ってくれれば便利です。人間は楽できます。 しかし、言語という複雑なものを計算機に処理させることは大変なことでもあります。そもそも、計算機は単語の意味を理解できず、データとしてしか認識できません。例えば「大学」という単語も、計算機は「学術研究および教育の最高機関」という意味を認識できず、文字コード(UTF-8やSJIS)の集合としか分からないのです。しかし、計算能力と記憶能力だけは人間とは比較にならないくらい強力です。このようなアンバランスな能力で、いかに人間と同じような自然言語の処理ができるか(そして人間が楽ができるか)。それが自然言語処理の面白さであり、大変さだと言えるでしょう。

連絡先

住所
〒180-8633
東京都武蔵野市吉祥寺北町3-3-1
成蹊大学・理工学部・情報科学科
言語情報研究室
メール
h-sakai?st.seikei.ac.jp
?を @ に変更して下さい

リンク

Language Information Laboratory
SEIKEI University