研究紹介

研究紹介用デモ

CEES(Causal Expressions Extraction System)

企業のWebサイトで公開されている決算短信のPDFファイルから業績要因を含む文(例えば「スマートフォンの売り上げは引き続き拡大しました.」等)を自動的に抽出し、その抽出した業績要因を対象にした決算短信PDF検索システムです。3,821社の企業Webページから収集した106,885個の決算短信PDFを対象としています。例えば「エアコン」で検索すると、エアコンを業績要因にもつ文を検索し、その文が記載されている決算短信PDFとその企業を表示します。それにより、エアコンが業績要因である企業(エアコンと関連のある企業)を検索する企業検索としても利用が可能です。
URL: http://hawk.ci.seikei.ac.jp/cees/


■ 入力
  • ・企業名(例:「ソニー」「日立製作所」など。「日立」のような略称にも対応)
  • ・製品等のキーワード(例:「太陽電池」「建設機械」など)

■ 出力
  • ・入力が企業名であれば、その企業の決算短信を新しい順に出力し、決算短信から抽出した業績要因を、その業績要因に含まれているキーワードの重要度の順に表示
  • ・入力が製品であれば、その製品を含む業績要因を含む決算短信と、その企業名を表示。企業の表示順は、入力キーワードのその企業における重要度順。
  • ・検索結果の赤字は入力したキーワード。入力が企業名であった場合は、その企業にとって重要なキーワード
  • ・上、下の矢印は、決算短信、もしくは業績要因文単位の極性(ポジティブ・ネガティブ)。がポジティブ、がネガティブ

「太陽電池」で検索した結果

■ 関連文献
  1. 酒井浩之,西沢裕子,松並祥吾,坂地泰紀, 企業の決算短信PDFからの業績要因の抽出, 人工知能学会論文誌, vol.30, no.1, pp.172-182, 2015.
  2. 北森詩織,酒井浩之,坂地泰紀, 決算短信PDFからの業績予測文の抽出, 電子情報通信学会論文誌D, vol.J100-D, no.2, pp.150–161, 2017.

 

CS(Causal expressions Search system)

決算短信PDFから因果関係を抽出し,それを用いて過去の因果関係を表示することができるシステムです。例えば,企業名をシステムに入力すると,その企業に関連する過去の因果関係を表示します.また、例えば原因として「猛暑」,結果として「エアコン」を入力すると,原因が「猛暑」で結果が「エアコン」を含む因果関係を情報として記述している決算短信PDFとその企業を検索することができます。それにより、「猛暑」であれば「エアコン」と関連のある企業を見つけることができ、その企業に投資するためのポジティブな判断材料として役立つことができます.
URL: http://hawk.ci.seikei.ac.jp/CS/


■ 入力
  • ・企業名(例:「ソニー」「日立製作所」など。)
  • ・原因表現(例:「猛暑」)
  • ・結果表現(例:「エアコン」)

■ 出力
  • ・企業名のみの入力であれば、その企業の決算短信から抽出した因果関係を表示
  • ・原因表現、結果表現を入力すれば、入力したキーワードを含む原因と結果を表示。例えば原因表現が「猛暑」、結果表現が「エアコン」であれば、決算短信PDFから抽出した「原因表現→猛暑の影響、結果表現→エアコンが好調」の記述とその決算短信PDF、企業を表示

原因表現を「猛暑」、結果表現を「エアコン」で検索した結果

■ 関連文献
  1. 坂地泰紀,酒井浩之,増山繁, 決算短信PDFからの原因・結果表現の抽出, 電子情報通信学会論文誌D, vol.J98-D, no.5, pp.811–822, 2015.
  2. 坂地泰紀, 酒井浩之, 増山繁, 企業業績発表記事からの因果関係抽出, 第11回 人工知能学会 金融情報学研究会(SIG-FIN), pp.37-43, 2013.

 

LiLas(Language Information Laboratory's LABOLATORY search system)

大学WEBサイトから抽出した研究室Webサイトを検索対象とした研究室検索システムです。例えば「テキストマイニング」で検索すると「テキストマイニング」を研究している研究室のトップページと、その所属大学を検索することができます。
URL: http://hawk.ci.seikei.ac.jp/Lilas/


■ 入力
  • ・キーワード(例:「テキストマイニング」「核融合」など)

■ 出力
  • ・キーワードと関連のある研究室(のトップページ)

「テキストマイニング」で検索した結果

■ 関連文献
  1. 宮崎敦也, 酒井浩之, 坂地泰紀, 大学Webページからの研究室トップページの抽出, 第7回 テキストマイニング・シンポジウム, pp.37-41, 2015.
  2. Hiroki Sakaji, Atsuya Miyazaki, Hiroyuki Sakai, Kiyoshi Izumi, Extracting Laboratory Front Pages from University Websites, The 6th International Workshop on Web Services and Social Media (WSSM-2017) In conjunction with The 20th International Conference on NBiS-2017, 2017.

 

LicsPlus(Language Information Laboratory's company search system)

非上場企業も含めた16,461社の企業WEBページから重要なキーワードを抽出し,抽出した重要なキーワードを検索対象とした企業検索システムです。例えば「太陽電池」と検索することで、太陽電池に関連のある企業を検索できます。さらに、検索クエリに関連したタグを推定し、検索結果の絞り込みが可能です。また、企業名を入力すると、その企業と関連のある企業を検索することができます。例えば「エプソン」で検索すると「ブラザー工業」が検索されます。上場企業に限定した企業検索システム(Lics-β)もあります。
LicsPlus: http://hawk.ci.seikei.ac.jp/LicsPlus/
Lics-β: http://hawk.ci.seikei.ac.jp/Lics/


■ 入力
  • ・製品等のキーワード(例:「太陽電池」「建設機械」など)
  • ・企業名(例:「エプソン」など。)

■ 出力
  • ・キーワードと関連のある企業(例:「太陽電池」であれば「京セラ」「ダイトエレクトロン」など)
  • ・入力した企業と関連のある企業(例:「エプソン」であれば「ブラザー工業」「富士ゼロックス」)
  • ・キーワードに関連したタグ(例:「太陽電池」であれば「開発」「発電」など)
  • ・タグをクリックすれば、そのタグが付与された企業のみを表示

「太陽電池」で検索した結果

■ 関連文献
  1. 本間友実子, 酒井浩之, 坂地泰紀, 企業Webページを用いた関連企業の抽出, 第7回 Webインテリジェンスとインタラクション研究会, pp.13-14, 2015.
  2. 酒井浩之, 坂地泰紀, 企業Webページを対象とした企業検索システムのための検索クエリに関連するタグの推定, 第5回 テキストマイニング・シンポジウム , pp.41-45 , 2014.

 

CEES(Causal Expressions Extraction System)

企業の業績発表記事に含まれる業績要因表現(例えば「主力の半導体製造装置の受注が好調」)を抽出し、その業績要因表現を対象にした検索システムです。 さらに、業績発表記事、および、業績要因表現に対して極性(positive、negative)、重要度(★)を付与します。 (青文字がポジティブ、赤文字がネガティブが付与された業績要因。また、重要度は★の数で表します。) 現在は研究室限定公開です。

URL: http://hawk.ci.seikei.ac.jp/CEES/
 

業績要因抽出・極性付与・重要度付与
業績要因抽出・極性付与・重要度付与

■ 関連文献
  1. 酒井浩之,増山繁, 企業の業績発表記事からの重要業績要因の抽出 , 電子情報通信学会論文誌D, vol.J96-D, no.11, pp.2866-2870, 2013. [PDF]
  2. Hiroyuki Sakai, Shigeru Masuyama, Assigning Polarity to Causal Information in Financ ial Articles on Business Performance of Companies, IEICE Trans. Information and Systems, E92-D, 12, pp.2341- 2350, 2009. [PDF]
  3. Hiroyuki Sakai, Shigeru Masuyama, Cause Information Extraction from Financial Articles Concerning Business Performance, IEICE Trans. Information and Systems, ED, 4, pp.959-968, 2008. [PDF]

 

公開プログラム

CluPes (Clue Phrases Extraction Software)

CEES(Causal expression extraction system)で使用した手がかり表現(「が好調」等)の自動抽出プログラムです。OSはLinuxで、Ubuntu 12.04にて動作確認をしています。


■ 関連文献
  1. 酒井浩之,西沢裕子,松並祥吾,坂地泰紀, 企業の決算短信PDFからの業績要因の抽出, 人工知能学会論文誌, 30, 1, pp.172-182, 2015. [PDF]
  2. 酒井 浩之, 野中 尋史, 増山 繁, 特許明細書からの技術課題情報の抽出, 人工知能学会論文誌, 24, 6, pp.531-540, 2009. [PDF]
  3. 酒井 浩之, 梅村 祥之, 増山 繁, 交通事故事例に含まれる事故原因表現の新聞記事からの抽出, 自然言語処理, vol.13, no.2, pp.99-123, 2006. [PDF]

自然言語処理

統計的手法を用いた文書自動要約

文書自動要約の研究として,文中の不要な連用修飾節,動詞連体修飾節,多重連体修飾節を認定し,削除することにより文圧縮を行う技術を研究しています.これらの技術を適用して要約生成時における重要文の文字数を削減することで,より高い圧縮率の要約生成が可能となります.これらの技術は,統計的手法を主に用いることで,従来の人手で作成した要約規則を用いる手法よりも高い精度,再現率を達成しているのに加え,削除可能な修飾節認定箇所のほとんどの場合をカバーしております. 例えば、文献[PDF]の研究は,削除可能な動詞連体修飾節を,被修飾名詞の修飾多様性に着目して認定する研究です.具体的には,修飾される頻度が低い,もしくは,修飾する動詞の種類が限定されている名詞を修飾する動詞連体修飾節を削除可能と認定します.そして,一般的な名詞を修飾している動詞連体修飾節を削除可能と認定しないことで,高い精度,再現率を達成しています(下記の図を参照).下記の図の例では,「膜生成速度」を修飾している動詞連体修飾節である「量産化のネックになっていた」を削除可能と認定し,「技術」を修飾している動詞連体修飾節である「量産化のネックになっていた太陽電池の膜生成速度を飛躍的に高める」を削除不可と認定できます.
 

削除可能な動詞連体修飾節の認定
削除可能な動詞連体修飾節の認定

また,複数文書要約に関する研究をしており、その一環として、ユーザとのインタラクションを導入した複数文書要約システムを開発いたしました(文献[PDF]).本システムはユーザとのインタラクションを行うことで,ユーザにとって必要な情報を含む複数文書要約が自動的に生成されることが特徴であり,国立情報学研究所が主催する検索と要約のためのワークショップNTCIR4の要約タスクに参加したところ,良好な成績を達成いたしました.本システムでは文書集合から関連したキーワードを自動的に抽出し,ユーザがそれを選択することで,ユーザにとって必要な情報を含む複数文書要約が生成されます

 

テキストマイニング

テキストマイニングと情報抽出

テキストマイニングの研究の一環として、新聞記事から交通事故事例記事を抽出し,その事故原因が記述してある部分(例えば,「前方不注意が原因」)を抽出する技術の開発を行いました(文献[PDF]).本研究によって抽出される情報は,自動車関連企業における交通事故防止装置の開発や,警察等における交通安全対策に有用な情報になることが期待できます.また,経済新聞記事から企業の業績発表に関する記事を抽出し,その業績要因が記述してある表現(例えば,「半導体製造装置の受注が好調」)を抽出する技術の開発を行いました(文献[PDF]).業績要因情報は,株式投資等の投資活動を行うにあたり重要な情報となるだけでなく,景気動向予測や企業の事業投資戦略・技術経営の方針を決定するうえで重要な情報となることが期待できます.これら2つの研究では,抽出すべき情報が異なるにも関わらず,共通の手法を使用しています.具体的には,最初に小数の手がかり表現(「が原因」、「が好調」等)を入力し,その情報からブートストラップ的に新たな手がかり表現を獲得していきます(下記の図を参照).そして獲得した手がかり表現等を使用して,抽出すべき情報を抽出しています.
 
業績要因情報の抽出手法の概要
業績要因情報の抽出手法の概要

事故原因情報の抽出手法の概要
事故原因情報の抽出手法の概要

これらの技術は,従来は抽出すべき情報ごとに人手で作成してきたテンプレートや辞書,規則を使用しなくてもよく,文書集合の統計情報のみを使用して抽出すべき情報を抽出できる技術であるため,様々なタスクに応用できることが期待できます.

 

テキストマイニング技術を応用した投資家支援の研究

テキストマイニング技術を応用した投資家支援の研究を行っています。 その一環として、文献[PDF]の研究成果により、 業績発表記事から抽出した業績要因表現に対して、業績に関する極性(業績が向上する要因であったならば「ポジティブ」,さもなければ「ネガティブ」)を自動的に付与する技術を開発しました(文献[PDF]).下記の図は2001年から2005年までの日経新聞記事に含まれる業績発表記事から業績要因表現を抽出して極性(「ポジティブ」,「ネガティブ」)を自動的に付与し,ポジティブの業績要因の数,ネガティブの業績要因の数を示したものです.日本は2002年から戦後最長の景気拡大期に入ったとされていますが,その年からポジティブの業績要因数が徐々に増えていることが見てとれます.
 
極性を付与された業績要因の数
極性を付与された業績要因の数

さらに、抽出した複数の業績要因の中で特に重要な業績要因を提示できれば,高度な専門知識がない個人投資家に対する投資判断支援を行うための有用な情報源になることが期待できます。 例えば,「三菱電機」は多くの事業を行っていますが,会社四季報によれば,三菱電機の特色欄に「FAが収益柱」という記述があります。 そのため,三菱電機の業績要因として「FA(ファクトリーオートメーション)が好調(もしくは不振)」であれば,投資判断を行ううえで重要な情報となります。 しかし,個人投資家が必ずしも多くの企業の主力事業を熟知しているわけではありません。 そこで,ある業績発表記事から抽出した業績要因のなかで、最も重要な業績要因の自動判定を行う技術の開発をしています。 例えば、「リコー」の業績発表記事から,「主力の複写機販売は景況感悪化を受け、日米で落ち込んだ。」,「研究開発費の増加や原材料高も響いた。」,「前期から取り組む販売体制の見直しで費用が発生した」,「モノクロ機の販売が減り」といった業績要因が抽出されました。 この中では,リコーのWebサイトから自動的に抽出した「複写機」や「複写」といったキーワードを利用して、「主力の複写機販売は景況感悪化を受け、日米で落ち込んだ。」という業績要因に対して最も高い重要度を付与することができています。

Language Information Laboratory
SEIKEI University