2012年5月12日土曜日

【論文】【ファイナンス】【言語処理】ツイッターで株式市場予測?!

ツイッターから感情を抽出し、ダウ工業平均の変動を予測した論文Twitter mood predicts the stock market.
ツイートから社会全体の雰囲気を表す感情指標を作成し、それを使って株式市場を予測しようという論文.


【概要】
  • Twitterの投稿の語彙から抽出された社会全体の感情を表す指標が、DJIAの変動を87.6%の精度で予測した.
  • 3〜4日前のCalmという感情の変動がDJIAの変動とほぼ一致する.

【解析の流れ】
  • OFとGPOMSを用いて、7つの感情に分類する.Yahoo! FinanceからDJIAを取得する.
  • OFとGPOMSを比較できるように平均0分散1のZ値に標準化する.
  • \[ \mathbf{Z_{X_{t}}} = \frac{X_{t} - \bar{x}(X_{t \pm k})}{\sigma(X_{t \pm k})} \]
  • グレンジャー因果性テストでOF¥&GPOMSがDJIAの予測に使えるかを検証する.
  • SOFNNを用いて非線形のDJIA予測モデルの予測精度が感情因子の組み合わせによって向上するかどうかを確認する.

【OFとGPOMS】
  • OF
    • センチメント分析のフリーソフトで、文章の感情を特定できる.
    • 2718個のpositive語と4912個のnegetive語からなるOF辞書を使って、ある日のツイートの感情をpositiveとnegativeに分類し、それぞれの感情が投稿されるとそれぞれに1だけ増やし、その比率を計算する.
    • p/nの2つだけであるので、人間の複雑な感情を把握できているとは言い難い.

  • GPOMS
    • ツイートのテキストデータをCalm, Alert, Sure, Vital, Kind, Happy に分類する.
    • 2006年にGoogleがwebサイトから抽出した1兆語もの単語を利用し、25億に及ぶ4-/5-gramsの解析から作成された.

【グレンジャー因果性】
  • 3日前のCalmの変動が現在のDJIA変動と同じような動きをしていることから、Calmの時系列データがほかの感情データと比べて予測の情報を含んでいると言える.
  • ただし、10月13日の連邦準備制度理事会のアナウンスの結果、Calmのデータからは予測できないDJIAの変動が生じている.

【SOFNN】
  • OFのp/nは予測精度を向上させることはない.
  • Calmがもっとも高い予測精度(株価の上下変動の予測)を記録した(86.7¥%).
  • CalmとSureやCalmとVitalを組み合わせたものは、将来のDJIAの情報を含まない.CalmとHappyの組み合わせは、MAPEをもっとも下げ、株価の上限変動の予測に関していい結果を残した(80.0¥%).Happyはグレンジャー因果性のテストでは、DJIAの予測には役立たないという結果であったが、Calmと組み合わせるとDJIAの予測に役立つ.Fテストをすると、CalmとHappyを線形結合するとCalmだけの場合に比べて結果がよくないので、異なった感情因子には非線形の関係があることが確認される.


【感想】
  • グレンジャー因果性を経済学の文脈で用いるとき、次数は1にすることが多いが、本論文では、7までテストしている.
  • 収集したツイートは必ずしも市場の情報を含んでいるものとは言えない.社会全体の感情や気分が株式市場を予測できるかどうかが本論文の目的であるが、マーケットに関連する、あるいは投資家のクラスタの中で同様の分析をすると予測精度がさらに上昇しそう.
  • FRBがBail-outのアナウンスをしたときには、感情データは株式市場を予測できていない.このあたりは経済学的な考え方で株価上昇の説明ができる.
  • 感情データと株式市場には相関がありそうだが、因果関係があるかは分からない.
  • パフォーマンスは?

応援よろしくです.

0 件のコメント:

コメントを投稿