Author Wei Wu (victor.wuv@gmail.com)
Date 2019-09-30 10:37:26

Natural Language Processing

Personalized Intelligent Agents(PIA)

Objective:

Short Term
  • make traditional and mature NLP model customizable visually by end users at multiple levels e.g., training data, model parameter.
  • incorporate customizable NLP signals into both qualitative and quantitative investment strategies and research process.
  • recommendation of context sensitive synonyms.
  • Hot-word trending analysis on various topics, technology, industrial sectors, analysts comment, company announcement, Deep Learning authors comments, popular topics, papges, etc. Scrape the historical archives of web text in order to get for each post the following information: date, keywords, text.
Long Term
  • context sensitive, Personalized Intelligent Agents, forming an eco-system collaborating, competing and evolving together on behalf of their owners.
  • Graph2vec, 把word2vec应用在用户wo\rkflow使用序列上,根据用户使用app/func的顺序,把app/func看做单词,也是可以形成这样的序列数据,进而训练处每个app对应的向量。利用这个向量计算app之间的相似度,把真正内容相关的app聚合在一起,推荐给用户。
  • 可计算的知识服务引擎, like WolframAlpha.
  • a customer might be able to query different functions/want simply by chatting or typing a single request for exactly what information they’re seeking. There might even be a spoken interface to GS!
  • 智能投顾
    • 基于金融理财产品知识图谱的语义查询。知识图谱从互联网上公开信息构建,并支持如“高收益”这样的语义搜索。
    • 搜索相关主题的股票,及其新闻,公告,如“雄安题材”,“苹果主题”,“独角兽”等。
  • 金融新闻Bots
    • 实时监控各大金融新闻网站的数据,构建了一个监控平台。 根据用户输入的自然语言问题,自动推送与其相关的新闻,并标记其中和用户输入问题相关的段落。
    • Event-Driven Stock prediction, using sentiment analysis on the web-crawling tokens/documents with doc2vec.
    • 金融搜索

      显示当前关键词所有的新闻消息,公告,根据消息数量得出的热度。

  • 智能选股
    百科类筛选 ST股票, 非ST股票, 上证50股票
    数据类筛选 股价小于100块股票
    事件类筛选 刚复牌股票,今年刚上市的股票
    选股类筛选 每股收益在0.2-0.3之间,且市盈率小于30的股票;浙江省市盈率小于20倍的公司
  • 知识图谱分析

    关系可以是企业的上下游、合作、竞争对手、子母公司、投资、对标等关系,可以是高管与企业间的任职等关系,也可以是行业间的逻辑关系,实体则是投资机构、投资人、企业等等,把它们用知识图谱表示出来,从而进行更深入的知识推理。

    在某个宏观经济事件或者企业相关事件发生的时候,券商分析师、交易员、基金公司基金经理等投资研究人员可以通过此图谱做更深层次的分析和更好的投资决策,比如在美国限制向中兴通讯出口的消息发布之后,如果我们有中兴通讯的客户供应商、合作伙伴以及竞争对手的关系图谱,就能在中兴通讯停牌的情况下快速地筛选出受影响的国际国内上市公司从而挖掘投资机会或者进行投资组合风险控制。

    某公司打算借壳上市,通过知识图谱相关技术寻找相关联的公司,找到有可能的潜在借壳对象。

    knowledge_graph_company.jpg

    knowledge_graph_organization.png

  • Event-Driven Strategies
    • Goal:

      Detect event from announcement, predict stock price.

    • events:
      • Earnings Releases:

      Corporate earnings tend to move markets when they come in above or below the market’s expectations, which means that it’s important for active traders to understand the expected figures beforehand.

      • Mergers & Acquisitions:

      M&A tends to produce dramatic increases or decreases in share prices depending on the terms of the deal, while creating an opportunity for arbitrage strategies between the buyer and seller.

      • Spin-Offs:

      Spin-offs tend to see an initial decline in share price as institutional investors who received shares sell off their stake to comply with regulatory requirements or other rules, thereby creating opportunities for traders.

    • Tool:

      Named Entity Recognization, Entity Relation Extraction, Recurrent Neural Networks, CNN.

Overview Steps:

  • 数据爬虫 -> 数据清洗(干净数据) -> 语义分析, 命名实体识别(识别金融实体、实体提取及消歧、关系提取,分区语义网络) -> 文档树/表 -> 图谱(根据业务需要,定义并识别金融实体间的各种关系,进而生成知识图谱) -> 本体,本体存储 -> 语用分析 -> 分析推理,逻辑(定义并表达业务逻辑,通过在知识图谱上实现各种具体任务来体现数据价值,如推理等,实现数据到智能的升华。)

Data

Text Labeled with (semi) structured data
  • [X] wiki page titles and page text, wiki category
  • [ ] company filings text, filing classification, event time series data (attributes manually extracted)
  • [ ] finance conference scripts.
  • [ ] corporate telephone comference notes, memo.
  • [ ] company filings text, company industry classification
  • [ ] textbook or CFA chapter name, chapter exercise questions, multiple choice questions
  • [ ] SSRN paper keyword, category, title, abstract, data, model and conclusion
Text Unlabeled
  • [ ] analyst research reports, analyst research reports, report classification, analyst ranking
  • [ ] textbooks

TODO Knowledge Graph

知识图谱的架构

http://www.xml-data.org/dzkj-nature/html/201645589.htm logical structure: 1). data layer 2). scheme layer

从逻辑上可以划分为2个层次:数据层和模式层。

在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。图数据中有“实体-关系-实体”或者“实体-属性-属性值”两种三元组,所有数据构成庞大的实体关系网络。

模式层在数据层之上,是知识图谱的核心。模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层。 通过知识图谱相关技术从招股书、年报、公司公告、券商研究报告、新闻等半结构化表格和非结构化文本数据中批量自动抽取公司的股东、子公司、供应商、客户、合作伙伴、竞争对手等信息,构建出公司的知识图谱。

知识图谱构建过程

知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素,并将其存入知识库的数据层和模式层的过程。

这是一个迭代更新的过程,每一轮迭代包含3个阶段:信息抽取、知识融合以及知识加工

知识图谱有自顶向下和自底向上2种构建方法。

自顶向下是从百科类网站等高质量数据源中提取本体和模式信息,加入到知识库中。

自底向上是从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核后,加入到知识库中。

Key technique and application

关键技术 应用 方法 应用方案
数据获取 网络爬虫 xpath article search
    requests AI news crawler
      paper citation network(inspider web)
知识抽取 实体抽取(NER) IDCNNCRF  
  关系抽取 BGRU2ATT  
    Deepdive  
  事件抽取 Joint event extraction  
    强化+模版(深度卷积) event embedding 做股票预测
知识表示 单词相似度计算 Word2vec 近义词搜索
  句子语义相似度计算 Cosine distance  
    LDA  
    DSSM content recommendation based on interest
  关系预测(e1,?,e2) TransH flash card
    Gaussian Embedding  
知识融合 Knowledge base update Focused Crawler with Reinforcement Learning  
  entity linking Deeptype 在GS找到ground truth entity
知识推理 KBQA path ranking  
    Reasonet flash card
    Time-RNN alert
General sentiment analysis Bayes finance sentiment analysis
      stock sentiment classification