經(jīng)濟(jì)日?qǐng)?bào)-中國(guó)經(jīng)濟(jì)網(wǎng)北京11月16日訊(記者牛瑾)近期,庖丁科技中標(biāo)證券期貨業(yè)金融科技研究發(fā)展中心(深圳)(以下簡(jiǎn)稱“深交所”)——“證券文本信息抽取技術(shù)研究”項(xiàng)目,為資本市場(chǎng)前線監(jiān)管助力。
在資本市場(chǎng)上,信息披露義務(wù)人“應(yīng)當(dāng)真實(shí)、準(zhǔn)確、完整、及時(shí)地披露信息”。我國(guó)上市公司信息披露的內(nèi)容大體包括證券發(fā)行文件、定期報(bào)告和臨時(shí)報(bào)告三類,須在指定信息披露網(wǎng)站發(fā)布。以深市上市公司為例,2016年全年共披露265985篇公告,2017年共披露291607篇。隨著上市公司數(shù)量日益增多,這一數(shù)字還會(huì)逐年增加,不但為深交所的合規(guī)檢查帶來(lái)壓力,也給投資者帶來(lái)極大的信息負(fù)載。如何將海量公告更有效、更高效地讓閱讀人“讀薄”?其中,通過(guò)自然語(yǔ)言處理、深度學(xué)習(xí)等技術(shù)將公告信息結(jié)構(gòu)化提取成為關(guān)鍵所在。
正因?yàn)槿绱,庖丁科技持續(xù)而堅(jiān)定地推進(jìn)該項(xiàng)工作,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)公告中的段落表格等信息進(jìn)行分割抽取。為了適應(yīng)樣本數(shù)量稀少的問(wèn)題,還提出了一種輕量級(jí)的機(jī)器學(xué)習(xí)方法,能夠高效地將不同類別公告的關(guān)鍵語(yǔ)句抽取出來(lái),并使之具有在線學(xué)習(xí)的能力;抽取過(guò)程僅需公告制作業(yè)務(wù)專家對(duì)少量公告進(jìn)行標(biāo)注,即可達(dá)到可用效果。關(guān)鍵語(yǔ)句抽取后,再通過(guò)LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行細(xì)粒度提取,將公告結(jié)構(gòu)化。目前,庖丁科技對(duì)并購(gòu)重組公告的結(jié)構(gòu)化抽取工作已取得較為理想的結(jié)果,提升了深交所監(jiān)管工作效率。這項(xiàng)工作的探索不僅為擴(kuò)展更多公告類型奠定基礎(chǔ),也為其他類型文本處理帶來(lái)寶貴經(jīng)驗(yàn)。
利用非結(jié)構(gòu)化信息抽取技術(shù),能夠深度挖掘隱藏在海量公開公告中的企業(yè)與企業(yè)、企業(yè)與個(gè)人關(guān)系,透視、洞察企業(yè)的價(jià)值及風(fēng)險(xiǎn)。為此,作為一家以人工智能技術(shù)為核心的金融科技行業(yè)企業(yè),庖丁科技一直致力于為金融行業(yè)提供技術(shù)支撐,助力金融機(jī)構(gòu)進(jìn)一步提升服務(wù)實(shí)體經(jīng)濟(jì)的能力。
(責(zé)任編輯:張雪)