達觀動態

達觀愿與業內同行分享 助力各企業在大數據浪潮來臨之際一起破浪前行

人工智能將如何顛覆現有的文字工作?

人工智能逐漸改變了很多職位的工作方式,

文字作為信息傳遞的主要載體,

那些和文字閱讀、處理、分發、生產相關的工作,

將如何被人工智能重塑?

本文為達觀數據創始人陳運文

在東方財經浦東頻道《創贏未來》中的演講,

一起來看文本智能處理的現在和未來。

1

陳運文

達觀數據CEO?

?

 

我在復旦大學計算機系讀完博士以后,在百度、盛大、騰訊分別從事過文本挖掘的技術管理工作。我們團隊也是由心懷著文字自動化處理夢想的小伙伴們構成的。

 

人類文明從誕生文字的那一刻起開始算,已經有五千年的歷史。人類文明史上最早的四種文字分別是兩河流域的楔形文字、埃及的圣書文、瑪雅文和中國的甲骨文。約在公元前2600年,這四種文字在全球的四個不同的地區,獨立產生出來。

2

人類最早誕生的一塊文字叫“庫辛石板”,它是在公元前2600年時,在幼發拉底河和底格里斯河兩河流域發現的最早的楔形文字泥板,它也是人類考古學里發現的最早的文字痕跡。里面記錄了一個叫庫辛的人在37個月的時間里,總共收到了2萬9千多個大麥。也就是說,人類文明史上最早的文字既不是歌頌王侯將相的詩歌,也不是描述勞動人民狩獵的場景,更不是詩歌或者是祭文,而是一個財務報告。這是因為人腦對文字和數字的記憶是非常弱的,時間久了會記不住具體的數字和文字細節。因此,人類發明了數字和文字,來幫助我們能夠來記憶這些重要的信息。

3

達觀的計算機系統也同樣是輔助我們來完成很多文字分析、記錄、處理的工作,它可以讓我們更加輕松地工作和生活。

?

文字處理的應用面非常廣,簡單來說可以分成兩大部分。第一部分是代替人來完成文字的閱讀工作,第二部分是代替人來完成文字的寫作工作。

?

讀和寫是我們每個人每天都在做的工作,它耗費了我們大量的時間。我們做了一個統計,不管你是公務員、財務人員、法務人員,還是傳媒公司的校對人員,其實每天都有大量的工作是審核材料。審核材料就需要閱讀這些材料并基于你對這個領域的理解去判斷材料有沒有問題。一個普通的白領每天有超過三分之一的時間是用在文字的讀和寫上的。

我們的計算機軟件自動化系統,可以讓這些文字工作由繁化簡。它能從頭到尾完成一個文檔的閱讀工作,從里面自動化抽取出關鍵要素,并且根據相應的法規、合規和審查內容,判斷出文字是否能夠通過相應的合規檢查。我們的系統已經在很多政府機構、大型央企、五百強企業、四大會計師事務所里面應用,大幅度地減輕了人工的負擔。

c

除了文字審核以外,大量文檔資料的比對、搜索、知識提取和知識網絡的構建也是非常重要的事情。我們做文字閱讀時,平均一秒鐘一個人的閱讀速度大概是20-30字,相當于一條微信的長度,效率是非常低的。但是計算機一秒鐘可以閱讀一萬字,它的速度是人的幾百倍,更何況我們提供的是幾千臺服務器的一整套集群,它的閱讀速度是非常驚人的,可以大幅度地縮短文字閱讀處理的時間。原來可能一個團隊三五個人用一周才能完成的工作,現在用我們的計算機系統只要十幾分鐘就可以完成,效率大幅提高。

在互聯網的文字信息處理方面,我們也有個性化推薦的系統。很多互聯網的客戶,他們有大量的文檔資料,比如對商品的用戶意見分析、商品信息搜索、信息推薦等,這些都可以用我們的計算機系統代替人來完成。同時,很多中國的大型企業、五百強客戶、四大會計師事務所等,他們的員工每天都要閱讀大量的合同、財務報表,去分析各種各樣的上市公司的公告,這些工作非常費時費力。一但用了我們的計算機軟件來做這些工作,不但效率提高了,而且出錯的概率更小。

d

達觀也獲得了很多機構的認可,獲得了吳文俊人工智能獎,這個是中國在人工智能學界的最高獎項,我們也是2018年唯一獲得吳文俊人工智能獎的上海創業企業。我們還獲得了來自中央軍委裝備部的軍事情報自動化處理比賽的季軍,獲得了來自最高人民法院的司法裁判文書的刑期預測競賽季軍。我們讓計算機能夠像法官一樣去閱讀案情描述和相關材料,根據相應的法律法規給出判罰意見的分析。在常見刑事案件的判罰方面,我們的準確率已經非常接近真實人類法官的判罰結果了。我們也獲得了很多豐厚的學術成果,發表了很多技術論文、專利,出版了兩本著作。

e
中國有句古話,叫“讀書破萬卷,下筆如有神”。我們讓軟件系統閱讀人類所積累下來的文檔資料,去分析里面字詞的語言模型和語法規律,從而讓計算機能夠具備不亞于人類的文字閱讀理解能力。截至目前,我們已經積累了超過兩百億字的文檔資料。

?

也期待在不久的將來,計算機能夠成為我們每個企業、每一個人身邊非常好的助手。們預測到2035年的時候,有超過一半的文字日常處理工作,都可以讓計算機代替人類來完成,期待這天能夠早日到來。