您的位置: 首頁 >互聯(lián)網(wǎng) >

從科學(xué)文本中提取關(guān)鍵信息的新系統(tǒng)

2020-06-10 15:05:21 編輯: 來源:
導(dǎo)讀 科學(xué)文章,如研究文章或評論,有時很難分析和理解,特別是對于非專業(yè)讀者。近年來,工程師們試圖開發(fā)一種方法,可以自動從密集的科學(xué)文本中提取最重要的信息,然后用來指導(dǎo)讀者并幫助他們理解文本。 然而,目前開發(fā)的一些信息提取(IE)系統(tǒng)只能提取文本內(nèi)容的一小部分,而另一些系統(tǒng)在包含長句子和復(fù)雜句子的文本上表現(xiàn)不佳。在最近預(yù)發(fā)表在arXiv上的一篇論文中,蘇格蘭Heriot-Watt大學(xué)的研究人員介紹了一

科學(xué)文章,如研究文章或評論,有時很難分析和理解,特別是對于非專業(yè)讀者。近年來,工程師們試圖開發(fā)一種方法,可以自動從密集的科學(xué)文本中提取最重要的信息,然后用來指導(dǎo)讀者并幫助他們理解文本。

然而,目前開發(fā)的一些信息提取(IE)系統(tǒng)只能提取文本內(nèi)容的一小部分,而另一些系統(tǒng)在包含長句子和復(fù)雜句子的文本上表現(xiàn)不佳。在最近預(yù)發(fā)表在arXiv上的一篇論文中,蘇格蘭Heriot-Watt大學(xué)的研究人員介紹了一種新的IE方法,該方法結(jié)合了從科學(xué)文本中提取信息的兩種最常用技術(shù)。

“我們在赫瑞瓦特大學(xué)的研究旨在支持自然激發(fā)的問題解決,”進行這項研究的研究人員之一魯本·克魯伯告訴TechXplore。他的想法是,工程師需要在生物學(xué)研究論文中找到相關(guān)信息。一個主要問題是,工程師和整個行業(yè)普遍缺乏生物學(xué)專業(yè)知識,甚至無法識別相關(guān)信息?!?/p>

試圖理解生物學(xué)論文并在研究中應(yīng)用這些論文中提出的概念的計算機科學(xué)家,往往很難理解生物學(xué)術(shù)語,并迅速決定一篇文章是否值得深入閱讀。這些問題也經(jīng)常被那些在他們所閱讀的科學(xué)領(lǐng)域缺乏專業(yè)知識的讀者所遇到。

Kruiper說:“有時候,即使是專家也會花上幾個小時來確定新出版文獻的中心主題和概念。”“在我們的工作中,我們試圖通過提供科學(xué)文本中所討論的中心概念的概述來支持所有讀者?!?/p>

通常,有兩種系統(tǒng)可以從科學(xué)文本中提取信息:狹窄的和開放的IE系統(tǒng)。第一種是通過精確地識別文本中包含的不同概念之間的一些關(guān)系,例如在藥理學(xué)研究中關(guān)注藥物-基因的相互作用。然而,要使這種類型的系統(tǒng)工作,研究人員需要指定它應(yīng)該尋找的關(guān)系的類型。

第二種IE系統(tǒng)實現(xiàn)了散點式方法,例如揭示由動詞連接的名詞和短語對。這種方法的一個局限性是,它讓研究人員很難控制他們所提取的事實。此外,通常包含在科學(xué)文本中的句子的復(fù)雜句法會影響系統(tǒng)的性能,導(dǎo)致提取錯誤、不完整或不相關(guān)的信息。

Kruiper說:“我們的方法結(jié)合了兩種類型系統(tǒng)的輸出,我們稱之為半開放關(guān)系提取?!薄拔覀兙_地提取我們想要的信息,然后用這些提取來過濾一個分散射擊系統(tǒng)的結(jié)果?!?/p>

由Kruiper和他的同事開發(fā)的系統(tǒng)在兩種最常用的IE技術(shù)的準(zhǔn)確性和靈活性之間找到了一種獨特的平衡。研究人員在一個包含10000個生物相關(guān)文本的語料庫上運行它,發(fā)現(xiàn)它取得了顯著的性能,成功地提取了其中包含的最關(guān)鍵的信息。

“我們證明了我們的半開放關(guān)系提取方法是值得的,”Kruiper說。過濾由scattershot系統(tǒng)提取的事實提高了整體質(zhì)量,同時大大減少了文檔中事實的壓倒性數(shù)量。我們開發(fā)的綜合方法可以合理準(zhǔn)確地確定這種中心關(guān)系,同時也確定密切相關(guān)的事實?!?/p>

這組研究人員引入的半開放關(guān)系提取系統(tǒng)可以自動提取出一篇科學(xué)文章中包含的要點,讓讀者快速判斷是否值得深入閱讀,并確定可能感興趣的部分。

IE系統(tǒng)的代碼在網(wǎng)上公開,可以在Kuiper的GitHub頁面上訪問。在未來,它可能會被證明對研究人員或工程師有用,他們正在尋找一個主題的科學(xué)信息,而不是他們的專業(yè)領(lǐng)域,或者需要快速瀏覽大量的研究文章。

到目前為止,研究人員僅僅探索了將狹窄和開放IE系統(tǒng)結(jié)合起來的可行性。在他們接下來的研究中,他們想要編纂一個可以用來訓(xùn)練IE技術(shù)的數(shù)據(jù)集,進一步從科學(xué)文本中突破IE的邊界。

Kruiper說:“改善和簡化整個系統(tǒng)還有很大的空間?!比欢壳暗脑O(shè)置已經(jīng)能夠收集更大更全面的數(shù)據(jù)集。準(zhǔn)備這樣一個數(shù)據(jù)集來訓(xùn)練新系統(tǒng),以及在仿生案例研究中使用當(dāng)前的設(shè)置,將為我們想要精確提取的信息類型提供有價值的見解?!?/p>

Kruiper和他的同事在Heriot-Watt大學(xué)的交互實驗室和受自然啟發(fā)的制造中心(NIMC)工作,該中心的主要任務(wù)是支持企業(yè)尋找更可持續(xù)的制造解決方案。因此,除了進行進一步的研究,他們目前正在尋求英國政府和公司的資助,以支持他們的工作和開發(fā)新技術(shù)。



免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ   備案號:

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。

郵箱:toplearningteam#gmail.com (請將#換成@)