2021年8月16日,Nature Chemistry雜志發(fā)表了一篇南安普頓大學物理化學教授、AI3SD Network+首席研究員Jeremy Frey的專訪文章。在這篇文章中,Jeremy Frey談論了機器學習數(shù)據(jù)質量不確定性的危險以及人工智能與其他技術的協(xié)同作用。
以下是全文內容。
您是AI3SD Network+的主要研究者,能解釋一下什么是AI3SD Network+嗎?
這個Network的成功要歸功于我的合作研究者Mahesan Niranjan、我們非常有效的網(wǎng)絡協(xié)調人Samantha Kanza以及由John Overington教授主持的積極和支持性的咨詢委員會。在我們的第一個咨詢委員會上,有人指出,我們應該再加一個"AI",然后我們就可以有AI4ScienceDiscovery的縮寫了。不幸的是,ai4science.org這個地址已經(jīng)被占用了,但我們確實計劃在未來使用ai4science.network。然而,我們一直在爭論第四個"AI"到底應該是什么。
Network想要實現(xiàn)的是什么?你們又選擇了哪些化學領域作為重點?
Jeremy Frey:EPSRC呼吁建立一個網(wǎng)絡,將前沿科學與前沿的人工智能計算結合起來。雖然有合理的資金,但肯定不足以覆蓋所有的科學,所以我們的申請集中在化學和材料的相關領域。我們的目標是將參與人工智能前沿的研究人員,包括傳統(tǒng)的知識工程方面和最近的機器學習方面的,與參與實驗和理論化學的研究人員結合起來。我們一直試圖保持對化學的廣泛關注。我們資助的許多項目都來自藥物發(fā)現(xiàn)或材料設計,并有化學家、計算機科學家和數(shù)學家參與。在我們的研討會主題中,我們確保對分子和材料特性有更廣泛的見解。
因為科學發(fā)現(xiàn)是這個Network的重點,我們不僅希望找出相關模式(就像在使用機器學習方法時經(jīng)常做的那樣),我們還質疑傳統(tǒng)的發(fā)現(xiàn)意味著什么,以及未來在人工智能的協(xié)助下它將意味著什么,因此我們讓科學哲學家Will McNeill成為聯(lián)盟的一員。
就個人而言,這個Network提供了一個絕佳的機會,讓我們能夠認識、欣賞并學習計算機科學和化學領域的同事們的經(jīng)驗和研究,包括來自國內和國際的學術界、工業(yè)界和政府的。
是什么讓這些科學領域適合使用人工智能和機器學習的方法?是否有任何你認為不適合這些方法的化學領域或方面?
Jeremy Frey:在我們所有的研討會、會談和討論中,出現(xiàn)的一個一致的主題是對數(shù)據(jù)的需求;很少有足夠的數(shù)據(jù),而且現(xiàn)有的數(shù)據(jù)往往是質量不確定的(質量不確定的問題,比質量差的問題多)。因此,有可用數(shù)據(jù)的領域(例如高通量合成和表征)是機器學習的明確應用領域,甚至有可能支持深度學習方法。然而,在極少數(shù)情況下,將AI/ML應用中的深度學習類型,應用到使用計算機生成數(shù)據(jù)的工作中(即一個程序與自己的“游戲”),是有機會的。
在訓練和測試數(shù)據(jù)集上進行高水平的量子力學/量子化學(QM/QC)計算時,會出現(xiàn)可用計算機功率的問題。這種問題甚至限制了AI/ML在量子化學中的應用。在這種情況下,ML被用來提高低級量子力學計算的準確性。類似的考慮也適用于分子動力學模擬,其中ML技術被用來加速整合。
人工智能常常需要大量的數(shù)據(jù),然而在測量化學實驗的結果(如反應產(chǎn)量或速率)時通常會有誤差,而且通常這些特性的測量精度有限。業(yè)界如何解決這個問題?你認為這主要是一個實驗問題還是軟件問題?
Jeremy Frey:正如我在回答前一個問題時所說,數(shù)據(jù)是至關重要的。目前的ML方法當然需要大量高質量的數(shù)據(jù)(當不確定性被理解后,ML方法會利用差的數(shù)據(jù)。使用ML方法過濾掉質量差的數(shù)據(jù)也是可能的,但那樣就限制了可用數(shù)據(jù)的廣度)。原則上,只要我們有合成和表征的高通量技術(不需要很多物質本身),許多化學特性都有足夠的數(shù)據(jù)。對于更多變量的數(shù)據(jù)來說,獲得高質量的數(shù)據(jù)要困難得多,如反應產(chǎn)率,它可能嚴重依賴于條件。所以有一個更大的實驗空間需要覆蓋。當涉及到生物反應時,就會有更大的可變性,因此也就有更大的難度。我們需要規(guī)?;墓ぷ?,并提高可靠性,因此硬件和軟件/數(shù)據(jù)問題都會存在。
看待這個問題的一個相關方式是,這與經(jīng)典的模式識別系統(tǒng)不同(例如用于自動駕駛汽車的計算機視覺,收集大量的數(shù)據(jù)是可行的和可取的)。科學發(fā)現(xiàn)作為一個問題領域,帶有在更經(jīng)典的物理模型中捕獲的廣泛的先驗知識。在不太龐大的數(shù)據(jù)體系中,面臨的挑戰(zhàn)是如何結合數(shù)據(jù)驅動的模型來利用這些知識。在我們的研討會上,我們已經(jīng)研究了許多這樣的方法論。
您認為人工智能的哪些方面最容易被廣大科學界誤解?又能做些什么來解決這個問題?
Jeremy Frey:人工智能究竟能實現(xiàn)什么?業(yè)界可能希望AI能對預測分子特性做些什么。然而,與業(yè)界許多人更廣泛的想象(預測復雜成分的特性,如用于藥物輸送、材料涂層、功能材料和生物相互作用的預測)相比,AI仍然是有限的。即使是那些認識到現(xiàn)有數(shù)據(jù)的局限性阻礙了ML的應用的人,也可能認為只要我們有大量的數(shù)據(jù),那么天空就是極限?,F(xiàn)實是,化學的異質性和復雜性仍然超過了計算能力。需要將ML和計算化學和新的洞察力結合起來。
偏見的問題存在于AI/ML在化學的應用中。也許并不像其他一些領域那樣嚴重。由于訓練集的選擇沒有通過測試集進行,因而產(chǎn)生了意外偏差,這是眾所周知的,但很容易被遺忘。這與化學的多樣性密切相關,并促使人們對相似/不相似的化合物集開展了大量的工作。擴大一些視野,例如藥物設計中的應用也會陷入同樣的陷阱,即訓練集如何影響可能的結果,以及訓練集對全球業(yè)界的不同單位多大程度上合適。在極限的情況下,我們如何處理個性化的醫(yī)學,難道為我們每個人建立一個ML模型?
基于人工智能的技術可以是強大的方法,但有時該領域的成就是否被過度炒作?對于試圖評估獲益是否超出數(shù)據(jù)和結果支持范圍的非專業(yè)人士,您有什么建議嗎?或者有什么非專家應該注意的化學論文中的常見問題?
Jeremy Frey:一定要仔細研究化學問題。使用的是什么數(shù)據(jù)?分子或材料是什么樣子的?模型的輸出與輸入有什么不同?推薦的分子是否真的能解決問題?它們是潛在的藥物還是經(jīng)過測試的藥物?是建議的材料還是在設備中測試過的材料?是否提供了輸入數(shù)據(jù)和模型的解釋?這些都是無意中出現(xiàn)偏差的地方。
這個Network關注的關鍵問題是 "為什么該模型給出了這些預測?",建議的藥物或材料是否照亮了化學的新思路或為化學服務?這些模型的可解釋性,對于理解AI/ML為化學帶來的改變是非常重要的。這些問題也有助于Network從哲學角度思考AI如何改變化學發(fā)現(xiàn)的本質。
對于方法、數(shù)據(jù)或定制軟件,您是否希望業(yè)界采用任何報告標準,以促進工作的重復使用和復制?
Jeremy Frey:數(shù)據(jù)的標準化還遠未完成或達成一致,但事情正在變得更好。在描述ML模型的標準方面,業(yè)界還有很長的路要走。我們確實有整體的FAIR原則,它同樣適用于數(shù)據(jù)和工作的所有方面。像Jupyter notebooks這樣的工具和能讀寫的編程非常適用于化學中的ML工作。總的來說,我支持使用盡可能多的開源和開放科學工具,但也要充分認識到優(yōu)質商業(yè)軟件的范圍越來越大。即使在使用商業(yè)代碼時,也必須能夠描述數(shù)據(jù)是如何被操作的,并確保數(shù)據(jù)模型可以使用開放格式進行交換。
這些想法與解釋ML模型的能力也是相輔相成的。Network的主旨在于科學發(fā)現(xiàn)。獲得一個問題的解決方案(例如,下一種藥物、下一種材料的制造、如何優(yōu)化設計)只是發(fā)現(xiàn)之旅的一部分。需要理解 "為什么"。為什么ML系統(tǒng)得出了這個答案?這是一個偏見的例子嗎?我們能說明和解釋這個結果嗎(即使是后見之明)?我們學到了什么?我們能從這些模型中提取新的理論和想法嗎?這顯然是發(fā)現(xiàn)的關鍵(ML成為實驗的一部分)。
我們可以進一步展望未來,詢問AI/ML方法是否不僅可以提供一個結果,提供一個理解 "為什么"的途徑,還可以開始幫助問 "什么"。增強的智能系統(tǒng)是否也能幫助提出假說?在復雜化學的某些領域,如功能材料和與生物學的相互作用,系統(tǒng)的復雜性使AI可以通過這種方式產(chǎn)生重大影響。
基于AI的技術與機器人技術和自動檢測分析有一些明顯的協(xié)同作用。你認為目前有哪些瓶頸限制了向更自主的綜合系統(tǒng)的發(fā)展?
Jeremy Frey:人工智能和機器人技術之間的協(xié)同作用是非常有趣的。這些想法可能在自主汽車/駕駛和機器人手術中最清楚。在化學領域,實驗室機器人有很大的潛力,我懷疑目前主要是在工業(yè)實驗室(由于成本原因),但隨著我們看到機器人在幾乎消費者級別上的采用,我們可以期待在實驗室看到更多的機器人。現(xiàn)在有許多黑暗的實驗室,實際上是完全自動化的,可供研究人員使用。當然,外包合成和測量已經(jīng)有很長一段時間了,對于用戶來說,也許該實驗室是由機器人還是由人操作并不重要,盡管成本和產(chǎn)量可能有所不同。
我認為許多化學過程的復雜性是對機器人作用的一種限制。研究人員在簡化過程和標準化合成方面已經(jīng)做了很多工作,例如利用流動技術,在這些領域,機器人技術的使用已經(jīng)很先進。也許在另一個極端,定制的物理化學實驗以一種不同的,但仍然非常重要的方式受益于自動化和計算機控制,這是已經(jīng)推動了多年的實驗。然而,人工智能技術的興起有可能徹底改變從原始實驗數(shù)據(jù)中提取信息(和知識)的方式,從而改變哪些實驗可能需要進行這個問題的本質。
有什么具體的技術是你希望看到的,可以擴大人工智能和機器學習方法的效用?
Jeremy Frey:我們需要了解如何基于比最近許多ML工作所需的更小的數(shù)據(jù)量來進行預測。我們可以把這稱為小型深度學習。這項研究超越了化學應用,當然在AI/ML遇到人類學習的地方非常重要。具體到化學,我們需要開發(fā)處理能量/結構“地形圖”的方法,也就是三維結構/構型,因為這在分子之間的相互作用中至關重要,無論是復雜的混合物、材料還是生物相互作用。
ML中經(jīng)常出現(xiàn)的問題是處理高維空間,數(shù)據(jù)相對稀疏,因此需要降維。雖然這是深度學習經(jīng)常遇到的問題,但考慮到化學數(shù)據(jù)的性質,在算法和數(shù)學基礎上的持續(xù)工作將對化學應用非常有用。對 "不確定性"的更好理解、量化和建模將是有用的。正如上面提到的對高質量數(shù)據(jù)的需求,當我們部署人工智能系統(tǒng)時,它的局限性當然是"垃圾進-垃圾出"問題。也就是說,一個經(jīng)過訓練的人工智能模型總是會產(chǎn)生一個輸出,即使是在它沒有被訓練過的環(huán)境中也是如此。適當?shù)亓炕淮_定性,并對這些預測的信心水平進行預測,這往往是至關重要的。建立在貝葉斯推理原則基礎上的方法有助于做到這一點,但將它們擴展到非常大和復雜的模型仍然具有挑戰(zhàn)性。
考慮到化學空間,我們確實需要對這個概念有更好的理解,當然最理想的是,我們仍然需要一張化學空間的地圖。我們可以期望這樣的地圖是什么樣子的,這可能是一個不同的討論主題,并導致對化學作為導航與發(fā)現(xiàn)的思考。一個靜態(tài)的化學地圖的概念永遠不會反映這個學科的多樣性和靈活性。分子或材料結構的概念隱含地涉及時間和能量,并取決于分子的環(huán)境或它的用途。物種之間的轉化也同樣重要,所以在很多方面,我們要尋找的不僅僅是一張地圖,甚至不是一張疊加了路徑的地圖,而是對化學時空的真實描述。我希望,通過可解釋的人工智能模型,我們可以開始建立化學時空的區(qū)域,并獲得真正的洞察力和實際應用。
任何有助于理解化學與生物學互動的技術都將支持對藥物、農(nóng)業(yè)化學品和環(huán)境可持續(xù)材料的更好預測。
量子計算機是新技術的一個例子,它將成為能夠對化學產(chǎn)生重大影響的技術,因為可用的量子比特的數(shù)量正在迅速增加。在我看來,它們將不僅僅被用來進行量子化學計算,還可以做一些事情,比如處理龐大的化學空間的有效搜索。但是,由于在傳統(tǒng)計算機的化學編程方面投入了大量的精力,量子計算機在解決化學問題方面的速度還需要一些時間。展望未來,Network正計劃舉辦一些關于量子計算機化學編程的研討會。
您希望看到數(shù)字基礎設施的哪些改進,以幫助和支持化學界更廣泛地使用人工智能和機器學習技術?
Jeremy Frey:我們當然需要一個更先進的全球基礎設施。鼓勵帶有盡可能多的元數(shù)據(jù)(語義信息)的存儲庫。理想情況下,元數(shù)據(jù)應該是機器和人類可讀的,有背景故事,以使業(yè)界能夠最好地利用我們擁有的數(shù)據(jù)。我們有這個故事的元素,但它們遠遠不夠完整或易于使用。
基于云的系統(tǒng)正在使定制的硬件可用,以滿足ML和QC的對比需求,甚至量子計算機也可以通過這種方式獲得。我們需要開始培訓化學家來使用這些系統(tǒng)。本科化學課程的重新設計正在進行中,但高素質化學家的再培訓機會也將非常重要。同樣重要的是把化學的新能力帶給年輕的觀眾,親身體驗化學和人工智能的推廣是必須的。
文章來源:智藥邦