99热在线观看,91在线porny国产在线看,少妇放荡的呻吟干柴烈火视频

2021年8月16日，Nature Chemistry雜志發(fā)表了一篇南安普頓大學物理化學教授、AI3SD Network+首席研究員Jeremy Frey的專訪文章。在這篇文章中，Jeremy Frey談論了機器學習數(shù)據(jù)質量不確定性的危險以及人工智能與其他技術的協(xié)同作用。

以下是全文內容。

您是AI3SD Network+的主要研究者，能解釋一下什么是AI3SD Network+嗎？

這個Network的成功要歸功于我的合作研究者Mahesan Niranjan、我們非常有效的網(wǎng)絡協(xié)調人Samantha Kanza以及由John Overington教授主持的積極和支持性的咨詢委員會。在我們的第一個咨詢委員會上，有人指出，我們應該再加一個"AI"，然后我們就可以有AI4ScienceDiscovery的縮寫了。不幸的是，ai4science.org這個地址已經(jīng)被占用了，但我們確實計劃在未來使用ai4science.network。然而，我們一直在爭論第四個"AI"到底應該是什么。

Network想要實現(xiàn)的是什么？你們又選擇了哪些化學領域作為重點？

Jeremy Frey：EPSRC呼吁建立一個網(wǎng)絡，將前沿科學與前沿的人工智能計算結合起來。雖然有合理的資金，但肯定不足以覆蓋所有的科學，所以我們的申請集中在化學和材料的相關領域。我們的目標是將參與人工智能前沿的研究人員，包括傳統(tǒng)的知識工程方面和最近的機器學習方面的，與參與實驗和理論化學的研究人員結合起來。我們一直試圖保持對化學的廣泛關注。我們資助的許多項目都來自藥物發(fā)現(xiàn)或材料設計，并有化學家、計算機科學家和數(shù)學家參與。在我們的研討會主題中，我們確保對分子和材料特性有更廣泛的見解。

因為科學發(fā)現(xiàn)是這個Network的重點，我們不僅希望找出相關模式（就像在使用機器學習方法時經(jīng)常做的那樣），我們還質疑傳統(tǒng)的發(fā)現(xiàn)意味著什么，以及未來在人工智能的協(xié)助下它將意味著什么，因此我們讓科學哲學家Will McNeill成為聯(lián)盟的一員。

就個人而言，這個Network提供了一個絕佳的機會，讓我們能夠認識、欣賞并學習計算機科學和化學領域的同事們的經(jīng)驗和研究，包括來自國內和國際的學術界、工業(yè)界和政府的。

是什么讓這些科學領域適合使用人工智能和機器學習的方法？是否有任何你認為不適合這些方法的化學領域或方面？

Jeremy Frey：在我們所有的研討會、會談和討論中，出現(xiàn)的一個一致的主題是對數(shù)據(jù)的需求；很少有足夠的數(shù)據(jù)，而且現(xiàn)有的數(shù)據(jù)往往是質量不確定的（質量不確定的問題，比質量差的問題多）。因此，有可用數(shù)據(jù)的領域（例如高通量合成和表征）是機器學習的明確應用領域，甚至有可能支持深度學習方法。然而，在極少數(shù)情況下，將AI/ML應用中的深度學習類型，應用到使用計算機生成數(shù)據(jù)的工作中（即一個程序與自己的“游戲”），是有機會的。

在訓練和測試數(shù)據(jù)集上進行高水平的量子力學/量子化學（QM/QC）計算時，會出現(xiàn)可用計算機功率的問題。這種問題甚至限制了AI/ML在量子化學中的應用。在這種情況下，ML被用來提高低級量子力學計算的準確性。類似的考慮也適用于分子動力學模擬，其中ML技術被用來加速整合。

人工智能常常需要大量的數(shù)據(jù)，然而在測量化學實驗的結果（如反應產(chǎn)量或速率）時通常會有誤差，而且通常這些特性的測量精度有限。業(yè)界如何解決這個問題？你認為這主要是一個實驗問題還是軟件問題？

Jeremy Frey：正如我在回答前一個問題時所說，數(shù)據(jù)是至關重要的。目前的ML方法當然需要大量高質量的數(shù)據(jù)（當不確定性被理解后，ML方法會利用差的數(shù)據(jù)。使用ML方法過濾掉質量差的數(shù)據(jù)也是可能的，但那樣就限制了可用數(shù)據(jù)的廣度）。原則上，只要我們有合成和表征的高通量技術（不需要很多物質本身），許多化學特性都有足夠的數(shù)據(jù)。對于更多變量的數(shù)據(jù)來說，獲得高質量的數(shù)據(jù)要困難得多，如反應產(chǎn)率，它可能嚴重依賴于條件。所以有一個更大的實驗空間需要覆蓋。當涉及到生物反應時，就會有更大的可變性，因此也就有更大的難度。我們需要規(guī)?；墓ぷ?，并提高可靠性，因此硬件和軟件/數(shù)據(jù)問題都會存在。

看待這個問題的一個相關方式是，這與經(jīng)典的模式識別系統(tǒng)不同（例如用于自動駕駛汽車的計算機視覺，收集大量的數(shù)據(jù)是可行的和可取的）。科學發(fā)現(xiàn)作為一個問題領域，帶有在更經(jīng)典的物理模型中捕獲的廣泛的先驗知識。在不太龐大的數(shù)據(jù)體系中，面臨的挑戰(zhàn)是如何結合數(shù)據(jù)驅動的模型來利用這些知識。在我們的研討會上，我們已經(jīng)研究了許多這樣的方法論。

您認為人工智能的哪些方面最容易被廣大科學界誤解？又能做些什么來解決這個問題？

Jeremy Frey：人工智能究竟能實現(xiàn)什么？業(yè)界可能希望AI能對預測分子特性做些什么。然而，與業(yè)界許多人更廣泛的想象（預測復雜成分的特性，如用于藥物輸送、材料涂層、功能材料和生物相互作用的預測）相比，AI仍然是有限的。即使是那些認識到現(xiàn)有數(shù)據(jù)的局限性阻礙了ML的應用的人，也可能認為只要我們有大量的數(shù)據(jù)，那么天空就是極限?，F(xiàn)實是，化學的異質性和復雜性仍然超過了計算能力。需要將ML和計算化學和新的洞察力結合起來。

偏見的問題存在于AI/ML在化學的應用中。也許并不像其他一些領域那樣嚴重。由于訓練集的選擇沒有通過測試集進行，因而產(chǎn)生了意外偏差，這是眾所周知的，但很容易被遺忘。這與化學的多樣性密切相關，并促使人們對相似/不相似的化合物集開展了大量的工作。擴大一些視野，例如藥物設計中的應用也會陷入同樣的陷阱，即訓練集如何影響可能的結果，以及訓練集對全球業(yè)界的不同單位多大程度上合適。在極限的情況下，我們如何處理個性化的醫(yī)學，難道為我們每個人建立一個ML模型？

基于人工智能的技術可以是強大的方法，但有時該領域的成就是否被過度炒作？對于試圖評估獲益是否超出數(shù)據(jù)和結果支持范圍的非專業(yè)人士，您有什么建議嗎？或者有什么非專家應該注意的化學論文中的常見問題？

Jeremy Frey：一定要仔細研究化學問題。使用的是什么數(shù)據(jù)？分子或材料是什么樣子的？模型的輸出與輸入有什么不同？推薦的分子是否真的能解決問題？它們是潛在的藥物還是經(jīng)過測試的藥物？是建議的材料還是在設備中測試過的材料？是否提供了輸入數(shù)據(jù)和模型的解釋？這些都是無意中出現(xiàn)偏差的地方。

這個Network關注的關鍵問題是 "為什么該模型給出了這些預測？"，建議的藥物或材料是否照亮了化學的新思路或為化學服務？這些模型的可解釋性，對于理解AI/ML為化學帶來的改變是非常重要的。這些問題也有助于Network從哲學角度思考AI如何改變化學發(fā)現(xiàn)的本質。

對于方法、數(shù)據(jù)或定制軟件，您是否希望業(yè)界采用任何報告標準，以促進工作的重復使用和復制？

Jeremy Frey：數(shù)據(jù)的標準化還遠未完成或達成一致，但事情正在變得更好。在描述ML模型的標準方面，業(yè)界還有很長的路要走。我們確實有整體的FAIR原則，它同樣適用于數(shù)據(jù)和工作的所有方面。像Jupyter notebooks這樣的工具和能讀寫的編程非常適用于化學中的ML工作。總的來說，我支持使用盡可能多的開源和開放科學工具，但也要充分認識到優(yōu)質商業(yè)軟件的范圍越來越大。即使在使用商業(yè)代碼時，也必須能夠描述數(shù)據(jù)是如何被操作的，并確保數(shù)據(jù)模型可以使用開放格式進行交換。

這些想法與解釋ML模型的能力也是相輔相成的。Network的主旨在于科學發(fā)現(xiàn)。獲得一個問題的解決方案（例如，下一種藥物、下一種材料的制造、如何優(yōu)化設計）只是發(fā)現(xiàn)之旅的一部分。需要理解 "為什么"。為什么ML系統(tǒng)得出了這個答案？這是一個偏見的例子嗎？我們能說明和解釋這個結果嗎（即使是后見之明）？我們學到了什么？我們能從這些模型中提取新的理論和想法嗎？這顯然是發(fā)現(xiàn)的關鍵（ML成為實驗的一部分）。

我們可以進一步展望未來，詢問AI/ML方法是否不僅可以提供一個結果，提供一個理解 "為什么"的途徑，還可以開始幫助問 "什么"。增強的智能系統(tǒng)是否也能幫助提出假說？在復雜化學的某些領域，如功能材料和與生物學的相互作用，系統(tǒng)的復雜性使AI可以通過這種方式產(chǎn)生重大影響。

基于AI的技術與機器人技術和自動檢測分析有一些明顯的協(xié)同作用。你認為目前有哪些瓶頸限制了向更自主的綜合系統(tǒng)的發(fā)展？

Jeremy Frey：人工智能和機器人技術之間的協(xié)同作用是非常有趣的。這些想法可能在自主汽車/駕駛和機器人手術中最清楚。在化學領域，實驗室機器人有很大的潛力，我懷疑目前主要是在工業(yè)實驗室（由于成本原因），但隨著我們看到機器人在幾乎消費者級別上的采用，我們可以期待在實驗室看到更多的機器人。現(xiàn)在有許多黑暗的實驗室，實際上是完全自動化的，可供研究人員使用。當然，外包合成和測量已經(jīng)有很長一段時間了，對于用戶來說，也許該實驗室是由機器人還是由人操作并不重要，盡管成本和產(chǎn)量可能有所不同。

我認為許多化學過程的復雜性是對機器人作用的一種限制。研究人員在簡化過程和標準化合成方面已經(jīng)做了很多工作，例如利用流動技術，在這些領域，機器人技術的使用已經(jīng)很先進。也許在另一個極端，定制的物理化學實驗以一種不同的，但仍然非常重要的方式受益于自動化和計算機控制，這是已經(jīng)推動了多年的實驗。然而，人工智能技術的興起有可能徹底改變從原始實驗數(shù)據(jù)中提取信息（和知識）的方式，從而改變哪些實驗可能需要進行這個問題的本質。

有什么具體的技術是你希望看到的，可以擴大人工智能和機器學習方法的效用？

Jeremy Frey：我們需要了解如何基于比最近許多ML工作所需的更小的數(shù)據(jù)量來進行預測。我們可以把這稱為小型深度學習。這項研究超越了化學應用，當然在AI/ML遇到人類學習的地方非常重要。具體到化學，我們需要開發(fā)處理能量/結構“地形圖”的方法，也就是三維結構/構型，因為這在分子之間的相互作用中至關重要，無論是復雜的混合物、材料還是生物相互作用。

ML中經(jīng)常出現(xiàn)的問題是處理高維空間，數(shù)據(jù)相對稀疏，因此需要降維。雖然這是深度學習經(jīng)常遇到的問題，但考慮到化學數(shù)據(jù)的性質，在算法和數(shù)學基礎上的持續(xù)工作將對化學應用非常有用。對 "不確定性"的更好理解、量化和建模將是有用的。正如上面提到的對高質量數(shù)據(jù)的需求，當我們部署人工智能系統(tǒng)時，它的局限性當然是"垃圾進-垃圾出"問題。也就是說，一個經(jīng)過訓練的人工智能模型總是會產(chǎn)生一個輸出，即使是在它沒有被訓練過的環(huán)境中也是如此。適當?shù)亓炕淮_定性，并對這些預測的信心水平進行預測，這往往是至關重要的。建立在貝葉斯推理原則基礎上的方法有助于做到這一點，但將它們擴展到非常大和復雜的模型仍然具有挑戰(zhàn)性。

考慮到化學空間，我們確實需要對這個概念有更好的理解，當然最理想的是，我們仍然需要一張化學空間的地圖。我們可以期望這樣的地圖是什么樣子的，這可能是一個不同的討論主題，并導致對化學作為導航與發(fā)現(xiàn)的思考。一個靜態(tài)的化學地圖的概念永遠不會反映這個學科的多樣性和靈活性。分子或材料結構的概念隱含地涉及時間和能量，并取決于分子的環(huán)境或它的用途。物種之間的轉化也同樣重要，所以在很多方面，我們要尋找的不僅僅是一張地圖，甚至不是一張疊加了路徑的地圖，而是對化學時空的真實描述。我希望，通過可解釋的人工智能模型，我們可以開始建立化學時空的區(qū)域，并獲得真正的洞察力和實際應用。

任何有助于理解化學與生物學互動的技術都將支持對藥物、農(nóng)業(yè)化學品和環(huán)境可持續(xù)材料的更好預測。

量子計算機是新技術的一個例子，它將成為能夠對化學產(chǎn)生重大影響的技術，因為可用的量子比特的數(shù)量正在迅速增加。在我看來，它們將不僅僅被用來進行量子化學計算，還可以做一些事情，比如處理龐大的化學空間的有效搜索。但是，由于在傳統(tǒng)計算機的化學編程方面投入了大量的精力，量子計算機在解決化學問題方面的速度還需要一些時間。展望未來，Network正計劃舉辦一些關于量子計算機化學編程的研討會。

您希望看到數(shù)字基礎設施的哪些改進，以幫助和支持化學界更廣泛地使用人工智能和機器學習技術？

Jeremy Frey：我們當然需要一個更先進的全球基礎設施。鼓勵帶有盡可能多的元數(shù)據(jù)（語義信息）的存儲庫。理想情況下，元數(shù)據(jù)應該是機器和人類可讀的，有背景故事，以使業(yè)界能夠最好地利用我們擁有的數(shù)據(jù)。我們有這個故事的元素，但它們遠遠不夠完整或易于使用。

基于云的系統(tǒng)正在使定制的硬件可用，以滿足ML和QC的對比需求，甚至量子計算機也可以通過這種方式獲得。我們需要開始培訓化學家來使用這些系統(tǒng)。本科化學課程的重新設計正在進行中，但高素質化學家的再培訓機會也將非常重要。同樣重要的是把化學的新能力帶給年輕的觀眾，親身體驗化學和人工智能的推廣是必須的。

文章來源：智藥邦