❶ 月桂醇磷酸酯MAE,和烷基醇醯胺磷酸鹽6503,在洗滌上有什麼區別
磷酸或正磷酸,化學式H3PO4,分子量為98,是一種常見的無機酸,是中強酸。由五氧化二磷溶於熱水中即可得到。正磷酸工業上用硫酸處理磷灰石即得。磷酸在空氣中容易潮解。加熱會失水得到焦磷酸,再進一步失水得到偏磷酸。磷酸主要用於制葯、食品、肥料等工業,包括作為防銹劑,食品添加劑,牙科和矯形外科,EDIC腐蝕劑,電解質,助焊劑,分散劑,工業腐蝕劑,肥料的原料和組件家居清潔產品。也可用作化學試劑,磷酸鹽是所有生命形式的營養。
正磷酸是由一個單一的磷氧四面體構成的磷酸。在磷酸分子中P原子是sp3雜化的,3個雜化軌道與氧原子間形成3個σ鍵,另一個磷氧叄鍵是由一個從磷到氧的σ配鍵和兩個由氧到磷的d-pπ鍵組成的。σ配鍵是磷原子上的一對孤對電子向氧原子的空軌道配位而形成。d←p配鍵是氧原子的py、pz軌道上的兩對孤對電子和磷原子的dxz、dyz空軌道重疊而成。由於磷原子3d能級比氧原子的2p能級能量高很多,組成的分子軌道不是很有效的,所以磷氧叄鍵從數目上來看是叄鍵,但從鍵能和鍵長來看是介於單鍵和雙鍵之間。純磷酸和它的晶體水合物中都有氫鍵存在,這可能是磷酸濃溶液之所以粘稠的原因。
市售磷酸是含85%磷酸的粘稠狀濃溶液。從濃溶液中結晶,則形成半水合物即一水合二磷酸(熔點302.3K)。
磷酸屬於中強酸,其結晶點(冰點)為21℃,當低於此溫度時會析出半水物結(冰)晶。當然,通常磷酸在10℃以上甚至更低溫度下也不結(冰)晶,這是由於磷酸具有過冷的特性,也就是實際上市售的磷酸在低於21℃時會偏離其結(冰)晶點,不會立即結(冰)晶的現象存在。但這樣的低溫只要維持一段時間,在靜止的狀態下,磷酸很容易產生結(冰)晶。
磷酸結晶就像其他液體結晶一樣屬於物理變化而非化學變化。其化學性質不會因結晶而改變,也即磷酸的質量是不會因結晶而受影響的,只要給予溫度熔化或加熱水稀釋溶化,仍可以正常使用。
結晶特性:磷酸濃度高、純度高,結晶性高。根據經驗,當氣溫在4攝氏度上下,濃度大於85%時,其結晶性增大,若不慎混入結(冰)晶磷酸,會造成原本沒有結(冰)晶的磷酸立即感染而結(冰)晶,而且磷酸結(冰)晶異常迅速,直致磷酸儲存容器大部結(冰)晶。磷酸結(冰)晶後,上部磷酸邊稀,下部沉積針狀結(冰)晶體純磷酸。根據經驗,75%磷酸在較低(4℃附近)的溫度下也較難結(冰)晶,因此在較低的氣溫條件下,建議使用75%磷酸比較妥當。
磷酸結(冰)晶好比水結冰,是其本身的物理性能,固有屬性,不能改變,只有妥善保存處理才能防止結(冰)晶。
磷酸是三元中強酸,分三步電離,不易揮發,不易分解,有一定氧化性,但酸性和氧化性都不如硝酸強。具有酸的通性。
濃磷酸可以和氯化鈉共熱生成氯化氫氣體。
NaCl + H3PO4(濃) ==△== NaH2PO4 + HCl↑
希望我能幫助你解疑釋惑。
❷ maet是什麼意思你還能舉出幾個嗎
maet
[英]['mi:t][美]['mi:t]
[醫]市場,行情,銷售;
市場; 行情; 銷售;
.
-----------------------------------
為你解答,如有幫助請採納,
如對本題有疑問可追問,Good luck!
❸ mae的英文是什麼
mae 英[mæ] 美[meɪ]
adj. <蘇格蘭>更多的;
n. 更多;
adv. 更; 更多; 更加; 超過;
[例句]That was to deal with Fannie Mae and Freddie Mac.
那是為了處理房利美和房地美的問題。
❹ MAE是什麼意思
MAE ( Metropolitan Area Exchange ) 城域交換。
在城市區域內 Internet 訪問供應商的交互連接點。在城市區域交換的參與者之間,數據可以直接從一個網路傳送到另一個網路,而不需要通過主幹網。
MAE
MAE成立於2009年初,是一個基於網路運作的國際非政府組織。宗旨是推動中文社會進步。
MAE的活動主要集中在網路出版、教育與企業社會責任等領域。旗下的M&I Media准備於荷蘭注冊並經營網路出版公司。 M&I Media將主要發行已出版中文書籍的多國語言電子版本,包括政治,歷史,學術研究,人物傳記等范圍的書籍。同時M&I Media也會出版華人范圍內有深度的攝影、純美術與設計方面的電子圖書,並發行部分獨立廠牌的網路唱片。
❺ mae法的名詞解釋是什麼
微波輔助萃取(Microwave-assisted Extraction,MAE)又稱微波萃取,是微波和傳統的溶劑萃取法相結合後形成的一種新的萃取方法。它的原理是在微波場中,吸收微波能力的差異使得基體物質的某些區域或萃取體系中的某些組分被選擇性加熱,從而使得被萃取物質從基體或體系中分離,進入到介電常數較小、微波吸收能力相對差的萃取劑中
❻ 美國的大學的MAE、AE、NEEP、ASTE是什麼專業
1) MAE = 航天工程碩士
2) A E= 車輛工程
3) NEEP = 其實就是一個獎項的公立單位(機構)PS:就是申請國家將差不多的這樣的機構
4) AST E = 美國工具工程師
❼ 什麼是SAD,SAE,SATD,SSD,SSE,MAD,MAE,MSD,MSE
SAD(Sum of Absolute Difference)=SAE(Sum of Absolute Error)即絕對誤差和 SATD(Sum of Absolute Transformed Difference)即hadamard變換後再絕對值求和 SSD(Sum of Squared Difference)=SSE(Sum of Squared Error)即差值的平方和 MAD(Mean Absolute Difference)=MAE(Mean Absolute Error)即平均絕對差值 MSD(Mean Squared Difference)=MSE(Mean Squared Error)即平均平方誤差
❽ mae是什麼職位
技術支持工程師
❾ 深度學習給生物學帶來了哪些改變
深度學習研究及其在生物醫葯領域的潛在應用
深度學習已經在各種生物學應用中取得成功。在本節中,我們回顧了在各個研究領域進行深度學習的挑戰和機會,並在可能的情況下回顧將深度學習應用於這些問題的研究(表1)。我們首先回顧了生物標志物開發的重要領域,包括基因組學,轉錄組學,蛋白質組學,結構生物學和化學。然後,我們回顧一下葯物發現和再利用的前景,包括使用多平台數據。
生物標志物。生物醫學的一個重要任務是將生物學數據轉化為反映表型和物理狀態(如疾病)的有效生物標志物。生物標志物對於評估臨床試驗結果[18]以及檢測和監測疾病,特別是像癌症這樣的異質性疾病,是至關重要的[19,20]。識別敏感特異性生物標志物對於現代轉化醫學來說是一個巨大的挑戰[21,22]。計算生物學是生物標志物發展。事實上,從基因組學到蛋白質組學都可以使用任何數據來源;這些在下一節中討論。
基因組學。新一代測序(NGS)技術已經允許生產大量的基因組數據。這些數據的大部分分析都可以用現代計算方法在計算機上進行。這包括基因組的結構注釋(包括非編碼調控序列,蛋白質結合位點預測和剪接位點)。
基因組學的一個重要分支是宏基因組學,也被稱為環境,生態基因組學或社區基因組學。NGS技術揭示了未經培育且以前沒有得到充分研究的微生物的自然多樣性。
宏基因組學中有幾個生物信息學挑戰。一個主要挑戰是序列數據的功能分析和物種多樣性的分析。深信念網路和經常性神經網路的使用已經允許通過表型分類宏基因組學pH數據和人類微生物組數據。 與基線方法相比,這些方法並沒有提高分類准確性作為強化學習,但確實提供了學習數據集的分層表示的能力.[23]但是,Ditzler等強調DNN可以改善現有的宏基因組學分類演算法,特別是在大數據集和適當選擇網路參數的情況下。
表1. 深度學習技術應用於不同類型生物醫學數據的總結
應用
數據源
研究目的
DL技術
准確率
利用深度學習增強癌症診斷和分類[28]
13種不同的癌症基因表達數據集(13 different gene expression data sets of cancers)
癌症檢測,癌症類型分類
稀疏和堆棧自動編碼器+ Softmax回歸
對於每個數據集的准確度都比基準更好
深度學習組織調節拼接代碼[32](Deep Learning of the Tissue-Regulated Splicing Code)
從RNA-Seq數據分析11 019個小鼠替代外顯子(11 019 mouse alternative exons profiled from RNA-Seq data)
拼接模式識別
自動編碼器+ DNN(3層)+薄荷(超參數選擇)
AUC優於基線准確度
深卷積神經網路注釋基因表達模式的小鼠腦[30]
由Allen Institute for Brain Science的小鼠腦的四個發育階段的ISH圖像
基因表達注釋
CNN(Overfeat)
AUC=0.894
多模式深度學習方法的多平台癌症數據的綜合數據分析[52]
卵巢癌和乳腺癌數據集(ovarian and breast cancer data sets)
聚集癌症患者
DBNs
lncRNA-MFDL:通過融合多個特徵和使用深度學習鑒定人類長的非編碼RNA[34]
Gencode和RefSeq的蛋白質編碼和非編碼序列(protein-coding and noncoding sequences from Gencode and RefSeq)
鑒定長的非編碼RNA
lncRNA-MFDL(深層堆疊網路,每個單元DNN)
ACC = 97.1%
用於宏基因組分類的多層和遞歸神經網路[23]
pH微生物組測序數據集和人微生物組測序數據集(pH microbiome sequencing data set and human microbiome sequencing data set)
宏基因組分類
MLP, DBN, RNN
comparison
Multi-Level Gene/MiRNA Feature Selection using Deep Belief Nets and Active Learning[27]
來自6種癌症的MiRNA表達數據(MiRNA expression data from 6 type of cancers)
Gene/MiRNA特徵選擇(基因表達)
MLFS(DBN +特徵選擇+無監督主動學習)(MLFS (DBN + feature selection + unsupervised active learning))
F1 = 84.7%
成對輸入神經網路用於目標配體相互作用預測[45]
sc-PDB資料庫(sc-pdb:用於鑒定蛋白質中「可葯用」結合位點的變化和多樣性的資料庫)
蛋白質 - 配體預測
PINN (SVD + Autoencoder/RBM)
AUC = 0.959
非編碼變數與深度學習序列模型的預測效應[49]
來自ENCODE和Roadmap Epigenomics項目的160種不同TF,125種DHS譜和104種組蛋白標記譜的690 TF結合譜
從序列中預測非編碼變異效應
DeepSEA (CNN)
AUC = 0.923 (histone)
通過深度學習預測DNA和RNA結合蛋白的序列特異性[48]
506 ChIP-seq實驗,DREAM5 TF-DNA基序識別挑戰
DNA和RNA結合蛋白的特異性分類
DeepBind(CNN)
train, AUC = 0.85; validation,
AUC > 0.7
具有雙模深信道網路的蜂窩信號系統的跨物種學習[36]
來自SBV IMPROVER挑戰的磷酸化蛋白質組學數據
跨物種學習(模擬細胞信號系統)
bDBN (bimodal DBN) and
sbDBN (semirestricted bimodal
DBN)
AUC = 0.93
表達數量性狀基因(eQTL)的鑒定與闡明及其調控機制的深入研究[35]
GEUVADIS(來自從參與1000基因組項目的個體中提取的337個淋巴母細胞系的選擇的RNA-Seq和全基因組范圍的SNP-陣列數據的組合)
確定eQTL
MASSQTL(DNN)
AUC = 0.85
建立RNA結合蛋白靶點結構特徵的深度學習框架[43]
源自doRiNA的24個數據集(轉錄後調節中的RNA相互作用資料庫)
預測RNA結合蛋白的結合位點(RBP靶標識別)
DBN(多模式DBN)
AUC = 0.983 on PTB HITS-CL
DeepCNF-D:通過加權深度卷積神經場預測蛋白質有序/無序區域[42]
來自CASP的CASP9, CASP10數據集(蛋白質結構預測的關鍵評估)
預測蛋白質有序/無序區域
DeepCNF (CRF + CNN)
AUC = 0.855 on CASP9
AUC = 0.898 on CASP10
用深度神經網路分割微陣列[29]
兩個數據集,來自2006年Lehmussola等人的微陣列圖像
微陣列分割
CNN
MAE = 0.25
深度學習葯物引起的肝損傷[46]
四個數據集,化合物,化學結構注釋DILI陽性或DILI陰性(four data sets, compounds, chemical structure annotated DILI-positive or DILI-negative properties)
葯物性肝損傷預測
RNN(遞歸神經網路)
AUC = 0.955
從頭算蛋白質二級結構預測的深度學習網路方法[38]
訓練,Protein Data Bank; 驗證,CASP9,CASP10(蛋白質結構預測的關鍵評估)
從頭算蛋白質二級結構預測
DNSS(多模RBM)
Q3 = 90.7%, Sov = 74.2%
蛋白質接觸圖預測的深層架構[39]
ASTRAL database
蛋白質接觸圖預測
RNN + DNN
ACC ∼ 30%
用深機器學習網路建模葯物樣分子的環氧化作用[47]
Accelrys代謝物資料庫(AMD):389個環氧化分子,811個非氧化分子(Accelrys Metabolite Database (AMD): 389 epoxidized molecules, 811 nonepoxidized molecules)
建模分子的環氧化性質
CNN
AUC better than baseline accuracy
DNdisorder:使用增強和深度網路預測蛋白質紊亂[41]
DISORDER723, CASP9, CASP10
預測蛋白質有序/無序區域
RBM
AUC better than baseline
accuracy
Basset:用深度卷積神經網路學習可訪問基因組的規則代碼[50]
來自ENCODE和Epigenomics Roadmap項目的164個細胞類型的DNasel-seq數據
學習DNA序列的功能活動
CNN
AUC = 0.892
a首字母縮寫詞:CNN=卷積神經網路,DNN=深度神經網路,RNN=遞歸神經網路,DBN=深信念網路,RBM=限制玻爾茲曼機器,MLP=多層感知器,MLFS=多級特徵選擇,PINN= 網路,CRF=條件隨機場。
轉錄。轉錄組學分析利用各種類型轉錄物(信使RNA(mRNA),長非編碼RNA(lncRNA),微小RNA(miRNA)等)豐度的變化來收集各種功能信息,從剪接代碼到各種疾病的生物標志物。
轉錄組學數據通常從不同類型的平台(各種微陣列平台,測序平台)獲得,其不同之處在於測量的基因組和信號檢測方法。許多因素導致基因表達數據的變異性。因此,即使對於單個平台分析也需要標准化。 跨平台分析需要規范化技術,這可能是一個重大挑戰。由於DNN具有較高的泛化能力,因此特別適合於跨平台分析。他們也能很好地處理基因表達數據的其他一些主要問題,比如數據集的大小以及對降維和選擇性/不變性的需求,下面我們將回顧幾個已經使用的DNN 用不同類型的基因表達數據來獲得不同程度的成功。
表格數據應用程序。基因表達數據可以表示的一種方式是作為矩陣的表格形式,其包含關於轉錄物表達的定量信息。這些數據是高維度的,由於數據中的信噪比損失,使得統計分析成為問題。[25]
高維數據可以通過兩種方式處理:
I. 降維:
A.特徵提取,例如用SVM或隨機森林演算法;
B.特徵子集選擇;
C.途徑分析;
II. 使用對高維度較不敏感的方法,如隨機森林或深層信念網路。
諸如主成分分析(PCA),奇異值分解,獨立分量分析或非負矩陣分解等方法是常見的前沿方法。然而,上述方法將數據轉換成許多難以用生物學解釋的組件。此外,這種降維方法基於基因表達譜提取特徵而不管基因之間的相互作用。通路分析可以減少變數的數量,減少錯誤率並保留更多的生物相關信息。[25,26]
深度學習在處理高維基質轉錄組學數據方面也取得了一些成功。在另一種方法中,將基因表達的特徵與非編碼轉錄物如miRNA的區域一起提取; 這是通過使用深度信念網路和主動學習來實現的,其中使用了深度學習特徵提取器來減少六個癌症數據集的維度,並且勝過了基本特徵選擇方法[27]。主動學習與分類的應用提高了准確性,並且允許選擇與癌症相關的特徵(改進的癌症分類),而不僅僅基於基因表達譜。使用miRNA數據的特徵選擇是使用與先前選擇的特徵子集的目標基因的關系實施的。
在另一個深度學習應用中,Fakoor等人利用自編碼器網路進行推廣,並將其應用於使用從具有不同基因集合的不同類型的微陣列平台(Affimetrix家族)獲得的微陣列基因表達數據的癌症分類[28]。他們通過PCA和非監督非線性稀疏特徵學習(通過自動編碼器)結合使用降維來構建用於微陣列數據的一般分類的特徵。癌症和非癌細胞分類的結果顯示出了重要的改進,特別是使用監督微調,這使得特徵不那麼通用,但即使對於沒有跨平台標准化的數據也能獲得更高的分類准確性。自動編碼器的全球泛化能力有助於使用不同微陣列技術收集的數據,因此可能對來自公共領域的數據進行大規模綜合分析有前途。
圖像處理應用。基因表達也可以以可視形式存儲為圖像,例如來自微陣列的圖像熒光信號或RNA原位雜交熒光或放射性信號。 在一些應用中,以圖像處理性能優越著稱的CNN已經顯示出改善這些圖像分析的潛力。
在微陣列分析中,由於斑點大小,形狀,位置或信號強度的變化,檢測信號和識別熒光斑點可能是具有挑戰性的,並且熒光信號強度通常對應於基因或序列表達水平差。在對這個問題的深度學習技術的一個應用中,CNN被用於微陣列圖像分割,並且在准確性方面顯示出類似於基準方法的准確度的結果,但是訓練更簡單並且對計算源的要求更少。[29]
將CNN應用於基於圖像的基因表達數據的另一個機會是RNA原位雜交,這是一種繁瑣的技術,當允許這樣的操作時,能夠使基因表達在一組細胞,組織切片或整個生物體中定位和可視化。這種方法促進強大的縱向研究,說明發展過程中的表達模式的變化。它被用於構建詳細的Allen DevelopmentMouse Brain Atlas,其中包含超過2000個基因的表達圖譜,每個基因在多個腦部分中進行說明。過去,這些手動標注是耗時的,昂貴的,有時也是不準確的。然而,最近,Zeng等人使用深度預訓練CNN進行自動注釋[30]。要做到這一點,神經網路模型訓練原始自然原位雜交圖像的不同層次的發展中國家的大腦沒有關於坐標(空間信息)的確切信息;這種技術在四個發展階段的多個大腦水平上實現了卓越的准確性。
剪接。深度學習的另一個應用領域是剪接。剪接是在真核生物中提供蛋白質生物多樣性的主要因素之一;此外,最近的研究顯示「拼接代碼」與各種疾病之間的聯系[31]。然而,現代科學仍然不能全面地理解控制剪接調控的機制。剪接調節的現代概念包括轉錄水平,特定信號調節序列元件(剪接增強子或沉默子)的存在,剪接位點的結構和剪接因子的狀態(例如特定位點的磷酸化可能改變剪接因子活性)。所有這些因素使分析變得復雜,因為它們之間存在大量元素和復雜的非線性相互作用。現有的拼接預測軟體需要高通量測序數據作為輸入,並且面臨著原始讀取比常規基因短的問題,以及基因組中假性基因的高重復水平和存在。因此,拼接機制的分析演算法很慢,需要高度的組合計算來源,深度學習可能會在這方面提供改進。在使用五個組織特異性RNA-seq數據集的一個深度學習應用中,使用隱變數來開發DNN以用於基因組序列和組織類型中的特徵,並且被證明優於貝葉斯方法預測個體內和組織間的組織剪接外顯子拼接的轉錄本百分比的變化(拼接代碼度量)[32]。
非編碼RNA。非編碼RNA是生物學中的另一個問題,需要復雜的計算方法,如深度學習。非編碼RNAs非常重要,涉及轉錄,翻譯和表觀遺傳學的調控[33],但是它們仍然難以與編碼蛋白質的RNA區分開來。對於短的非編碼RNA,這個任務已經很好地解決了,但是對於lncRNA來說這是相當具有挑戰性的。lncRNAs組成異構類,可能含有推定的復制起點(ORF),短的蛋白質樣序列。開發了一種新的深層次的學習方法,稱為lncRNAMFDL,用於鑒定lnc-RNAs,使用ORF,k相鄰鹼基,二級結構和預測的編碼結構域序列等多種特徵的組合[34]。該方法使用從Gencode(lncRNA)和Refseq(蛋白質編碼mRNA數據)的序列數據中提取的五個單獨特徵,並且在人類數據集中導致97.1%的預測准確性。
表達量性狀基因座分析。最後,數量性狀基因座(QTL)分析有潛力進行深入的學習。 QTL分析鑒定含有多態性的遺傳基因座,所述多態性導致復雜的多基因性狀(例如,體重,葯物反應,免疫應答)的表型變異。顯示遺傳變異的一個這樣的「性狀」是給定組織和/或條件中任何給定基因的表達或轉錄本豐度。表達QTL(eQTL)是影響轉錄本豐度的遺傳變異的基因座。 eQTL分析已經導致了對人類基因表達調控的洞察力,但面臨著許多挑戰。在局部調節表達的eQTL(順式-eQTL)相對容易用有限數量的統計測試來鑒定,但是調節基因組中其它位置的基因表達的位點(trans-eQTL)更難以檢測到。最近,為了解決使用各種編碼的生物特徵(諸如物理蛋白質相互作用網路,基因注釋,進化保守,局部序列信息以及來自ENCODE項目的不同功能元件)的反式eQTL預測問題的深度學習方法MASSQTL[35]被提出。DNN利用來自其各自交叉驗證折疊的9個DNN模型,優於其他機器學習模型,並且提供了對基因表達的調控架構的基礎的新機制。深解碼系統也被用來對trans-eQTL特徵向量進行聚類,然後通過t-SNE降維技術進行可視化。
蛋白質組學。與轉錄組學相比,蛋白質組學是一個相當欠發達的研究領域,數據依然稀少,用於分析的計算方法較少。即使有相似的信號編碼和傳輸機制,人類蛋白質組學數據的缺乏以及將模型生物體結果轉化為人類的困難也使分析變得復雜。
深度學習可以以多種方式使蛋白質組學受益,因為一些方法不需要像其他機器學習演算法那樣的大量培訓案例。深度學習方法的其他優點是他們建立數據的分層表示,並從復雜的相互作用中學習一般特徵,從而有利於蛋白質的蛋白質組學和網路分析。例如,使用磷酸化數據,雙峰深信念網路已被用於預測大鼠細胞對相同刺激的刺激的細胞反應[36]。與傳統的管線相比,開發的演算法獲得了相當的准確性。
結構生物學和化學。結構生物學包括蛋白質折疊分析,蛋白質動力學,分子建模和葯物設計。二級和三級結構是蛋白質和RNA分子的重要特徵。對於蛋白質,適當的結構測定對於酶功能預測,催化中心和底物結合的形成,免疫功能(抗原結合),轉錄因子(DNA結合)和轉錄後修飾(RNA結合)是重要的。喪失適當的結構會導致功能喪失,並且在某些情況下會導致可能導致神經退行性疾病(如阿爾茨海默病或帕金森病)的異常蛋白質的聚集。[37]
基於復合同源性的比較建模是預測蛋白質二級結構的一種可能方式,但是受現有注釋良好的化合物的量限制。另一方面,機器學習從頭預測是基於公認的具有公知結構的化合物的模式,但是還不夠精確以至於不能實際使用。從頭開始使用深度學習方法通過使用蛋白質測序數據改進了結構預測[38]。同樣,深度學習已經被應用於使用ASTRAL資料庫數據和復雜的三階段方法來預測二級結構元素和氨基酸殘基之間的接觸和取向[39]。所使用的方法是分析偏倚和高度可變數據的有效工具。
三維結構的不變性在功能上也是重要的。然而,有幾種蛋白質沒有獨特的結構參與基本的生物過程,如細胞周期的控制,基因表達的調控,分子信號傳遞。此外,最近的研究顯示一些無序蛋白質的顯著性[37]; 許多癌基因蛋白具有非結構域,並且錯誤折疊蛋白的異常聚集導致疾病發展[40]。這種沒有固定三維結構的蛋白被稱為固有無序蛋白(IDP),而沒有恆定結構的結構域被稱為固有無序區(IDR)。
許多參數將IDP / IDR與結構化蛋白質區分開來,從而使預測過程具有挑戰性。這個問題可以使用深度學習演算法來解決,這些演算法能夠考慮各種各樣的特徵。2013年,Eickholt和Cheng發表了一個基於序列的深度學習預測指標DNdisorder,與先進的預測指標相比,改進了對無序蛋白質的預測[41]。後來在2015年,Wang等人提出了一種新的方法,DeepCNF,使用來自蛋白質結構預測的臨界評估(CASP9和CASP10)的實驗數據,能夠准確預測多個參數,如IDPs或具有IDR的蛋白質。DeepCNF演算法通過利用眾多特徵,比基線單從頭(從頭算)預測指標執行得更好[42]。
另一類重要的蛋白質是結合單鏈或雙鏈RNA的RNA結合蛋白。 這些蛋白質參與RNA的各種轉錄後修飾:剪接,編輯,翻譯調控(蛋白質合成)和聚腺苷酸化。RNA分子形成不同類型的臂和環,需要識別和形成RNA和蛋白質之間連接的二級和三級結構。RNA的二級和三級結構是可預測的,並且已經被用於建模結構偏好偏好和通過應用深度信念網路預測RBP的結合位點[43]。深度學習框架在真正的CLIP-seq(交聯免疫沉澱高通量測序)數據集上進行了驗證,以顯示從原始序列和結構分布中提取隱藏特徵的能力,並准確預測RBP的位點。
葯物發現和再利用。計算葯物生物學和生物化學廣泛應用於葯物發現,開發和再利用的幾乎每個階段。過去數十年來,不同的研究團體和公司在全球范圍內開發了大量用於計算機模擬葯物發現和目標延伸的計算方法,以減少時間和資源消耗。雖然存在許多方法[44],但是還沒有一個是最優的(例如,無法執行通量篩選或者通過蛋白質類別進行限制),現在一些研究表明深度學習是一個重要的考慮方法(表1)。
葯物發現的重要任務之一就是預測葯物靶點的相互作用。 靶標(蛋白質)通常具有一個或多個與底物或調節分子的結合位點; 這些可以用於建立預測模型。 然而,包括其他蛋白質的成分可能會給分析帶來偏見。成對輸入神經網路(PINN)接受具有從蛋白質序列和靶分布獲得的特徵的兩個載體的能力被Wang等人用來計算靶標-配體相互作用[45]。神經網路的這種優勢比其他代表性的靶標-配體相互作用預測方法有更好的准確性。
葯物發現和評估是昂貴,耗時且具有風險; 計算方法和各種預測演算法可以幫助降低風險並節省資源。一個潛在的風險是毒性; 例如,肝毒性(肝毒性)是從生產中去除葯物的常見原因。用計算方法預測肝毒性可能有助於避免可能的肝毒性葯物。使用深度學習,可以有效地確定原始化學結構的化合物毒性,而不需要復雜的編碼過程[46]。使用CNN也可以預測諸如環氧化的性質,這意味著高反應性和可能的毒性; 這是休斯等人首次實施的。通過使用環氧化分子和氫氧化物分子的簡化分子輸入線入口規格(SMILES)格式數據作為陰性對照[47]。
多平台數據(Multiomics)。使用多平台數據的能力是深度學習演算法的主要優勢。 由於生物系統復雜,具有多個相互關聯的元素,基因組學,表觀基因組學和轉錄組學數據的系統級整合是提取最有效且有生物學意義的結果的關鍵。整合過程在計算上不是微不足道的,但收益是生物標志物特異性和靈敏度比單一來源方法的增加。
計算生物學中需要分析組合數據的主要領域之一是計算表觀遺傳學。有聯合分析基因組,轉錄組,甲基化組特徵和組蛋白修飾提供了准確的表觀基因組預測。
一些研究人員已經開發出深度學習方法,可用於分析來自多個來源的數據(表1)。Alipanahi等人開發了基於深度學習的方法DeepBind(tools.genes.toronto.e/deepbind/),以在各種疾病中計算核苷酸序列結合轉錄因子和RNA結合蛋白的能力,並表徵單點突變對結合特性的影響。DeepBind軟體受CNN啟發,對技術不敏感; 相反,它與從微陣列到序列的定性不同形式的數據是相容的。CPU的實現也允許用戶並行化計算過程[48]。在另一個基於CNN的應用程序中,Zhou和Troyanskaya設計了DeepSEA框架來預測染色質特徵和疾病相關序列變異的評估。與其他計算方法不同,他們的演算法能夠捕獲每個結合位點的大規模上下文序列信息,用於注釋從頭序列變異體[49]。開發了類似的CNN管線,揭示了序列變異對染色質調控的影響,並對DNase-seq(DNase I測序)數據進行了培訓和測試[50]。一種名為Bassed的深度學習軟體優於基線方法,並且在所有數據集上達到平均AUC0.892。最後,隨著深層特徵選擇模型的發展,深度學習被用於識別主動增強器和促進器,該模型利用了DNN對復雜非線性相互作用進行建模的能力,並學習了高層次的廣義特徵[51]。模型從多平台數據中選擇特徵,並按照重要性進行排序。在這些應用中,深度學習方法是染色質性質的更敏感和更有力的預測因子,也是復雜生物標志物發展的關鍵。
癌症是一組異質性疾病的廣泛名稱,其中一些是由基因突變引起的,因此使用多平台數據的癌症分類可以揭示潛在的病理學。Liang等人開發了一個具有多平台數據的深層信念網路模型,用於癌症患者的聚類[52]。使用受限玻爾茲曼機對每種輸入模式定義的特徵進行編碼。這種方法的一個優點是深層信念網路不需要具有正態分布的數據,因為其他聚類演算法和遺傳(生物)數據不是正態分布的。
最後,從自然語言處理的角度來看,深度學習在通過巨大的非結構化(研究出版物和專利)和結構化數據(知識注釋圖,如基因本體論[53]或Chembl[54])瀏覽時,通過檢驗假設的合理性。這些資料庫一起形成了一個龐大的,多平台的數據集,如果結合起來,這些數據集將更加豐富和全面。
總之,現代生物數據的龐大規模,對於以人為本的分析來說太龐大而復雜。 機器學習,特別是深度學習與人類專業知識相結合,是將多個大型多平台資料庫完全集成的唯一途徑。 深度學習使人類能夠做到以前無法想像的事情:具有數百萬輸入的圖像識別,語音識別以及接近人類能力的語音自動化。 雖然深度學習和特別是無監督的深度學習仍處於起步階段,特別是在生物學應用方面,但最初的研究支持它作為一種有希望的方法,盡管在實施中不受限制和挑戰,但可以克服生物學數據的一些問題, 對數百萬間接和相互關聯的疾病機制和途徑的新見解。