生物基因

一、背景

基因檢測是通過血液、其他體液、或細胞對DNA進行檢測的技術?;蚣觳飪梢哉鋃霞膊?,也可以用于疾病風險的預測。疾病診斷是用基因檢測技術檢測引起遺傳性疾病的突變基因。目前應用廣泛的基因檢測是新生兒遺傳性疾病的檢測、遺傳疾病的診斷和某些常見病的輔助診斷。目前有1000多種遺傳性疾病可以通過基因檢測技術做出診斷?;蜃饔玫謀硐擲氬豢讜詰暮屯庠詰幕肪車撓跋?。在具有特定基因的一群個體中,表現該基因性狀的個體的百分數稱為外顯率;在具有特定基因而又表現該一性狀的個體中,對于該一性狀的表現程度稱為表現度。外顯率和表現度都受內在環境和外在環境的影響。


二、傳統存儲方案

結合在基因測序存儲中對于存儲系統容量、性能、擴展性方面的強烈需求,可以分析傳統的SAN或者NAS在基因測序環境里面的應用特點:


SAN:

SAN提供通過高速光纖通道或者以太網絡給應用的是塊級訪問接口。在應用端看到的是一塊硬盤,實際使用時需要進行格式化處理或者另外配置管理軟件。SAN具有如下幾個特點:


1. 不能文件共享:該方案相比直連盤陣(DAS)更具靈活性和可擴展性,SAN不能支持文件級共享。在具有數據中心的環境中,不能文件共享的SAN會給數據共享和調用、管理維護帶來巨大的成本,同時也會影響業務運行的效率。


2. 擴容、使用復雜:SAN使用了大量專用、復雜的硬件,這就需要較高的系統構建成本、運營維護成本,兼容性的問題也會對系統將來的升級帶來不便。SAN的擴容過程也需要將業務停止進行遷移,影響業務連續性。


NAS:

NAS是一種較為簡易的文件共享解決方案。NAS通過NFS/CIFS協議給前端應用提供全局的文件共享,來滿足多應用服務器之間的業務協作。在具有大量數據,并且有高并發的環境中存在以下兩個問題:


1. 性能瓶頸:NAS以集中式數個NAS機頭的方式為應用提供存儲服務,其性能受限于該服務器的配置,其總帶寬一般不超過200MB/s。在業務訪問量較大的情況下,NAS將很快成為業務的性能瓶頸。NAS即便使用多臺NAS機頭同時提供服務,但是其數量極為有限,導致其性能受限于NAS機頭的數量。


2. NAS也存在最大存儲容量(如數百TB)、單卷存儲容量(如數十TB)、文件數量(如數百萬)等諸多限制。在數據不斷增長的情況下,這些限制將會給數據的統一管理維護帶來不少困難。



三、龍存集群存儲方案

LoongStore是面向海量數據存儲和高并發訪問的應用而設計的大規模通用集群存儲系統,采用通用智能存儲節點作為基本的構建單元,為應用提供全局統一的系統映像和完全POSIX兼容的API接口。

LoongStore集群存儲系統采用了完全的分布式架構,將存儲服務器集群和元數據服務器集群通過高速以太網絡構建,兩部分集群都具備良好的擴展性和可靠性。利用LoongStore的高可用軟件功能消除集群內的設備級單點故障,避免因為故障而導致服務中斷或者數據丟失等影響,并且打破傳統存儲系統容量、文件數量的種種限制。


龍存方案拓撲圖



四、目前服務的主要內容

隨著人類對基因研究的不斷深入,發現許多疾病是由于基因結構與功能發生改變所引起的??蒲Ъ醫喚瞿芊⑾鐘腥畢蕕幕?,而且還能掌握如何進行對基因診斷、修復、治療和預防,這是生物技術發展的前沿。大幅度提升基因組和生物信息學新技術、新方法等計算生物學研究的能力,解決生命科學領域的國際前沿問題和國家重大戰略需求的科學問題,使用龍存存儲系統,可獨立支撐各類基因測序任務,平臺上運行了基因應用軟件,整體性能是傳統存儲系統的3倍。通過特有的元數據集群技術,可解決小文件檢索緩慢問題。且系統適應性強可以兼容多種不同的基因程序同時運行,有效支撐起各種應用程序的訪問壓力。