科學網
12月18、19日兩天,深圳國家基因庫舉辦了「2018生物多樣性大數據青年論壇」。我本人有幸作為報告人,參加了此次論壇。
會議規模很小,共16個報告。據召集人楊拓博士說,這是考慮到小型會議更有利於參會者交流。國內從事生物多樣性大數據處理的專家很多,但這次邀請的大多數報告人是博士畢業幾年內的青年科學家,他們大都在博士期間做了很出色的工作,也取得了豐碩的成果。
當然,像我這樣博士畢業8年,並沒有在科研一線奮鬥的「生態學家」居然能獲得邀請,感覺像中了大獎。11月中旬接受邀請以來,我就一直處在惶恐不安中,因為一直想不出特別合適的話題,擔心會辜負重託。最後時刻,我終於想到能把自己所在植物標本館的工作放在大數據背景下,介紹植物標本記錄與小標本館之間的關係,繼而分析標本分布數據里問題的來源,並提出相應解決方案。
報告涉及生物多樣性大數據分析的方方面面,大部分是對某一個或幾個問題的研究成果,即便研究方法類似,所關注的類群也不同,涵蓋植物分類學、植物地理學、昆蟲地理學、鳥類生態學、植物標本館學、植物基因組學、動物比較基因組學、物種潛在分布區預測和保護區規劃等等。
會議留給人的最重要的印象,在我看來有三方面:
1. 博士生自身努力且經過很好的科研訓練之後,能夠做出驕人的成績
車榮曉博士2017年在中國科學院大學獲得博士學位,在雲南大學入職不久。讀博期間,他在青藏高原採集了大量土壤樣品,研究微生物在青藏高原草地生態系統中的功能。長期以來,生態系統功能,特別是元素循環,凋落物方面的研究,大多只提到微生物起著重要作用,但是生態學家並不知道究竟是哪些微生物起了作用。而車博士對土壤樣品測序,弄清楚了哪些微生物在青藏高原草地固氮過程中起著重要作用,還通過微生物培養實驗檢驗了一系列生物地理相關假說,闡明了相應機制。研究思路非常清楚,結果也令人信服。論文發表在土壤和微生物領域的頂級期刊上。
另一位代表,中山大學楊立博士,通過搜集古代文獻以及近現代以來的方誌、林業系統內部資料、地方網站等,將物種種群變化的歷史信息引入物種潛在分布區預測中。在推斷物種潛在分布區時,提出cost
layer的方法,將人為干擾因素放入模型,從而優化物種保護規劃。楊博士對數據的收集、處理等各種問題都有深刻而獨到的見解。在讀博時,如果沒有系統閱讀文獻,沒有認真鑽研數據分析的理論和技術,沒有認真鑽研研究的問題,是不會取得這樣優異的成績的。
2. 部分領域的軟體,我國青年學者已做到國際領先水平
生物信息學自創立以來,我國的科研工作者還很少發表算法,也很少編寫軟體,這可能跟人才培養模式有很大關係。當初,很多人選擇生物學一般因為生物學的數學門檻低,學習過程中,不需要太多數學知識和計算機技能,即使自己想學習,專業課程設置也不一定讓人能獲得很好的訓練,但隨著研究的深入,生物數據處理越來越需要數學和計算機輔助,生物信息學對這方面的要求非常高。數學和計算機能力的欠缺,在很大程度上限制了科研人員對算法和數學原理的深入研究,這也成為國內生物信息學研究的一塊短板。這種情況似乎正在改變。這次會議中,中國科學院昆明植物所的金建軍博士就介紹了他編寫的GetOrganelle程序包。該程序包能快速從頭組裝葉綠體全基因組,算法也是他提出的,相比同類軟體,獲得結果更準確,需時也更短,軟體同時能給出所推斷葉綠體全基因組各種可能的拓撲結構,因此很快受到了研究人員的歡迎。在算法和軟體上有所創新,才是生物信息學的核心技術,博士研究生在這方面有所突破,是十分難能可貴的。
此外,昆明植物所徐洲鋒老師團隊開發的手機應用Biotracks可用來記錄植物標本採集信息,Kingdonia可用來管理植物標本,也達到了業界領先水平。Biotracks可用手機GPS信號記錄軌跡,標註和識別拍攝的植物,自動生成標本採集號,用GPS坐標解析地名,自動生成標本採集標籤等。而多個用戶還可以在Biotracks上合作開展一些項目。Biotracks2019版不僅可以輔助採集植物標本,更是擴展到其他類群,功能也更完善。該軟體將極大推動物種監測等相應的項目。Kingdonia標本管理系統能與Biotracks無縫銜接,用於數字化之後的標本管理以及植物圖庫的管理。在Kingdonia系統中,植物標本的鑑定信息、名稱變動、科屬變動等細節問題都已妥善解決。目前,中科院華南植物園、西雙版納植物園已經在使用Kingdonia系統管理標本。Biotracks和Kindonia都是面向用戶的需求開發的,所以很多細節更人性化,如Biotracks在手機信號不好的地方也能正常使用,極大方便了野外工作。
3. 基因組學等方面的新技術發展迅速,全基因組測序勢不可擋
最明顯的例子就是二代測序讓全基因組測序較為廉價。DNA已經嚴重降解的樣品,如幾十年、上百年的標本也能進行基因組測序,通常是利用二代測序技術生成幾十個G的DNA片段,再進行拼接、組裝,重建出物種的全基因組。
深圳國家基因庫在這方面開展的測序計劃十分宏偉,如萬種鳥類全基因組計劃,就希望在獲得現存所有鳥類的全基因組之後,再在基因組水平重建它們的進化歷史,通過比較基因組學探討各基因的功能及其與性狀的關係等。
朱䴉,國家一級保護動物,曾處於滅絕的邊緣。朱䴉原本是東亞地區一種非常常見的鳥類,分布在秦嶺淮河以北、華北平原、東北東部,南到長江下游以及朝鮮半島和日本,但由於棲息地的破壞,朱䴉種群在上世紀六、七十年代雪崩式衰退。八十年代,我國動物學家在陝西洋縣發現僅存的兩窩共7隻朱䴉,立即開展保育和繁殖工作,在投入大量人力物力之後,朱䴉種群得以逐漸恢復。現存的2000多隻朱䴉,均為這7隻朱䴉的後代。華大基因的馮少鴻老師對博物館中保存的朱䴉標本和現存朱䴉中的8個個體進行了基因組測序,分析了遺傳多樣性的變化。她發現,朱䴉歷史標本的遺傳多樣性要遠高於現存種群。雖然現存的朱䴉已恢復到2000隻以上,但是由於遺傳多樣性極低,這個種對疾病的抗性等將存在各種問題,同時,要人為增加遺傳多樣性是極為困難的。因此,朱䴉種群的維持還需要人為協助。報告中還提到,利用一個種,一個個體的全基因組數據就可以重建該種在過去幾十年甚至幾萬年以來種群大小的變化。結果表明,早在農耕文明成熟之初,人類對朱䴉的種群大小就已經產生了影響。
會議還請到了台灣中央研究院的劉世慧博士,她之前在美國密蘇里植物園學習,現在在鍾國芳教授研究組。她利用基因組學的方法,研究丁香蓼屬(Ludwigia)、秋海棠屬(Begonia)下若干個組(section)雜交物種形成和系統發育關係。傳統上,發表新種或者進行系統修訂多只是基於形態特徵,雖然近些年分類學家也都開始利用生物信息學手段建立進化樹,如利用葉綠體基因片段以及部分核基因重建進化樹,但是一般來說,研究結果仍以描述為主。突破之處在於,劉博士在分類學研究是基於假說檢驗的:她將一些分類學問題以假說的形式提出來,再用基因組學數據進行驗證,澄清了若干雜交種的起源,以指導分類學修訂。也許類似的方法將來也會成為分類修訂的標準配置。這樣一來,植物分類學家不僅要學會描述植物,也必須要在轉錄組、基因組等水平進行深入探討,如果真是這樣,植物學家的門檻又高了一大截。
報告內容不能一一詳述,感興趣的讀者可以參考會議共享的幻燈片。這裡只簡單提一下其他報告:中科院植物所劉博博士系統收集了東南亞各國的植物標本數據以及志書資料,獲得了每個國家的初步植物名錄,探討了東南亞植物多樣性的空間分布格局。北京師範大學饒米德博士重建了山茶科的進化樹,基於地理分布數據檢驗了物種分布相關的兩個假說。廣東省生物資源應用研究所張強博士報導了南嶺鳥類群落構建機制的研究進展,特別是物種豐富度、系統發育多樣性和功能多樣性沿著海拔梯度的變化規律及其可能機制。同單位的權擎博士介紹了中國陸生脊椎動物的系統發育多樣性及其分布格局,並分享了關於數據共享,特別是數據格式方面的一些想法。成都理工大學陳聖賓博士介紹了昆蟲宏生態學的一系列研究進展。華大基因楊婷博士介紹了瑞麗植物園植物的全基因組測序項目。北京林業大學毛建豐博士介紹了雲南松、高山松、油松的地理分布和遺傳結構,探討了植物的適應性和遺傳結構的關係,詳細介紹了種間雜交及其在物種適應性方面的意義,不過由於我本人著急回香港,報告的最後一部分沒有能聽完。楊拓博士的《中國被子植物的時空格局》也非常遺憾沒有能夠聽到。
會議唯一一個英文報告是GigaScience雜誌的編輯Scott Edmunds做的,主要是推廣開放科學(Open Science)和公眾科學(Citizen
Science),呼籲科學家要把數據要公開,把分析方法公開,把計算機代碼公開,從而讓普通人重新相信科學,重新信任科學家,這項工作任重道遠。Scott關於開放科學的呼籲正好與我本人的想法契合:科研數據要公開,分析方法要寫成分析指南,供別人參考,分析用的計算機代碼要公開,讓別人能夠重複你的工作,論文也要開放獲取。而科學工作者自身,如果可能的話,也最好能開展一些公眾參與度比較高的項目,以推動公眾能夠進一步理解科研及其重要意義。
想不到的是,雖然本次報告的內容之間很少重疊,但是討論卻非常熱烈:每個報告結束後,差不多都有四五個人提問,並且回答問題可能就要十幾分鐘,這在大型會議是不能想像的。也許確實如召集人楊拓所說,討論會需要控制好規模和報告時間,這樣每個參會人的收穫才能更多,效果才能更好。晚飯後,參會人仍然饒有興致地交流和討論到晚上十點以後,足以體現此次會議有多麼成功。
兩天會議一下子就結束了,離開讓人非常不舍,總讓人有一種意猶未盡的感覺。再次見到陳聖賓、毛建豐、劉博、饒米德、張強等老師同學,也讓人感慨時光荏苒,原來,一些同學已經五六年沒見了。
本次會議的食宿和路費全部由國家基因庫資助,這裡一併表示感謝。同時,也要再次感謝楊拓博士的精心組織,感謝會務組熱情周到的安排。
2018年12月19日 記於 香港大埔 12月20日 修改
圖1. 會議召集人 楊拓博士
圖2. 國家基因庫外景
圖3. 會場
圖4. 車榮曉博士在回答問題
圖5. 饒米德博士在講山茶科植物的分布格局與影響因素
圖6. 徐洲鋒老師演示Biotracks軟體的使用
圖7. 徐洲鋒老師演示Biotracks軟體的使用
圖8. 楊立博士講解如何在物種分布區預測中考慮人為干擾與歷史變化
圖9. 張強博士講述鳥類群落組成與功能性狀、系統發育之間的關係
圖10. 晚飯後的水果大餐
圖11. 晚飯後的水果大餐與熱烈討論