엔비디아, 생물학 분야로 대형 언어 모델 지원 확장


엔비디아가 엔비디아 GTC에서 DNA와 단백질 등 생명의 구성 요소에 대한 새로운 인사이트의 모색을 가속할 엔비디아 바이오네모(NVIDIA BioNeMo) 프레임워크를 발표했다. 

엔비디아 바이오네모는 슈퍼컴퓨팅 규모를 가진 대형 생체분자 언어 모델의 훈련과 배포를 위한 프레임워크로, 질병의 이해와 치료의 개선에 기여한다. 대형 언어 모델(LLM) 프레임워크는 화학과 단백질, DNA와 RNA의 데이터 형식을 지원할 예정이다. 

엔비디아 바이오네모는 신약 개발용 프레임워크, 애플리케이션, AI 모델 컬렉션인 엔비디아 클라라 디스커버리(NVIDIA Clara Discovery)의 일부다.

AI는 LLM을 통해 인간의 언어를 이해하는 법을 배운다. 그리고 같은 방식으로 생물학과 화학의 언어도 배울 수 있다. 엔비디아 바이오네모는 대형 신경망이 생체분자 데이터를 보다 쉽게 학습하도록 만들어 생물학적 시퀀스에서 새로운 패턴과 인사이트를 도출하게 지원한다. 이렇게 얻은 인사이트를 연구자들이 생물학적 특성이나 기능, 더 나아가 인간의 건강 상태와 연결한다. 

엔비디아 바이오네모가 제공하는 프레임워크를 통해 과학자들은 더 큰 데이터세트로 대형 언어 모델을 훈련해 신경망의 성능을 향상시킨다. 이 프레임워크는 GPU 최적화 소프트웨어를 위한 허브인 엔비디아 NGC(NVIDIA NGC)에서 얼리액세스로 만나볼 수 있다.

엔비디아 바이오네모는 이 언어 모델 프레임워크에 더해 갈수록 증가하는 사전 훈련 AI 모델을 지원할 클라우드 API 서비스도 제공한다. 

더 큰 모델과 더 나은 예측 지원하는 바이오네모 프레임워크

오늘날 생물학 데이터용 자연어 처리 모델을 사용하는 과학자들이 주로 훈련하는 신경망은 상대적으로 규모가 작고 맞춤형 전처리를 요한다. 바이오네모를 도입하면 수십억 개의 파라미터를 가진 LLM으로 모델을 확장해 분자 구조와 단백질 용해성 등에 대한 정보를 얻을 수 있다. 

바이오네모는 대규모 자가지도(self-supervised) 언어 모델의 GPU 가속 훈련을 위한 엔비디아 네모 메가트론(NVIDIA NeMo Megatron) 프레임워크의 확장 기능이다. 도메인별로 특화돼 만들어지며, 화학적 구조를 표기하는 SMILES 기법이나 아미노산과 핵산의 시퀀스 문자열인 FASTA로 표현된 분자 데이터를 지원하도록 설계된다. 

오픈폴드 컨소시엄(OpenFold Consortium)의 창립 멤버이자 컬럼비아대학교 시스템생물학과 조교수인 모하메드 알쿠라이시(Mohammed AlQuraishi)는 “바이오네모 프레임워크 덕분에 헬스케어와 생명과학 산업의 연구자들이 빠르게 증가하는 생물학과 화학 데이터세트를 제대로 활용할 수 있다. 이를 통해 특정 질병의 분자적 특징을 정확히 겨냥한 치료법을 보다 쉽게 발견하고 고안할 수 있다”고 설명했다.

바이오네모 서비스, 화학과 생물학용 LLM 제공

엔비디아 바이오네모 LLM 서비스에는 생물학과 화학 분야의 디지털 애플리케이션용 LLM을 신속히 시작하기 원하는 개발자를 위해 사전 훈련된 언어 모델 4종이 포함된다. 이 모델들은 추론에 최적화돼 있으며, 엔비디아 DGX 파운드리(NVIDIA DGX Foundry)에서 구동되는 클라우드 API의 조기 체험을 통해 액세스할 수 있다. 

● ESM-1: 메타 AI 랩스(Meta AI Labs)가 제공한 이 단백질 LLM은 아미노산 시퀀스를 처리해 다양한 단백질의 특성과 기능 예측에 활용할 표현형을 생성하며 과학자들의 단백질 구조 이해력을 강화한다.
● 오픈폴드(OpenFold): 최첨단의 단백질 모델링 툴을 만드는 정부-민간 합작 컨소시엄 오픈폴드는 바이오네모 서비스를 통해 자체 오픈 소스 AI 파이프라인을 제공할 예정이다. 
● 메가몰BART(MegaMolBART): 14억 개의 분자로 훈련된 이 생성적 화학 모델은 반응 예측과 분자 최적화, 새로운 분자 생성에 사용할 수 있다. 
● 프롯T5(ProtT5): 이 모델은 엔비디아와 뮌헨공과대학의 로스트랩(RostLab) 등이 협업을 통해 개발한 것으로, ESM-1b와 같은 단백질 LLM의 기능을 시퀀스 생성으로 확장한다. 

앞으로 바이오네모 LLM 서비스를 활용하는 연구자들은 LLM 모델의 커스터마이징을 통해 자체 애플리케이션의 정확도를 단 몇 시간만에 개선할 수 있게 될 것이다. 단 수백 개의 사례로 구성된 데이터세트를 활용하는 P 튜닝(p-tuning) 등의 새로운 훈련 기법과 미세 조정을 병용하면 충분히 가능하다.  

엔비디아 바이오네모 도입하는 스타트업, 연구자, 제약회사

신약 개발 연구의 지원을 위해 엔비디아 바이오네모를 도입하는 생명공학과 제약 분야의 전문가들이 늘고 있다. 

● 아스트라제네카(AstraZeneca)와 엔비디아는 케임브리지-1(Cambridge-1) 슈퍼컴퓨터를 활용해 바이오네모 LLM 서비스에 포함된 메가몰BART 모델을 개발했다. 아스트라제네카는 또한 바이오네모 프레임워크로 저분자와 단백질, DNA 데이터세트에서 세계 최대 언어 모델을 훈련할 계획이다. 
● MIT와 하버드 브로드 연구소(Broad Institute of MIT and Harvard)의 연구자들은 엔비디아와 협력해 바이오네모 프레임워크를 사용해 차세대 DNA 언어 모델을 개발하고 있다. 이 모델들은 브로드 연구소와 마이크로소프트(Microsoft), 베릴리(Verily)가 공동 개발한 클라우드 플랫폼인 테라(Terra)에 통합돼 생물의학 분야의 연구자들이 대량의 데이터를 안전하게 공유, 평가, 분석할 수 있게 지원한다. 이 AI 모델들은 바이오네모 서비스 컬렉션에도 추가될 예정이다. 
● 오픈폴드 컨소시엄은 바이오네모 프레임워크를 사용해 아미노산 시퀀스의 분자 구조를 혁신적인 정확도로 예측할 수 있도록 AI 모델의 개발 작업을 개선한다. 
● 펩톤(Peptone)은 본질적으로 무질서한 단백질, 즉 안정적인 3D 구조가 없는 단백질의 모델링에 집중하고 있다. 엔비디아와의 협업 하에 바이오네모의 기반인 네모 프레임워크를 사용해 ESM 모델의 여러 버전을 개발하는 중이다. 이 프로젝트는 엔비디아의 케임브리지-1 슈퍼컴퓨터에서 실행될 예정이며 펩톤의 신약 개발 작업을 가속할 전망이다. 
● 에보자인(Evozyne)은 시카고에 본사를 둔 생명공학 기업으로, 엔지니어링과 딥 러닝 테크놀로지를 결합해 치료법과 지속가능성 측면의 오랜 과제를 해결할 새로운 단백질을 설계한다. 

에보자인의 공동 창립자이자 컴퓨팅 책임자인 앤드루 퍼거슨(Andrew Ferguson)은 “바이오네모 프레임워크 덕분에 설계와 구축, 검증으로 이어지는 개발 사이클 내에서 데이터 위주의 단백질 설계에 LLM을 효과적으로 활용할 수 있다. 이 테크놀로지는 새로운 기능성 단백질을 설계하고 이를 인간의 건강과 지속가능성에 적용하는 작업에 중대한 영향을 미칠 것이다”고 설명한다.

엔비디아 인셉션(NVIDIA Inception) 프로그램의 회원사이기도 한 생명공학 스타트업 펩톤의 머신 러닝 담당자 이스트반 레들(Istvan Redl)은 “단백질 분야의 대형 언어 모델 도입이 그 어느 때보다 활발한 상황에서 LLM의 효율적 훈련과 모델 아키텍처의 신속한 조정은 무척 중요한 문제다. 우리는 바이오네모 프레임워크가 엔지니어링의 핵심인 확장성과 신속한 실험을 제공할 수 있다고 굳게 믿는다”고 말했다.

엔비디아 바이오네모 LLM 서비스 또는 바이오네모 프레임워크의 얼리 액세스를 신청할 수 있다. 엔비디아 런치패드(NVIDIA LaunchPad)에서 LLM 훈련과 배포 관련 무료 랩을 요청해 바이오네모의 메가몰BART 화학 모델을 핸즈온으로 경험할 수 있다. 

9월 22일 목요일까지 온라인으로 진행되는 GTC에 무료로 등록하여 AI와 헬스케어의 최신 동향을 확인할 수 있다. 

케이벤치 많이 본 뉴스