Model AI MIT Mempelajari Bahasa DNA Ragi untuk Mengurangi Biaya Obat

Para insinyur kimia MIT menggunakan model bahasa yang besar untuk mempelajari bagaimana ragi industri membaca DNA, kemudian menggunakannya untuk membuat obat protein secara lebih efisien. Pendekatan ini dapat membantu mengurangi waktu dan biaya dalam menghadirkan obat biologis baru kepada pasien.

Model kecerdasan buatan baru yang membaca DNA seperti sebuah bahasa dapat membantu membuat obat-obatan dan vaksin berbasis protein diproduksi lebih cepat dan lebih murah.

Para insinyur kimia MIT telah mengadaptasi jenis model bahasa besar yang sama yang digunakan untuk menggerakkan chatbot untuk mempelajari kode genetik ragi industri yang banyak digunakan untuk memproduksi obat-obatan. Dengan mempelajari pola DNA yang disukai ragi, model tersebut dapat menyarankan resep genetik yang lebih baik untuk membuat protein berharga, mulai dari hormon pertumbuhan manusia hingga antibodi penangkal kanker.

Dalam uji laboratorium, sekuens DNA yang dirancang AI tersebut membantu sel ragi menghasilkan lebih banyak enam protein terapeutik yang berbeda dibandingkan sekuens yang dihasilkan oleh alat komersial terkemuka, demikian laporan para peneliti dalam sebuah makalah. diterbitkan dalam Prosiding National Academy of Sciences.

Bagi produsen obat, dorongan semacam itu dapat berarti jangka waktu pengembangan yang lebih pendek dan biaya produksi yang lebih rendah untuk obat biologis — obat kompleks yang dibuat oleh sel hidup yang seringkali termasuk perawatan paling mahal di pasaran.

Tujuannya adalah untuk menghadirkan prediktabilitas yang lebih besar pada proses yang masih sangat manual, menurut penulis senior J. Christopher Love, Profesor Teknik Kimia Raymond A. dan Helen E. St. Laurent di MIT.

“Saat ini, semua langkah tersebut dilakukan melalui tugas eksperimental yang sangat melelahkan,” kata Love, yang juga merupakan anggota Koch Institute for Integrative Cancer Research dan direktur bersama fakultas MIT Initiative for New Manufacturing, dalam siaran pers. “Kami telah meneliti pertanyaan tentang ke mana kita dapat mengambil beberapa konsep yang muncul dalam pembelajaran mesin dan menerapkannya untuk membuat berbagai aspek proses menjadi lebih andal dan lebih mudah diprediksi.”

Mempelajari “sintaks” genetik ragi

Ragi industri seperti Komagataella phaffii dan Saccharomyces cerevisiae Sel-sel ini adalah tulang punggung industri biofarmasi. Mereka membantu memproduksi obat-obatan dan vaksin protein senilai miliaran dolar setiap tahunnya, termasuk insulin, vaksin hepatitis B, dan antibodi monoklonal.

Untuk mengubah ragi menjadi pabrik mini untuk obat protein baru, para insinyur memasukkan gen yang mengkode protein tersebut ke dalam genom ragi dan kemudian menyempurnakan kondisi pertumbuhan dan produksi sel. Untuk obat biologis, fase pengembangan ini dapat menyumbang sebagian besar dari keseluruhan biaya untuk membawa produk ke pasar.

Salah satu keputusan desain kunci adalah bagaimana menulis urutan DNA untuk gen tersebut. Protein dibangun dari 20 asam amino, tetapi DNA menggunakan 64 kemungkinan "kodon" tiga huruf untuk mengkodekannya. Itu berarti sebagian besar asam amino dapat dieja dengan beberapa cara berbeda dalam DNA.

Organisme yang berbeda memiliki preferensi kodon yang berbeda. Alat optimasi kodon tradisional biasanya memilih kodon yang paling umum dalam organisme inang, dengan teori bahwa sel lebih siap untuk menggunakannya. Tetapi strategi sederhana itu dapat menjadi bumerang. Jika sel terus melihat kodon yang sama untuk asam amino tertentu, sel tersebut dapat kekurangan molekul RNA transfer yang sesuai yang dibutuhkan untuk merakit protein, sehingga memperlambat produksi.

Tim MIT menginginkan pendekatan yang lebih bernuansa yang dapat menangkap konteks lengkap tentang bagaimana kodon disusun dalam gen sebenarnya.

Mereka beralih ke model bahasa besar encoder-decoder, jenis AI yang biasanya mempelajari pola dalam teks. Alih-alih memberinya kalimat, mereka melatihnya pada urutan asam amino dan urutan DNA yang sesuai untuk sekitar 5,000 protein yang K. phaffii secara alami menghasilkan, menggunakan basis data publik dari Pusat Informasi Bioteknologi Nasional.

“Model ini mempelajari sintaksis atau bahasa bagaimana kodon-kodon ini digunakan,” tambah Love. “Model ini memperhitungkan bagaimana kodon-kodon ditempatkan bersebelahan, dan juga hubungan jarak jauh di antara mereka.”

Setelah dilatih, model tersebut dapat mengambil urutan asam amino dari protein yang diinginkan dan mengusulkan urutan DNA untuk protein tersebut. K. phaffii yang seharusnya dapat memproduksinya secara efisien.

Mengalahkan perangkat lunak komersial dalam uji perbandingan langsung.

Untuk melihat seberapa baik sistem AI mereka bekerja, para peneliti memintanya untuk mendesain gen yang dioptimalkan kodon untuk enam protein berbeda, termasuk hormon pertumbuhan manusia, albumin serum manusia, dan trastuzumab, antibodi monoklonal yang digunakan untuk mengobati kanker.

Mereka juga menghasilkan sekuens DNA yang dioptimalkan untuk protein yang sama menggunakan empat alat optimasi kodon yang tersedia secara komersial yang mewakili strategi berbeda untuk memilih kodon.

“Kami memastikan untuk mencakup berbagai filosofi berbeda dalam melakukan optimasi kodon dan membandingkannya dengan pendekatan kami,” tambah penulis utama Harini Narayanan, mantan peneliti pascadoktoral MIT.

Tim tersebut kemudian memasukkan setiap versi dari setiap gen ke dalam K. phaffii Sel-sel tersebut kemudian diukur seberapa banyak protein target yang dihasilkan oleh ragi. Untuk lima dari enam protein, sekuens dari model MIT menghasilkan hasil tertinggi. Untuk protein yang tersisa, desain model tersebut berada di urutan kedua.

“Kami telah membandingkan pendekatan-pendekatan ini secara eksperimental dan menunjukkan bahwa pendekatan kami mengungguli pendekatan lainnya,” tambah Narayanan.

Selain peningkatan kinerja, Love menekankan potensi dampaknya terhadap seberapa cepat obat protein baru dapat beralih dari konsep ke produksi.

“Memiliki alat prediksi yang secara konsisten bekerja dengan baik sangat penting untuk membantu mempersingkat waktu dari munculnya ide hingga masuk ke tahap produksi. Menghilangkan ketidakpastian pada akhirnya menghemat waktu dan uang,” katanya.

Menemukan aturan biologis tersembunyi

K. phaffii, sebelumnya dikenal sebagai Pichia pastoris, sudah digunakan untuk membuat puluhan produk komersial, termasuk obat-obatan dan bahan makanan seperti hemoglobin. Hal itu menjadikannya titik awal yang tepat bagi tim MIT.

Namun, para peneliti juga ingin mengetahui apakah pendekatan mereka dapat digeneralisasikan ke spesies lain. Mereka melatih model serupa pada data genetik dari manusia, sapi, dan organisme lain. Setiap model menghasilkan prediksi kodon yang berbeda, menunjukkan bahwa model spesifik spesies diperlukan untuk mendapatkan hasil terbaik.

Ketika tim tersebut menyelidiki bagaimana model ragi tersebut membuat keputusannya, mereka menemukan bahwa model tersebut telah memahami prinsip-prinsip biologis nyata yang tidak pernah diprogram secara eksplisit ke dalamnya.

Sebagai contoh, model tersebut belajar untuk menghindari elemen DNA berulang tertentu yang dapat mengganggu ekspresi gen. Model tersebut juga tampaknya mengelompokkan asam amino berdasarkan sifat kimia seperti bagaimana mereka berinteraksi dengan air, yang mencerminkan aturan biofisik mendasar dari struktur protein.

“Tidak hanya mempelajari bahasa ini, tetapi juga mengontekstualisasikannya melalui aspek-aspek fitur biofisik dan biokimia, yang memberi kita keyakinan tambahan bahwa ia mempelajari sesuatu yang benar-benar bermakna dan bukan sekadar optimalisasi tugas yang kita berikan,” tambah Love.

Membuka kotak peralatan

Para peneliti di laboratorium Love telah mulai menggunakan model baru ini untuk mendesain gen untuk protein yang mereka inginkan. K. phaffii untuk diproduksi. Mereka juga telah merilis kode tersebut sehingga ilmuwan lain dapat mengadaptasinya untuk pekerjaan mereka sendiri. K. phaffii atau melatih model serupa untuk organisme yang berbeda.

Dalam jangka panjang, alat seperti ini dapat menjadi bagian dari alur kerja yang lebih luas berbasis AI untuk manufaktur produk biologis, membantu para ilmuwan beralih dari ide protein di atas kertas ke proses produksi yang kuat dengan lebih sedikit percobaan coba-coba.

Sumber: Massachusetts Institute of Technology