Theo tài khoản công khai ScienceAI vào ngày 4 tháng 3, một nhóm nghiên cứu từ Đại học Oxford ở Anh đã phát triển mô hình ngôn ngữ CaLM dựa trên đào tạo codon. Mô hình này dựa trên mô hình ngôn ngữ protein được đào tạo về trình tự codon và có thể tạo ra các biểu diễn protein giàu thông tin để nắm bắt các đặc điểm sinh hóa quan trọng. Nó thực hiện tốt hơn các nhiệm vụ như nhận dạng loài, dự đoán protein và kiểu phiên mã so với những nhiệm vụ được huấn luyện về trình tự axit amin. Mô hình ngôn ngữ có lợi thế đáng kể. Nghiên cứu này cung cấp một kiến trúc mô hình đơn giản hơn và đưa ra một hướng đi có ý nghĩa cho nghiên cứu kỹ thuật protein chuyên sâu chẳng hạn như nghiên cứu các đặc tính điều tiết. Kết quả nghiên cứu liên quan đã được công bố trên tạp chí Nature Machine Intelligence.