Theo tin tức từ Qubit vào ngày 20 tháng 2, công ty khởi nghiệp Groq của Mỹ đã phát hành chip đơn vị xử lý ngôn ngữ (LPU) với hiệu suất tăng tốc lý luận mô hình lớn tuyệt vời. Tốc độ suy luận của sản phẩm gần 500 mã thông báo mỗi giây và có thể đạt nhanh tới 750 mã thông báo mỗi giây. Groq được thành lập bởi các thành viên ban đầu của nhóm chip TPU của Google. 5 trong số 10 người trong ban lãnh đạo có kinh nghiệm làm việc tại Google và 3 người đã từng làm việc tại Intel. Chip LPU của hãng sử dụng tiến trình 14nm. Ưu điểm cốt lõi của nó là khắc phục hai điểm nghẽn trong suy luận mô hình ngôn ngữ lớn – mật độ tính toán và băng thông bộ nhớ. Nó được trang bị bộ nhớ SRAM 230 MB để đảm bảo băng thông bộ nhớ và băng thông bộ nhớ trên chip đạt 80TB/s. Tốc độ hoạt động của số nguyên (8 bit) là 750TOP và tốc độ hoạt động của dấu phẩy động (16 bit) là 188TFLOP. Chip LPU chủ yếu dựa trên kiến trúc TSP và kết hợp với thiết kế cấu trúc liên kết mạng Dragonfly để cải thiện khả năng và hiệu quả xử lý song song của hệ thống. Hiện tại, chip Groq LPU hỗ trợ suy luận các mẫu Mixtral 8x7B SMoE và Llama 2. Mục tiêu của LPUGroq là xây dựng phần cứng model lớn nhanh nhất, hy vọng sẽ vượt qua Nvidia trong vòng 3 năm.