Theo tin tức của DefenseScoop vào ngày 20 tháng 2, Giám đốc Văn phòng Trí tuệ Nhân tạo và Kỹ thuật số (CDAO) của Bộ Quốc phòng Hoa Kỳ đã trao cho Scal AI một hợp đồng có thời hạn một năm để thiết kế một phương pháp đáng tin cậy nhằm kiểm tra và đánh giá trí tuệ nhân tạo. Mô hình ngôn ngữ Cần có AI quy mô để cung cấp khuôn khổ triển khai trí tuệ nhân tạo một cách an toàn để kiểm tra quân đội bằng cách đo lường hiệu suất của mô hình, cung cấp phản hồi theo thời gian thực cho chiến binh và tạo ra một bộ đánh giá khu vực công chuyên biệt.Sử dụng được hỗ trợCác mô hình AI, chẳng hạn như các mô hình được sử dụng để tổ chức báo cáo kết quả sau hành động. CDAO từ lâu đã dựa vào quy trình thử nghiệm và đánh giá (T&E) để đánh giá và đảm bảo rằng các hệ thống, nền tảng và công nghệ của mình hoạt động một cách an toàn và đáng tin cậy trước khi triển khai đầy đủ. Tuy nhiên, các tiêu chuẩn và chính sách an toàn AI vẫn chưa được xây dựng phổ biến, đồng thời sự phức tạp và không chắc chắn của các mô hình ngôn ngữ lớn khiến việc thử nghiệm và đánh giá AI tổng hợp trở nên phức tạp hơn. Thử nghiệm và đánh giá các mô hình trí tuệ nhân tạo có thể giúp xác định hiệu suất cơ bản của một mô hình cụ thể và giải quyết các vấn đề khác nhau trong trí tuệ nhân tạo tổng hợp.
Nguồn: https://defensescoop.com/2024/02/20/scale-ai-pentagon-testing-evaluating-large-lingu-models/