Theo AIbase vào ngày 7 tháng 8, Meta, một công ty của Hoa Kỳ, đã ra mắt “Self-Taught Evaluator” để đào tạo trí tuệ nhân tạo bằng dữ liệu tổng hợp. Đầu tiên, nó tạo ra các cặp sở thích tổng hợp tương phản thông qua một mô hình hạt giống, sau đó mô hình đánh giá các cặp này và cải thiện chúng theo từng lần lặp, sử dụng phán đoán của riêng mình để cải thiện hiệu suất của các lần lặp tiếp theo, do đó giảm đáng kể sự phụ thuộc vào các chú thích được tạo thủ công, giúp cải thiện hiệu quả và giảm chi phí. Các nhà nghiên cứu đã kiểm tra hiệu suất của “Self-Taught Evaluator” bằng mô hình Llama-3-70B-Instruct. Phương pháp này đã tăng độ chính xác của mô hình trên điểm chuẩn RewardBench từ 75,4% lên 88,7%.