Các nhà khoa học Nhật Bản đã phát hiện ra rằng trí tuệ nhân tạo có khả năng phát triển theo hướng ích kỷ hơn hoặc ngược lại, hướng tới các tác nhân vị tha hợp tác. Kết quả nghiên cứu được phát hành trên tạp chí Báo cáo khoa học.
Thí nghiệm sử dụng các mô hình ngôn ngữ quy mô lớn chơi trò Thế lưỡng nan của tù nhân. Nếu cả hai hệ thống AI hợp tác, mỗi hệ thống sẽ nhận được bốn đô la ảo. Tuy nhiên, nếu một trong số họ từ chối hợp tác và người kia hợp tác, thì người đầu tiên sẽ nhận được 5 đô la và người thứ hai sẽ không nhận được gì. Nếu cả hai đều từ chối, mỗi người sẽ nhận được một đô la.
Các nhà nghiên cứu đã phát triển một mô hình lý thuyết trò chơi tiến hóa sử dụng các mô tả ngôn ngữ về đặc điểm tính cách AI liên quan đến hành vi hợp tác dưới dạng gen. Trong các mô hình thông thường, gen trực tiếp xác định hành vi của tác nhân, nhưng trong trường hợp này, những mô tả phức tạp hơn đã được sử dụng, chẳng hạn như “cởi mở với nỗ lực của nhóm trong khi ưu tiên lợi ích cá nhân, dẫn đến sự kết hợp giữa hợp tác và phản bội.”
Khả năng của các tác nhân AI đã được định hình bởi chọn lọc tự nhiên và đột biến qua nhiều thế hệ. Điều này đã dẫn đến sự xuất hiện của một loạt các đặc điểm tính cách. Trong khi một số tác nhân thể hiện những đặc điểm ích kỷ, đặt lợi ích của riêng họ lên trên lợi ích của cộng đồng hoặc nhóm nói chung, thì các tác nhân khác lại thể hiện các chiến lược tiên tiến xoay quanh việc tìm kiếm lợi ích cá nhân đồng thời xem xét lợi ích chung và tập thể.
Động lực của các đặc điểm tính cách hợp tác và ích kỷ của AI giống với đặc điểm của xã hội loài người. Tuy nhiên, các tác giả lưu ý rằng họ đã quan sát thấy sự bất ổn vốn có trong cộng đồng AI, với việc các nhóm hợp tác quá mức được thay thế bằng các tác nhân “tự cho mình là trung tâm” hơn.