3,5 triệu cuốn sách máy đã đọc nói lên điều gì về phụ nữ và nam giới
Học máy đã phân tích 3,5 triệu cuốn sách và đã tìm ra các tính từ gắn với phụ nữ có xu hướng mô tả ngoại hình, trong khi các tính từ gắn với nam giới lại thường liên quan đến hành vi.
“Xinh đẹp” và “gợi cảm” là hai tính từ được sử dụng nhiều nhất để miêu tả phụ nữ. Các tính từ mô tả thường dùng cho nam giới là “chính nghĩa”, “lý trí” và “can đảm”.
Nữ | Nam | ||||
Tích cực | Tiêu cực | Tích cực | Tiêu cực | ||
Xinh đẹp | Bị hành hạ | Công bằng | Không phù hợp | ||
Đáng yêu | Thiếu giáo dục | Tráng kiện | Không đáng tin cậy | ||
Trinh bạch | Khô cằn | Ngay thẳng | Lộn xộn, vô tổ chức | ||
Tuyệt mỹ | Đanh đá | Lý trí | Dính như hình với bóng | ||
Phúc hậu | Được bao bọc | Trầm tĩnh | Vũ phu | ||
Mỹ miều | Đau khổ | To lớn | Lười nhác | ||
Gợi cảm | Độc thân | Dũng cảm | Không khí giới | ||
Sành điệu | Suy dinh dưỡng | Nắm quyền tối cao | Bị thương/tổn thương | ||
Thanh tú | Thiếu cân | Đáng tin cậy | Mù quáng | ||
Lanh lợi | Nhẫn nhục | Vô tội | Không công bằng | ||
Sôi nổi | Cằn nhằn | Chính trực | Độc ác | ||
Cơ thể | Cảm giác | Khác | |||
Hành vi | Không gian | Tâm tính | |||
Bản chất | Số lượng | Xã hội | |||
“Chúng ta có thể thấy rõ ràng là các từ ngữ dành cho phụ nữ đề cập nhiều hơn hẳn đến ngoại hình của họ hơn là những từ dùng để mô tả nam giới. Nghiên cứu đã khẳng định một quan niệm rất phổ biến trên cơ sở dựa vào các con số thống kê”, Trợ lý giáo sư Isabelle Augenstein thuộc Khoa Khoa học máy tính của Đại học Copenhagen cho biết.
Các nhà nghiên cứu cũng phân tích các tính từ và động từ gắn với các danh từ thể hiện giới cụ thể (từ “daughter” – con gái và “stewardess” – nữ tiếp viên). Ví dụtrong những cụm từ như “Nữ tiếp viên gợi cảm” hay “chuyện đồn thổi của bọn con gái”. Sau đó họ phân tích xem các từ này có tình cảm mang tính tích cực, tiêu cực hay trung tính, sau đó lại phân loại các từ theo các tiêu chí ngữ nghĩa (semantic category) thành các nhóm như “hành vi”, “cơ thể”, “cảm giác” và “suy nghĩ”.
Trước đây, các nhà ngôn ngữ học thường nghiên cứu về vấn đề ngôn ngữ định kiến giới nhưng thường trên khối dữ liệu nhỏ hơn. Giờ đây, các nhà khoa học máy tính có thể sử dụng các thuật toán học máy để phân tích các kho dữ liệu khổng lồ và trong nghiên cứu này là11 tỷ từ. Qua phân tích, các nhà khoa học chứng minh rằng các động từ mang tính tiêu cực liên quan đến cơ thể và ngoại hình của phụ nữ xuất hiện nhiều gấp năm lần so với nam giới. Phân tích cũng cho thấy các tính từ tích cực và trung tính liên quan đến cơ thể và ngoại hình xuất hiện ở các mô tả phụ nữ gần gấp đôi so với mô tả nam giới và các tính từ mô tả nam thường liên quan đến hành vi và phẩm chất cá nhân của họ.
Giáo sư Augenstein cũng chỉ ra rằng mặc dù nhiều cuốn sách đã được xuất bản vài thập kỷ trước nhưng chúng vẫn đóng vai trò tích cực. Các thuật toán được sử dụng để tạo ra các thiết bị và ứng dụng có thể hiểu ngôn ngữ con người được nạp dữ liệu dưới dạng tài liệu văn bản sẵn có trực tuyến. Đây là công nghệ cho phép điện thoại thông minh nhận dạng giọng và cho phép Google đề xuất các từ khóa.
Tại sao tính từ quan trọng đến vậy?
“Các thuật toán hoạt động để xác định các mô hình và khi nào mô hình đó được nhận diện, máy sẽ ghi nhận điều đó là “thực tế”. Nếu bất kỳ mô hình nào thể hiện ngôn ngữ có tính định kiến thì kết quả cũng bị định kiến. có thể nói, hệ thống chấp nhận những ngôn ngữ mà con người sử dụng, nghĩa là những ngôn ngữ mang tính định kiến và khuôn mẫu giới” – Giáo sư Augenstein cho biết. Bà đưa ra ví dụ cho thấy tầm quan trọng của các tính từ: “nếu một công ty sử dụng hệ thống công nghệ tin học để phân loại các đơn xin việc thì nếu sử dụng ngôn ngữ khác nhau để mô tả nam giới và phụ nữ thì bản đề xuất chọn nhân viên sẽ ảnh hưởng đến việc nhân viên đó có được tuyển dụng hay không”
Khi trí tuệ nhân tạo và công nghệ ngôn ngữ trở nên phổ biến trong xã hội thì chúng ta rất cần ý thức được là ngôn ngữ mang tính giới rõ rệt.
Augenstein chia sẻ “Khi phát triển các mô hình học máy, chúng ta cần để ý đến vấn đề này bằng cách sử dụng các ngôn ngữ ít định kiếnhoặc buộc mô hình phải bỏ qua hoặc chống lại các định kiến. Cả 3 giải pháp này đều có thể làm được”.
Các nhà nghiên cứu cũng cho biết phân tích trong nghiên cứu này cũng có hạn chế, đó là không tính đến việc ai là tác giả của các đoạn văn cụ thể, sự khác biệt về mức độ định kiến còn phụ thuộc vào việc sách được xuất bản trong giai đoạn đầu hay cuối của khoảng thời gian nghiên cứu. Hơn nữa, máy móc không phân biệt các thể loại khác nhau, ví dụ giữa tiểu thuyết lãng mạn và tiểu thuyết phi hư cấu. Các nhà nghiên cứu sẽ tiếp tục tìm hiểu thêm các vấn đề này.
Additional coauthors of the study are from the University of Maryland, Google Research Johns Hopkins University, the University of Massachusetts Amherst, and Microsoft Research.
They presented a paper on the at the 2019 Annual Meeting of the Association for Computational Linguistics.
Đây là công trình nghiên cứu có sự tham gia của các đồng tác giả đến từ Đại học Maryland, Đại học Google Research Johns Hopkins University, Đại học Massachusetts Amherst và Trung tâm nghiên cứu Microsoft. Các tác giả đã trình bày báo cáo tại Hội nghị thường niên của Hiệp hội Ngôn ngữ máy tính năm 2019.