Cổng Thông Tin Hội Liên hiệp Phụ nữ Việt Nam

Học máy đã phân tích 3,5 triệu cuốn sách và đã tìm ra các tính từ gắn với phụ nữ có xu hướng mô tả ngoại hình, trong khi các tính từ gắn với nam giới lại thường liên quan đến hành vi.

“Xinh đẹp” và “gợi cảm” là hai tính từ được sử dụng nhiều nhất để miêu tả phụ nữ. Các tính từ mô tả thường dùng cho nam giới là “chính nghĩa”, “lý trí” và “can đảm”.

Nữ			Nam
Tích cực	Tiêu cực		Tích cực		Tiêu cực
Xinh đẹp	Bị hành hạ		Công bằng		Không phù hợp
Đáng yêu	Thiếu giáo dục		Tráng kiện		Không đáng tin cậy
Trinh bạch	Khô cằn		Ngay thẳng		Lộn xộn, vô tổ chức
Tuyệt mỹ	Đanh đá		Lý trí		Dính như hình với bóng
Phúc hậu	Được bao bọc		Trầm tĩnh		Vũ phu
Mỹ miều	Đau khổ		To lớn		Lười nhác
Gợi cảm	Độc thân		Dũng cảm		Không khí giới
Sành điệu	Suy dinh dưỡng		Nắm quyền tối cao		Bị thương/tổn thương
Thanh tú	Thiếu cân		Đáng tin cậy		Mù quáng
Lanh lợi	Nhẫn nhục		Vô tội		Không công bằng
Sôi nổi	Cằn nhằn		Chính trực		Độc ác
Cơ thể		Cảm giác		Khác
Hành vi		Không gian		Tâm tính
Bản chất		Số lượng		Xã hội

“Chúng ta có thể thấy rõ ràng là các từ ngữ dành cho phụ nữ đề cập nhiều hơn hẳn đến ngoại hình của họ hơn là những từ dùng để mô tả nam giới. Nghiên cứu đã khẳng định một quan niệm rất phổ biến trên cơ sở dựa vào các con số thống kê”, Trợ lý giáo sư Isabelle Augenstein thuộc Khoa Khoa học máy tính của Đại học Copenhagen cho biết.

Các nhà nghiên cứu cũng phân tích các tính từ và động từ gắn với các danh từ thể hiện giới cụ thể (từ “daughter” – con gái và “stewardess” – nữ tiếp viên). Ví dụtrong những cụm từ như “Nữ tiếp viên gợi cảm” hay “chuyện đồn thổi của bọn con gái”. Sau đó họ phân tích xem các từ này có tình cảm mang tính tích cực, tiêu cực hay trung tính, sau đó lại phân loại các từ theo các tiêu chí ngữ nghĩa (semantic category) thành các nhóm như “hành vi”, “cơ thể”, “cảm giác” và “suy nghĩ”.

Trước đây, các nhà ngôn ngữ học thường nghiên cứu về vấn đề ngôn ngữ định kiến giới nhưng thường trên khối dữ liệu nhỏ hơn. Giờ đây, các nhà khoa học máy tính có thể sử dụng các thuật toán học máy để phân tích các kho dữ liệu khổng lồ và trong nghiên cứu này là11 tỷ từ. Qua phân tích, các nhà khoa học chứng minh rằng các động từ mang tính tiêu cực liên quan đến cơ thể và ngoại hình của phụ nữ xuất hiện nhiều gấp năm lần so với nam giới. Phân tích cũng cho thấy các tính từ tích cực và trung tính liên quan đến cơ thể và ngoại hình xuất hiện ở các mô tả phụ nữ gần gấp đôi so với mô tả nam giới và các tính từ mô tả nam thường liên quan đến hành vi và phẩm chất cá nhân của họ.

Giáo sư Augenstein cũng chỉ ra rằng mặc dù nhiều cuốn sách đã được xuất bản vài thập kỷ trước nhưng chúng vẫn đóng vai trò tích cực. Các thuật toán được sử dụng để tạo ra các thiết bị và ứng dụng có thể hiểu ngôn ngữ con người được nạp dữ liệu dưới dạng tài liệu văn bản sẵn có trực tuyến. Đây là công nghệ cho phép điện thoại thông minh nhận dạng giọng và cho phép Google đề xuất các từ khóa.

Tại sao tính từ quan trọng đến vậy?

“Các thuật toán hoạt động để xác định các mô hình và khi nào mô hình đó được nhận diện, máy sẽ ghi nhận điều đó là “thực tế”. Nếu bất kỳ mô hình nào thể hiện ngôn ngữ có tính định kiến thì kết quả cũng bị định kiến. có thể nói, hệ thống chấp nhận những ngôn ngữ mà con người sử dụng, nghĩa là những ngôn ngữ mang tính định kiến và khuôn mẫu giới” – Giáo sư Augenstein cho biết. Bà đưa ra ví dụ cho thấy tầm quan trọng của các tính từ: “nếu một công ty sử dụng hệ thống công nghệ tin học để phân loại các đơn xin việc thì nếu sử dụng ngôn ngữ khác nhau để mô tả nam giới và phụ nữ thì bản đề xuất chọn nhân viên sẽ ảnh hưởng đến việc nhân viên đó có được tuyển dụng hay không”

Khi trí tuệ nhân tạo và công nghệ ngôn ngữ trở nên phổ biến trong xã hội thì chúng ta rất cần ý thức được là ngôn ngữ mang tính giới rõ rệt.

Augenstein chia sẻ “Khi phát triển các mô hình học máy, chúng ta cần để ý đến vấn đề này bằng cách sử dụng các ngôn ngữ ít định kiếnhoặc buộc mô hình phải bỏ qua hoặc chống lại các định kiến. Cả 3 giải pháp này đều có thể làm được”.

Các nhà nghiên cứu cũng cho biết phân tích trong nghiên cứu này cũng có hạn chế, đó là không tính đến việc ai là tác giả của các đoạn văn cụ thể, sự khác biệt về mức độ định kiến còn phụ thuộc vào việc sách được xuất bản trong giai đoạn đầu hay cuối của khoảng thời gian nghiên cứu. Hơn nữa, máy móc không phân biệt các thể loại khác nhau, ví dụ giữa tiểu thuyết lãng mạn và tiểu thuyết phi hư cấu. Các nhà nghiên cứu sẽ tiếp tục tìm hiểu thêm các vấn đề này.

Additional coauthors of the study are from the University of Maryland, Google Research Johns Hopkins University, the University of Massachusetts Amherst, and Microsoft Research.

They presented a paper on the at the 2019 Annual Meeting of the Association for Computational Linguistics.

Đây là công trình nghiên cứu có sự tham gia của các đồng tác giả đến từ Đại học Maryland, Đại học Google Research Johns Hopkins University, Đại học Massachusetts Amherst và Trung tâm nghiên cứu Microsoft. Các tác giả đã trình bày báo cáo tại Hội nghị thường niên của Hiệp hội Ngôn ngữ máy tính năm 2019.

Đọc và suy ngẫm!

3,5 triệu cuốn sách máy đã đọc nói lên điều gì về phụ nữ và nam giới

TÂM ĐIỂM

Đoàn công tác Trung ương Hội LHPN Việt Nam thăm và làm việc với Phái đoàn Việt Nam tại Liên hợp quốc

CÁC ĐỀ ÁN

Hội LHPN tỉnh Yên Bái thăm hỏi, hỗ trợ gia đình các nạn nhân trong vụ tai nạn 7 người tử vong

VĂN BẢN HỘI

Video

THƯ VIỆN HÌNH ẢNH

Liên kết Website

3,5 triệu cuốn sách máy đã đọc nói lên điều gì về phụ nữ và nam giới

Tin tức cùng chuyên mục

Liên kết Website