Google huấn luyện AI để... viết Wikipedia

Google huấn luyện AI để... viết Wikipedia
Theo: Tấn Minh Theo Trí Thức Trẻ
Thể loại: Khoa Học Công Nghệ
Một nhóm phát triển thuộc Google Brain - phòng nghiên cứu machine learning của Google - đã dạy AI cách viết các bài Wikipedia bằng cách tổng hợp thông tin từ các trang web, và đã đạt được những thành công nhất định.

Internet là một kho lưu trữ không giới hạn các bài báo, bài đăng trên mạng xã hội, meme, và các blog. Bạn không thể nào đọc hay theo dõi tất cả mọi thứ được. Việc sử dụng AI để xác định một chú chó hay mèo trong các bức hình là một ý tưởng thú vị, nhưng có bao giờ bạn nghĩ rằng sẽ tốt biết mấy nếu những AI đó biết cách tổng hợp và tóm tắt thông tin từ nhiều nguồn khác nhau thành những đoạn văn ngắn, giúp chúng ta dễ đọc và theo dõi hơn? Tất nhiên, việc này không dễ dàng chút nào.

Thật vậy, một bản báo cáo vừa được tung ra vào tháng trước đã miêu tả quá trình đầy khó khăn này. Các bạn có thể đọc nguyên văn tại đây.

Một vài công ty đã thử thực hiện điều này. Salesforce đã huấn luyện một mạng lưới thần kinh tái hồi sử dụng thuật toán học tăng cường để thu thập thông tin và kể lại chúng một cách tóm lược. Kết quả không tệ chút nào.

Tuy nhiên, các câu văn mà máy tính viết ra lại đơn giản và ngắn gọn. Chúng thiếu sự sáng tạo và vần điệu như các câu văn của con người. Nỗ lực mới nhất của Google Brain đã đạt được kết quả tốt hơn đôi chút: các câu văn đã dài hơn và đọc tự nhiên hơn.

Dưới đây là một ví dụ: ở bên phải bức hình là đoạn văn do con người viết về Wings over Kansas - một website về máy bay dành cho phi công và những người có cùng sở thích - được tìm thấy trên Wikipedia. Còn phía bên trái là đoạn văn do AI viết, với các thông tin được tổng hợp từ Internet.

Google huấn luyện AI để... viết Wikipedia - Ảnh 1.

Đoạn văn mà AI viết hơi khó đọc nếu không viết in hoa các chữ cái đầu câu, và hầu hết các câu văn đều có cấu trúc khá cứng nhắc. Tuy nhiên nhìn chung, đoạn văn vẫn có thể được đọc hiểu khá tốt, dù nội dung tóm tắt chưa thực sự là "tóm tắt" và vẫn dài hơn đoạn văn tương ứng trên Wikipedia.

AI này hoạt động bằng cách lấy thông tin từ top 10 website có liên quan đến chủ đề được đưa ra, ngoại trừ trang Wikipedia, hoặc lấy thông tin từ các đường dẫn trong mục tài liệu tham khảo của bài viết trên Wikipedia. Hầu hết các trang web được chọn được sử dụng vào việc huấn luyện, và một số trang khác được giữ lại để phát triển và kiểm tra hệ thống.

AI sẽ xếp hạng các đoạn văn từ mỗi trang, sau đó copy nội dung văn bản từ các trang này và đưa vào một tài liệu dài hơn, mã hoá và làm ngắn chúng lại theo phương thức tách chúng ra thành 32.000 từ riêng lẽ để làm "nguồn nguyên liệu" cho việc viết bài.

Những "nguyên liệu" này sau đó sẽ được đưa vào một bộ máy để cắt các câu dài thành các câu ngắn hơn. Đây là một "mánh" thông minh, vừa có thể ứng dụng để tạo lẫn tóm lược các đoạn văn bản. Các câu văn do AI tạo ra được lấy từ bước trích xuất nội dung trước đó và không phải xây dựng từ đầu, do đó dễ hiểu tại sao cấu trúc câu có vẻ lặp lại và cứng nhắc.

Google huấn luyện AI để... viết Wikipedia - Ảnh 2.

Mohammad Saleh - đồng tác giả bản báo cáo và là một kỹ sư phần mềm của nhóm Google AI cho biết: "Giai đoạn trích xuất giống như một chiếc cổ chai nhằm xác định phần nào của nội dung nhập vào có thể được chuyển sang giai đoạn 'trừu tượng hoá'. Nhóm chúng tôi muốn thu được mọi thông tin từ các tài liệu tham khảo".

"Thiết kế các hình mẫu và phần cứng có khả năng hỗ trợ các chuỗi nhập dài hơn hiện đang được chú trọng nghiên cứu nhằm loại bỏ mọi dưới hạn nêu trên".

Vẫn còn rất lâu nữa chúng ta mới thấy những nội dung tóm lược hiệu quả. Và dù dự án Google Brain khá thú vị, nhưng việc sử dụng một hệ thống như thế này để tự động tạo ra các bài viết Wikipedia thì quả là không sáng suốt.

Bên cạnh đó, AI này lệ thuộc vào độ phổ biến của 10 website đầu tiên trong kết quả tìm kiếm của Google, do đó nếu những trang như thế này đưa ra các thông tin không dáng tin cậy, thì việc viết bài sẽ không đạt tính chính xác cao được.

Tham khảo: TheRegister

Tham quan “khu chung cư” độc đáo tại Nam Phi, nơi cư dân sinh sống trong 140 container đầy đủ tiện nghi

tinybook tinybook 1 ngày 8 giờ
Tham quan “khu chung cư” độc đáo tại Nam Phi, nơi cư dân sinh sống trong 140 container đầy đủ tiện nghi
Nếu có dịp ghé qua khu chung cư Drivelines Studios độc đáo tại Nam Phi, bạn chắc chắn sẽ không khỏi ngạc nhiên vì kiến trúc đồ sộ và tính hữu ích của container trong việc cải tạo thành công trình nhà ở

Phát hiện hố thiên thạch rộng 31 km tại Greenland, tạo thành bởi một cục sắt nặng 10 tỉ tấn từ trên trời rơi xuống

tinybook tinybook 2 ngày 8 giờ
Phát hiện hố thiên thạch rộng 31 km tại Greenland, tạo thành bởi một cục sắt nặng 10 tỉ tấn từ trên trời rơi xuống
Hố thiên thạch mới được phát hiện lọt danh sách 25 hố lớn nhất Trái Đất, cùng lúc đó tự mình làm nên một danh sách mới: những hố thiên thạch được tìm thấy dưới một lớp băng.

Ngày mai, 1 kilogram sẽ không còn là 1 kilogram chúng ta từng biết nữa

tinybook tinybook 2 ngày 17 giờ
Ngày mai, 1 kilogram sẽ không còn là 1 kilogram chúng ta từng biết nữa
Đây được coi là sự kiện lịch sử của ngành khoa học: "một kilogram" sẽ thay đổi vĩnh viễn.

Sau 20 năm phân tích dữ liệu, các nhà khoa học phát hiện ra một "Siêu Trái Đất" cách ta chỉ 6 năm ánh sáng

tinybook tinybook 2 ngày 18 giờ
Sau 20 năm phân tích dữ liệu, các nhà khoa học phát hiện ra một "Siêu Trái Đất" cách ta chỉ 6 năm ánh sáng
"Siêu Trái Đất" Sao b của Hệ Sao Barnard là kết quả của nỗ lực nghiên cứu khổng lồ, dẫn đầu là nhà khoa học lão thành Ignasi Ribas.

Các nhà khoa học tạo ra thiết bị vừa hấp thu ánh sáng Mặt Trời để tạo điện, vừa bắn thẳng nhiệt thừa ra ngoài Vũ trụ

tinybook tinybook 3 ngày 8 giờ
Các nhà khoa học tạo ra thiết bị vừa hấp thu ánh sáng Mặt Trời để tạo điện, vừa bắn thẳng nhiệt thừa ra ngoài Vũ trụ
"Chúng tôi cùng nhau xây nên thiết bị đầu tiên, mong muốn một ngày nào đó nó sẽ vừa tạo ra năng lượng lại vừa tiết kiệm được năng lượng, cùng một chỗ, cùng một thời điểm, bằng cách điều khiển hai đặc tính rất riêng của ánh sáng", giáo sư Shanhui Fan, kĩ sư điện và tác giả của nghiên cứu mới phát biểu.

Liên Hợp Quốc: Tầng ozon sẽ phục hồi hoàn toàn vào năm 2060 nhưng cả thế giới vẫn cần chung tay, góp sức hơn nữa

tinybook tinybook 3 ngày 8 giờ
Liên Hợp Quốc: Tầng ozon sẽ phục hồi hoàn toàn vào năm 2060 nhưng cả thế giới vẫn cần chung tay, góp sức hơn nữa
Các nhà khoa học ước tính, tầng ozon ở Bắc Bán Cầu sẽ hồi phục trở lại trong hơn một thập kỷ tới và sau khoảng 30 năm tiếp theo, tầng ozon ở Nam Bán Cầu sẽ trở lại nguyên vẹn lại như xưa.

Khoa học chứng minh chỉ những người thông minh mới hay tắt báo thức 5 phút một lần rồi ngủ tiếp!

tinybook tinybook 3 ngày 14 giờ
Khoa học chứng minh chỉ những người thông minh mới hay tắt báo thức 5 phút một lần rồi ngủ tiếp!
Bạn có thể thông minh hơn, sáng tạo hơn và thậm chí hạnh phúc hơn những người cố gắng nhảy ngay xuống giường khi chuông báo thức vừa reo.

Đố tìm được ở đâu ngoài Trung Quốc: Chở hẳn một tòa nhà 5 tầng trên sông bằng tàu vận tải

tinybook tinybook 3 ngày 19 giờ
Đố tìm được ở đâu ngoài Trung Quốc: Chở hẳn một tòa nhà 5 tầng trên sông bằng tàu vận tải
Có thể bạn sẽ không tin nhưng chính xác thì bạn đang thấy cả một tòa nhà trôi lơ lửng trên sông ở Trung Quốc chứ không phải là hình ảnh hoặc video cắt ghép phi thực tế.

[Vietsub] Xin giới thiệu với bạn huyền thoại Stan Lee, diễn viên quần chúng nổi tiếng nhất mọi thời đại

tinybook tinybook 3 ngày 19 giờ
[Vietsub] Xin giới thiệu với bạn huyền thoại Stan Lee, diễn viên quần chúng nổi tiếng nhất mọi thời đại
Cụ Stan Lee đã đóng tròn vai ở Vũ trụ này, và có thể đang tung hoành tại một chân trời xa xôi nào khác.

Qualcomm có thể chính là kẻ đứng trong bóng tối để chơi xấu Apple

tinybook tinybook 1 ngày 14 giờ
Qualcomm có thể chính là kẻ đứng trong bóng tối để chơi xấu Apple
Hóa ra cuộc chiến giữa các công ty công nghệ không chỉ có bề nổi, mà còn có phần chìm đầy rối ren.

Facebook tiếp tục thay đổi thuật toán, giảm tương tác đối với các bài viết giật title câu view và nội dung khiêu gợi

tinybook tinybook 1 ngày 14 giờ
Facebook tiếp tục thay đổi thuật toán, giảm tương tác đối với các bài viết giật title câu view và nội dung khiêu gợi
Trong tuyên bố của Facebook, CEO Mark Zuckerberg cho biết người dùng tham gia tương tác rất nhiều với các bài viết giật title, mặc dù nội dung thực sự mang lại không có ý nghĩa gì hoặc là thông tin sai sự thật.

Mất người bạn thân trong một vụ tai nạn, hai anh chàng này đã xây dựng chatbot để giúp trò chuyện với người chết

tinybook tinybook 1 ngày 18 giờ
Mất người bạn thân trong một vụ tai nạn, hai anh chàng này đã xây dựng chatbot để giúp trò chuyện với người chết
Trò chuyện với người đã mất liệu rằng có phải ý tưởng hay?

Ngày 16/11 sẽ chuyển mạng giữ nguyên số, nhà mạng tự quy định mức phí chuyển đổi

tinybook tinybook 1 ngày 18 giờ
Ngày 16/11 sẽ chuyển mạng giữ nguyên số, nhà mạng tự quy định mức phí chuyển đổi
Ông Nguyễn Phong Nhã, Cục phó Cục Viễn thông cho biết, từ ngày 16/11/2018 các nhà mạng sẽ chính thức cung cấp dịch vụ chuyển mạng giữ nguyên số cho các thuê bao trả sau. Mức phí chuyển mạng giữ nguyên số do nhà mạng tự quy định.

Google Maps được tích hợp thêm tính năng chat, khiến cho ứng dụng bản đồ này quá tải

tinybook tinybook 1 ngày 19 giờ
Google Maps được tích hợp thêm tính năng chat, khiến cho ứng dụng bản đồ này quá tải
Google Maps ngày càng giống Facebook, với quá nhiều tính năng mà hầu hết bạn không thể nhớ.

Các sản phẩm dành cho doanh nghiệp của Microsoft đang ngấm ngầm thu thập dữ liệu cá nhân người dùng

tinybook tinybook 1 ngày 20 giờ
Các sản phẩm dành cho doanh nghiệp của Microsoft đang ngấm ngầm thu thập dữ liệu cá nhân người dùng
Microsoft thu thập và lưu trữ dữ liệu cá nhân về hành vi của từng người dùng các sản phẩm dành cho doanh nghiệp trên diện rộng, trong khi không có bất kỳ tài liệu công khai nào nhắc đến vấn đề này cả.

Công ty từng được coi là "Facebook của Trung Quốc" vừa phải bán mình với giá chỉ 60 triệu USD

tinybook tinybook 1 ngày 20 giờ
Công ty từng được coi là "Facebook của Trung Quốc" vừa phải bán mình với giá chỉ 60 triệu USD
Hồi tháng 3 năm nay, mạng xã hội Renren tại Trung Quốc chỉ có 31 triệu người dùng hàng tháng.

"X-File ở Romania": Hoang mang tột độ với đoạn video khó hiểu và kỳ bí nhất Quý IV năm 2018

tinybook tinybook 2 ngày 7 giờ
"X-File ở Romania": Hoang mang tột độ với đoạn video khó hiểu và kỳ bí nhất Quý IV năm 2018
Xem xong đoạn video trích xuất từ camera an ninh này, bạn sẽ đặt ra nghìn lẻ một câu hỏi vì sao...

Các nhà nghiên cứu đã đánh bại được những chương trình chặn quảng cáo mạnh mẽ nhất hiện nay

tinybook tinybook 2 ngày 8 giờ
Các nhà nghiên cứu đã đánh bại được những chương trình chặn quảng cáo mạnh mẽ nhất hiện nay
Các trình chặn quảng cáo đang rơi vào thế bất lợi trong cuộc chiến với các công ty quảng cáo Internet, gián tiếp đẩy người dùng "hứng mũi chịu sào" trước một loạt các hình thức tấn công mới.

"Toxic" được Oxford Dictionary bình chọn là từ ngữ của năm 2018

tinybook tinybook 2 ngày 13 giờ
"Toxic" được Oxford Dictionary bình chọn là từ ngữ của năm 2018
2018 là một năm "toxic", chúng ta biết và Nhà xuất bản Đại học Oxford cũng biết điều đó.

Ngành công nghiệp taxi Nhật Bản đẩy lùi cơn bão Uber như thế nào?

tinybook tinybook 2 ngày 16 giờ
Ngành công nghiệp taxi Nhật Bản đẩy lùi cơn bão Uber như thế nào?
Sự cạnh tranh đòi hỏi các công ty taxi truyền thống Nhật Bản hình thành một liên minh, báo chí nước này dẫn lời một quan chức trong ngành công nghiệp taxi.

Microsoft chính thức phát hành lại Windows 10 October Update (1809), link tải có trong bài

tinybook tinybook 2 ngày 18 giờ
Microsoft chính thức phát hành lại Windows 10 October Update (1809), link tải có trong bài
Dù bản cập nhật tháng 10 gặp lỗi song không ít người dùng đã kịp "lên đời" và cảm thấy vô cùng thích thú với tính năng "Dark Them" hay công cụ chụp màn hình Snip & Sketch của Windows 10 1809.

Mark Zuckerberg cấm các giám đốc cấp cao của Facebook sử dụng iPhone, nguyên nhân là do Tim Cook

tinybook tinybook 2 ngày 19 giờ
Mark Zuckerberg cấm các giám đốc cấp cao của Facebook sử dụng iPhone, nguyên nhân là do Tim Cook
CEO Tim Cook của Apple và CEO Mark Zuckerberg của Facebook có vẻ như không ưa gì nhau.

Ông Nguyễn Tử Quảng: Chỉ cần 5 doanh nghiệp công nghệ mũi nhọn đóng vai trò dẫn dắt, Việt Nam sẽ thực sự phát triển nhờ khoa học công nghệ!

tinybook tinybook 3 ngày 12 giờ
Ông Nguyễn Tử Quảng: Chỉ cần 5 doanh nghiệp công nghệ mũi nhọn đóng vai trò dẫn dắt, Việt Nam sẽ thực sự phát triển nhờ khoa học công nghệ!
CEO BKAV đánh giá tình hình phát triển công nghệ ở Việt Nam dù còn nhiều khó khăn, nhưng nếu vận dụng đúng cách, các doanh nghiệp trong nước có thể cạnh tranh với các tập đoàn hàng đầu thế giới.

Người đàn ông Hokkaido bị bắt vì "đến thăm" trung tâm mua sắm Aeon 2,7 triệu lần bằng GPS fake

tinybook tinybook 3 ngày 17 giờ
Người đàn ông Hokkaido bị bắt vì "đến thăm" trung tâm mua sắm Aeon 2,7 triệu lần bằng GPS fake
Cái giá của việc khai thác lỗ hổng một cách quá đà để nhận quà miễn phí.

Ứng dụng web mới của Google giúp bạn nén ảnh kích thước lớn mà không làm giảm quá nhiều chất lượng

tinybook tinybook 3 ngày 18 giờ
Ứng dụng web mới của Google giúp bạn nén ảnh kích thước lớn mà không làm giảm quá nhiều chất lượng
Squoosh thực sự là một ứng dụng web hữu ích mà bạn nên bookmark.

Jack Ma trở thành thần Tài hiện đại của Trung Quốc, được dân thờ cúng như thật!

tinybook tinybook 3 ngày 18 giờ
Jack Ma trở thành thần Tài hiện đại của Trung Quốc, được dân thờ cúng như thật!
Theo một nghiên cứu của City University of Hong Kong thì: Việc thờ phụng người nổi tiếng là một hiện tượng tất yếu trong xã hội, người trẻ tuổi có xu hướng hâm mộ các nhân vật liên quan đến ngành giải trí, sau khi ra trường họ sẽ chú ý tới những tấm gương thành công trong sự nghiệp.

Facebook Messenger quay trở lại giao diện cũ, sau ít giờ thử nghiệm giao diện mới

tinybook tinybook 3 ngày 19 giờ
Facebook Messenger quay trở lại giao diện cũ, sau ít giờ thử nghiệm giao diện mới
Facebook âm thầm cập nhật lại giao diện cũ cho ứng dụng Messenger mà không rõ lý do.

Giữa lúc tranh chấp pháp lý chưa có hồi kết, Apple đang lên kế hoạch "săn trộm" nhân viên Qualcomm

tinybook tinybook 1 ngày 12 giờ
Giữa lúc tranh chấp pháp lý chưa có hồi kết, Apple đang lên kế hoạch "săn trộm" nhân viên Qualcomm
Sau khi ngừng sử dụng modem kết nối di động của Qualcomm trong các mẫu iPhone mới, "Táo khuyết" tiếp tục muốn gây khó khăn cho hãng sản xuất chip của Mỹ bằng cách lôi kéo nhân viên của họ.

Jeff Bezos trải lòng với nhân viên: "Amazon sớm muộn cũng phá sản, việc của chúng ta là trì hoãn điều này càng lâu càng tốt"

tinybook tinybook 1 ngày 14 giờ
Jeff Bezos trải lòng với nhân viên: "Amazon sớm muộn cũng phá sản, việc của chúng ta là trì hoãn điều này càng lâu càng tốt"
Jeff Bezos trải lòng với nhân viên: "Amazon sớm muộn cũng phá sản, việc của chúng ta là trì hoãn điều này càng lâu càng tốt"

Kế hoạch Thiên hà Vệ tinh của SpaceX được FCC chấp thuận, 7.518 vệ tinh sẽ được phóng từ năm tới

tinybook tinybook 1 ngày 15 giờ
Kế hoạch Thiên hà Vệ tinh của SpaceX được FCC chấp thuận, 7.518 vệ tinh sẽ được phóng từ năm tới
Với số lượng vệ tinh bổ sung này, SpaceX sẽ có trong tay khoảng 10.000 vệ tinh, nhiều hơn bất cứ công ty nào khác, để mang internet tới các vùng xa xôi.
tinybook Công Nghệ Thông Tin








Chat