Google huấn luyện AI để... viết Wikipedia

Google huấn luyện AI để... viết Wikipedia
Theo: Tấn Minh Theo Trí Thức Trẻ
Thể loại: Khoa Học Công Nghệ
Một nhóm phát triển thuộc Google Brain - phòng nghiên cứu machine learning của Google - đã dạy AI cách viết các bài Wikipedia bằng cách tổng hợp thông tin từ các trang web, và đã đạt được những thành công nhất định.

Internet là một kho lưu trữ không giới hạn các bài báo, bài đăng trên mạng xã hội, meme, và các blog. Bạn không thể nào đọc hay theo dõi tất cả mọi thứ được. Việc sử dụng AI để xác định một chú chó hay mèo trong các bức hình là một ý tưởng thú vị, nhưng có bao giờ bạn nghĩ rằng sẽ tốt biết mấy nếu những AI đó biết cách tổng hợp và tóm tắt thông tin từ nhiều nguồn khác nhau thành những đoạn văn ngắn, giúp chúng ta dễ đọc và theo dõi hơn? Tất nhiên, việc này không dễ dàng chút nào.

Thật vậy, một bản báo cáo vừa được tung ra vào tháng trước đã miêu tả quá trình đầy khó khăn này. Các bạn có thể đọc nguyên văn tại đây.

Một vài công ty đã thử thực hiện điều này. Salesforce đã huấn luyện một mạng lưới thần kinh tái hồi sử dụng thuật toán học tăng cường để thu thập thông tin và kể lại chúng một cách tóm lược. Kết quả không tệ chút nào.

Tuy nhiên, các câu văn mà máy tính viết ra lại đơn giản và ngắn gọn. Chúng thiếu sự sáng tạo và vần điệu như các câu văn của con người. Nỗ lực mới nhất của Google Brain đã đạt được kết quả tốt hơn đôi chút: các câu văn đã dài hơn và đọc tự nhiên hơn.

Dưới đây là một ví dụ: ở bên phải bức hình là đoạn văn do con người viết về Wings over Kansas - một website về máy bay dành cho phi công và những người có cùng sở thích - được tìm thấy trên Wikipedia. Còn phía bên trái là đoạn văn do AI viết, với các thông tin được tổng hợp từ Internet.

Google huấn luyện AI để... viết Wikipedia - Ảnh 1.

Đoạn văn mà AI viết hơi khó đọc nếu không viết in hoa các chữ cái đầu câu, và hầu hết các câu văn đều có cấu trúc khá cứng nhắc. Tuy nhiên nhìn chung, đoạn văn vẫn có thể được đọc hiểu khá tốt, dù nội dung tóm tắt chưa thực sự là "tóm tắt" và vẫn dài hơn đoạn văn tương ứng trên Wikipedia.

AI này hoạt động bằng cách lấy thông tin từ top 10 website có liên quan đến chủ đề được đưa ra, ngoại trừ trang Wikipedia, hoặc lấy thông tin từ các đường dẫn trong mục tài liệu tham khảo của bài viết trên Wikipedia. Hầu hết các trang web được chọn được sử dụng vào việc huấn luyện, và một số trang khác được giữ lại để phát triển và kiểm tra hệ thống.

AI sẽ xếp hạng các đoạn văn từ mỗi trang, sau đó copy nội dung văn bản từ các trang này và đưa vào một tài liệu dài hơn, mã hoá và làm ngắn chúng lại theo phương thức tách chúng ra thành 32.000 từ riêng lẽ để làm "nguồn nguyên liệu" cho việc viết bài.

Những "nguyên liệu" này sau đó sẽ được đưa vào một bộ máy để cắt các câu dài thành các câu ngắn hơn. Đây là một "mánh" thông minh, vừa có thể ứng dụng để tạo lẫn tóm lược các đoạn văn bản. Các câu văn do AI tạo ra được lấy từ bước trích xuất nội dung trước đó và không phải xây dựng từ đầu, do đó dễ hiểu tại sao cấu trúc câu có vẻ lặp lại và cứng nhắc.

Google huấn luyện AI để... viết Wikipedia - Ảnh 2.

Mohammad Saleh - đồng tác giả bản báo cáo và là một kỹ sư phần mềm của nhóm Google AI cho biết: "Giai đoạn trích xuất giống như một chiếc cổ chai nhằm xác định phần nào của nội dung nhập vào có thể được chuyển sang giai đoạn 'trừu tượng hoá'. Nhóm chúng tôi muốn thu được mọi thông tin từ các tài liệu tham khảo".

"Thiết kế các hình mẫu và phần cứng có khả năng hỗ trợ các chuỗi nhập dài hơn hiện đang được chú trọng nghiên cứu nhằm loại bỏ mọi dưới hạn nêu trên".

Vẫn còn rất lâu nữa chúng ta mới thấy những nội dung tóm lược hiệu quả. Và dù dự án Google Brain khá thú vị, nhưng việc sử dụng một hệ thống như thế này để tự động tạo ra các bài viết Wikipedia thì quả là không sáng suốt.

Bên cạnh đó, AI này lệ thuộc vào độ phổ biến của 10 website đầu tiên trong kết quả tìm kiếm của Google, do đó nếu những trang như thế này đưa ra các thông tin không dáng tin cậy, thì việc viết bài sẽ không đạt tính chính xác cao được.

Tham khảo: TheRegister

10 sự thật ngỡ ngàng về động vật ở Bắc Cực mà không phải ai cũng biết

tinybook tinybook 3 ngày 6 giờ
10 sự thật ngỡ ngàng về động vật ở Bắc Cực mà không phải ai cũng biết
Mặc dù có khí hậu khắc nghiệt, thế nhưng Bắc Cực lại là ngôi nhà của vô số các loài sinh vật lớn nhỏ, và đây là những sự thật về chúng sẽ khiến bạn phải bất ngờ.

Nếu Apple sản xuất xe hơi, nó sẽ được tạo ra như thế này

tinybook tinybook 3 ngày 8 giờ
Nếu Apple sản xuất xe hơi, nó sẽ được tạo ra như thế này
Tin đồn từ nhiều năm trước cho rằng Apple đang sản xuất chiếc xe hơi của riêng mình, một phương tiện được kỳ vọng sẽ thay đổi ngành công nghiệp xe hơi như cách iPhone đã thay đổi ngành công nghiệp di động.

Đây là chiếc thuyền tự lái có khả năng kiêm luôn vai trò của những cây cầu

tinybook tinybook 3 ngày 8 giờ
Đây là chiếc thuyền tự lái có khả năng kiêm luôn vai trò của những cây cầu
Nhờ in 3D, việc sản xuất các loại chi giả, các bộ phận EV nhỏ nhẹ, và thậm chí cả du hành không gian đều được hưởng lợi từ các sản phẩm giá rẻ.

Các nhà khoa học cho rằng sự sống ngoài Trái Đất có thể tồn tại trên 8 mặt trăng chứa những đại dương ngầm rộng lớn này

tinybook tinybook 3 ngày 19 giờ
Các nhà khoa học cho rằng sự sống ngoài Trái Đất có thể tồn tại trên 8 mặt trăng chứa những đại dương ngầm rộng lớn này
Một số tiểu hành tinh này thậm chí còn có thể tích nước vượt trội hoàn toàn so với Trái Đất của chúng ta dù kích thước bé hơn rất nhiều.

Thói quen ngủ nướng vào cuối tuần hóa ra đem lại tác dụng có lợi không tưởng

tinybook tinybook 4 ngày 1 giờ
Thói quen ngủ nướng vào cuối tuần hóa ra đem lại tác dụng có lợi không tưởng
Nhiều nhà khoa học tin rằng việc ngủ nướng vào cuối tuần là có hại. Nhưng nghiên cứu từ ĐH Thụy Điển mới đây thì khác.

Đã có hơn 100.000 người cùng chơi một trò chơi điện tử nhằm chứng minh Einstein đã sai, họ vừa làm được vừa không làm được

tinybook tinybook 5 ngày 21 giờ
Đã có hơn 100.000 người cùng chơi một trò chơi điện tử nhằm chứng minh Einstein đã sai, họ vừa làm được vừa không làm được
Rối lượng tử - đúng như cái tên của nó - rất rối rắm và lằng nhằng.

Các nhà khoa học Đức thử nghiệm động cơ không tưởng EM Drive, thứ có thể đưa loài người sang những thiên hà khác

tinybook tinybook 6 ngày 5 giờ
Các nhà khoa học Đức thử nghiệm động cơ không tưởng EM Drive, thứ có thể đưa loài người sang những thiên hà khác
Đây là công sức 4 năm nghiên cứu của người Đức, vừa mới được công bố đầu tuần này tại một hội nghị tại Pháp.

Hãi hùng ngắm nhìn "mồ chôn tập thể" của hàng triệu chiếc xe đạp tại Trung Quốc

tinybook tinybook 6 ngày 8 giờ
Hãi hùng ngắm nhìn "mồ chôn tập thể" của hàng triệu chiếc xe đạp tại Trung Quốc
Ở Trung Quốc có những nơi khiến người xem không khỏi rùng mình vì cảnh tượng “mồ chôn” tập thể của hàng triệu chiếc xe đạp không ai dùng đến.

Đây là con cá mập với đầu rắn và 300 chiếc răng sắc nhọn mà bạn chỉ có thể gặp trong ác mộng

tinybook tinybook 6 ngày 9 giờ
Đây là con cá mập với đầu rắn và 300 chiếc răng sắc nhọn mà bạn chỉ có thể gặp trong ác mộng
Có lẽ đã đến lúc loài người chúng ta đánh giá lại mối quan hệ giữa mình với các đại dương.

Microsoft muốn thực hiện một cuộc cách mạng trong y học, sử dụng máy tính lượng tử để thay đổi công nghệ chụp cộng hưởng từ MRI

tinybook tinybook 1 tuần 7 giờ
Microsoft muốn thực hiện một cuộc cách mạng trong y học, sử dụng máy tính lượng tử để thay đổi công nghệ chụp cộng hưởng từ MRI
Chưa dừng lại ở đó, Microsoft còn hy vọng có thể sử dụng kính thực tế tăng cường HoloLens để hiển thị các hình ảnh trực tiếp dưới dạng 3D.

Phát hiện ra sáu con sóc bị buộc đuôi vào nhau, giống hệt với huyền thoại Rat King - Vua Chuột trong lịch sử loài người

tinybook tinybook 1 tuần 21 giờ
Phát hiện ra sáu con sóc bị buộc đuôi vào nhau, giống hệt với huyền thoại Rat King - Vua Chuột trong lịch sử loài người
Tưởng chừng Rat King chỉ là huyền thoại, hóa ra là nó có thật.

Chất liệu nylon đã thay đổi ngành công nghiệp sneakers như thế nào?

tinybook tinybook 1 tuần 1 ngày
Chất liệu nylon đã thay đổi ngành công nghiệp sneakers như thế nào?
Năm 1935, một nhóm các nhà khoa học tại Dupont đã khám phá ra thứ sẽ thay đổi thế giới sneakers. Được dẫn dắt bởi Wallace Carothers, nhóm nghiên cứu đã tìm ra loại nhựa polymer bằng cách kết hợp hexamethylenediamine và axit adipic. Họ đặt tên nó là "fibre 6-6" - tiền thân của nylon.

Muốn biết được các AI đang nghĩ gì ư? Hãy để chúng cãi nhau

tinybook tinybook 1 tuần 1 ngày
Muốn biết được các AI đang nghĩ gì ư? Hãy để chúng cãi nhau
Dù có được một số thành công ban đầu, nhưng các chương trình AI này mới chỉ thành công ở mức rất sơ khai, và còn xa mới có khả năng tạo ra một hệ thống có thể đánh lừa con người.

Sự thực: Hà Mã đi nặng nhiều quá, cá dưới sông chết hết

tinybook tinybook 1 tuần 1 ngày
Sự thực: Hà Mã đi nặng nhiều quá, cá dưới sông chết hết
Cá chết đuối luôn trong làn nước chính vì những con hà mã to lớn, ăn lắm ị nhiều kia.

Chết cười với điều khoản sử dụng súng phun lửa vô cùng hài hước của Elon Musk

tinybook tinybook 1 tuần 2 ngày
Chết cười với điều khoản sử dụng súng phun lửa vô cùng hài hước của Elon Musk
Súng phun lửa Not-A-Flamethrower của Elon Musk vốn là một sản phẩm vô cùng độc đáo, chính vì vậy mà những gì liên quan đến nó cũng quả là "có một không hai".

Elon Musk của Trung Quốc phóng thành công quả tên lửa đầu tiên

tinybook tinybook 1 tuần 3 ngày
Elon Musk của Trung Quốc phóng thành công quả tên lửa đầu tiên
Một dấu mốc quan trọng trong ngành tên lửa vũ trụ tại Trung Quốc.

Nữ sinh đang phải nằm viện khiến cả trường bất ngờ khi dự lễ tốt nghiệp bằng robot

tinybook tinybook 1 tuần 3 ngày
Nữ sinh đang phải nằm viện khiến cả trường bất ngờ khi dự lễ tốt nghiệp bằng robot
Ý tưởng là sử dụng những con robot từ xa để giúp các bệnh nhân nằm viện vẫn có một cuộc sống bình thường bên ngoài.

Một nhóm các nhà khoa học quốc tế tin rằng bạch tuộc là sinh vật ngoài hành tinh

tinybook tinybook 1 tuần 3 ngày
Một nhóm các nhà khoa học quốc tế tin rằng bạch tuộc là sinh vật ngoài hành tinh
Một nghiên cứu khoa học vừa được công bố, với những lý thuyết về việc bạch tuộc và mực là những sinh vật có nguồn gốc ngoài Trái đất.

Nguồn gốc đằng sau Laurel và Yanny: hiện tượng nổi nhất trên Internet trong tuần này

tinybook tinybook 1 tuần 3 ngày
Nguồn gốc đằng sau Laurel và Yanny: hiện tượng nổi nhất trên Internet trong tuần này
Bạn đã chọn phe cho mình chưa? Laurel hay Yanny?

Cuộc tranh luận mới nhất trên Internet: bạn nghe thấy từ Yanny hay Laurel trong đoạn ghi âm này?

tinybook tinybook 1 tuần 4 ngày
Cuộc tranh luận mới nhất trên Internet: bạn nghe thấy từ Yanny hay Laurel trong đoạn ghi âm này?
Một lần nữa, giang sơn Internet bị chia làm hai nửa.

Nhật Bản tái phát minh môn cờ vua trong thời công nghệ: hai người chơi cùng đánh một lúc, mỗi quân cờ có "cooldown" riêng

tinybook tinybook 1 tuần 4 ngày
Nhật Bản tái phát minh môn cờ vua trong thời công nghệ: hai người chơi cùng đánh một lúc, mỗi quân cờ có "cooldown" riêng
Tuy nhiên, định hình lại môn thể thao đã tồn tại hàng ngàn năm có lẽ là điều bất khả thi.

Có hơn 1 triệu tỷ tỷ ngôi sao trong vũ trụ và 14 sự thật ngỡ ngàng không phải ai cũng biết

tinybook tinybook 1 tuần 4 ngày
Có hơn 1 triệu tỷ tỷ ngôi sao trong vũ trụ và 14 sự thật ngỡ ngàng không phải ai cũng biết
Vũ trụ quả là một nơi chứa đựng bao điều bí ẩn!

Trái Đất sẽ trông như thế nào trông 100 năm nữa (nếu chúng ta may mắn)?

tinybook tinybook 1 tuần 4 ngày
Trái Đất sẽ trông như thế nào trông 100 năm nữa (nếu chúng ta may mắn)?
Tại Mỹ có một ngày gọi là "Ngày tái chế", sẽ diễn ra vào thứ Tư tới đây, và nó xuất hiện vì một lý do: tái chế giúp dọn dẹp rác thải khỏi các con đường, giảm bớt nhu cầu phải khai thác các quặng kim loại, và tạo thêm công ăn việc làm.

Các nhà khoa học sao chép thành công trí nhớ của ốc sên, mở ra khả năng mới để chữa trị bệnh Alzheimer

tinybook tinybook 1 tuần 4 ngày
Các nhà khoa học sao chép thành công trí nhớ của ốc sên, mở ra khả năng mới để chữa trị bệnh Alzheimer
Dù nó chưa giúp mọi người học kỹ năng mới bằng cách tải xuống trí nhớ của người khác, nhưng nó vẫn có tiềm năng y học vô cùng to lớn.

Các nhà khoa học đun sôi nước đến 100.000 độ C trong thời gian một phần 10 nghìn tỷ giây

tinybook tinybook 1 tuần 5 ngày
Các nhà khoa học đun sôi nước đến 100.000 độ C trong thời gian một phần 10 nghìn tỷ giây
Trong thí nghiệm này, nước sẽ chuyển từ chất lỏng sang dạng plasma.

NASA hé lộ công nghệ trực thăng không người lái sẽ bay trên Sao Hỏa, mở đường cho việc khám phá hành tinh khác bằng drone

tinybook tinybook 1 tuần 5 ngày
NASA hé lộ công nghệ trực thăng không người lái sẽ bay trên Sao Hỏa, mở đường cho việc khám phá hành tinh khác bằng drone
Dự kiến đầu năm 2021, hệ thống tàu thăm dò mới sẽ đặt chân tới Sao Hỏa.

Công trình của thiên tài mật mã Alan Turing lại một lần nữa cứu được hàng triệu người

tinybook tinybook 1 tuần 5 ngày
Công trình của thiên tài mật mã Alan Turing lại một lần nữa cứu được hàng triệu người
Hàng triệu người trên thế giới sẽ không còn lo thiếu nước sạch nhờ vào phương pháp lọc nước mới, lấy cảm hứng từ nghiên cứu được Alan Turing công bố năm 1952.

Câu tán tỉnh để Elon Musk có được bạn gái dựa trên một giả thuyết rợn tóc gáy: AI sẽ tiêu diệt bất kì ai cản đường nó

tinybook tinybook 1 tuần 5 ngày
Câu tán tỉnh để Elon Musk có được bạn gái dựa trên một giả thuyết rợn tóc gáy: AI sẽ tiêu diệt bất kì ai cản đường nó
Nếu bạn chưa nghe về Roko's Basilisk thì đây, nó đây.

Loại enzyme kỳ diệu mới sẽ tiêu hủy nhựa như thế nào?

tinybook tinybook 1 tuần 6 ngày
Loại enzyme kỳ diệu mới sẽ tiêu hủy nhựa như thế nào?
Tìm hiểu được cơ chế hoạt động của enzyme này sẽ mở đường cho việc tìm ra một giải pháp toàn diện với cuộc khủng hoảng nhựa của chúng ta.

Tesla có lẽ nên học cách lắp ráp ôtô siêu tốc và chuyên nghiệp của dây chuyền tự động bằng Lego này

tinybook tinybook 1 tuần 6 ngày
Tesla có lẽ nên học cách lắp ráp ôtô siêu tốc và chuyên nghiệp của dây chuyền tự động bằng Lego này
Có lẽ Tesla và nhiều hãng sản xuất xe hơi nên học tập dây chuyền lắp ráp xe tự động bằng Lego của kỹ sư trẻ tuổi Daniele Benedettelli để có thêm những ý tưởng cải tiến năng suất hiệu quả hơn.
tinybook Công Nghệ Thông Tin








Chat