Microsoft phát triển một cỗ máy có khả năng nhận diện giọng nói hội thoại ngang ngửa con người

Microsoft phát triển một cỗ máy có khả năng nhận diện giọng nói hội thoại ngang ngửa con người
Theo: Tấn Minh Theo Trí Thức Trẻ
Thể loại: Sản Phẩm Công Nghệ
Cứ mỗi ngày trôi qua, những kỹ năng vốn giúp phân biệt chúng ta với máy móc lại dần được những cỗ máy thực hiện một cách thành thục.

Máy móc đã vượt mặt con người trên nhiều lĩnh vực, từ chơi cờ, game show truyền hình (Jeopardy!), Go, nhận diện vật thể, nhận diện khuôn mặt, và cả chơi game máy tính. Nếu bạn nghĩ rằng loài người đang ngày một tụt hậu đằng sau máy móc, có lẽ bạn chẳng hề sai.

Nhưng chỉ cần thử sử dụng bất kỳ phần mềm nhận diện giọng nói nào, và niềm tin của bạn vào loài người sẽ nhanh chóng được khôi phục. Dù đã tốt và ngày một tốt hơn, những hệ thống này chưa bao giờ hoàn hảo. Bạn đang đặt hàng món kem (Ice Cream), hay bạn đang nói "I scream"? Có lẽ là cả hai - đó là những gì một cỗ máy sẽ nghĩ nếu bạn đang nói chuyện với nó.

Do đó, thật an tâm khi biết được nhận diện giọng nói hội thoại thông thường là một thứ mà máy móc vẫn đang gặp nhiều khó khăn, và loài người vẫn là những bậc thầy đối với ngôn ngữ của chính mình.

Microsoft phát triển một cỗ máy có khả năng nhận diện giọng nói hội thoại ngang ngửa con người - Ảnh 1.

Nhưng quan điểm đó có lẽ sẽ phải thay đổi. Rất sớm thôi. Khi mà hôm nay, Geoff Zweig và các nhà nghiên cứu tại Microsoft Research ở Redmond, Washington cho biết họ đã có một đột phá trong lĩnh vực nhận diện giọng nói và các thuật toán học máy của họ nay đã lần đầu vượt qua con người trong nhận diện giọng nói hội thoại thông thường.

Nghiên cứu nhận diện giọng nói có một lịch sử khá dài. Vào những năm 1950, các máy tính ban đầu có thể nhận diện tối đa 10 từ được nói rõ ràng bởi một người duy nhất. Đến những năm 1980, các nhà nghiên cứu đã phát triển những cỗ máy có khả năng ghi lại những bài nói đơn giản với số từ vựng khoảng 1000 từ. Những năm 1990, máy móc đã có thể ghi lại nội dung khi một người đọc tờ Wall Street Journal, và sau đó là cả một đoạn tin tức trên TV.

Có thể thấy tham vọng của các nhà nghiên cứu ngày một tăng lên theo thời gian. Nhưng những bài test đó lại đơn giản hơn so với các đoạn hội thoại thông thường vì nhiều lý do. Từ vựng trên tờ Wall Street Journal chủ yếu là về kinh doanh và tài chính, và câu văn cũng được viết mạch lạc, đúng ngữ pháp - một điều không phải lúc nào cũng đúng trong hội thoại thông thường. Các bản tin TV thì ít hình thức hơn, nhưng vẫn có tính mạch lạc cao và được phát âm rõ ràng. Mọi ví dụ nêu trên đều được máy móc chinh phục dễ dàng.

Nhưng tác vụ khó khăn nhất - ghi lại một đoạn hội thoại thông thường - vẫn là một thứ mà máy móc chưa với tới được.

Hội thoại thông thường khó hơn đáng kể bởi kích cỡ từ vựng, và bên cạnh từ ngữ con người tạo khi nói còn có tiếng ồn. Con người sử dụng rất nhiều tiếng ồn để quản lý lượt lời trong hội thoại - một loại hình giao tiếp mà các nhà ngôn ngữ học gọi là "kênh phụ" (backchannel).

Ví dụ, uh-huh được dùng để báo hiệu cho người nói rằng anh/cô ta nên tiếp tục nói. Nhưng "uh" là một từ ấp úng chỉ ra rằng người nói còn nhiều điều để nói, một cảnh báo rằng có nhiều thứ khác nữa. Trong quản lý lượt lời, "uh" đóng vai trò đối nghịch với "uh-huh".

Microsoft phát triển một cỗ máy có khả năng nhận diện giọng nói hội thoại ngang ngửa con người - Ảnh 2.

 Con người có thể phân tích những âm thanh như vậy một cách dễ dàng và hiểu được vai trò của chúng trong một đoạn hội thoại. Nhưng máy móc thì khác.

Năm 2000, Viện Quốc gia về Tiêu chuẩn và Công nghệ đã tung ra một bộ dữ liệu để giúp các nhà nghiên cứu đương đầu với vấn đề này. Bộ dữ liệu chứa các bản ghi của các đoạn hội thoại thông thường trên điện thoại. Một số đoạn nói về một chủ đề nhất định. Số còn lại là các đoạn hội thoại giữa bạn bè với nhau và liên quan đến bất kỳ chủ đề nào có thể.

Phần lớn dữ liệu có mục đích giúp huấn luyện một thuật toán học máy để nhận diện giọng nói. Phần còn lại của dữ liệu là một bài test mà máy móc phải diễn dịch.

Người ta đánh giá hiệu suất bằng số lượng từ mà máy nhận diện sai, và mục tiêu cuối cùng là giúp máy thực hiện việc nhận diện tốt hơn cả con người.

Con người nhận diện giọng nói tốt như thế nào? Khi diễn dịch, con người nhìn chung có tỉ lệ lỗi khoảng 4%. Nói cách khác, chúng ta diễn dịch không chính xác 4 từ trong mỗi 100 từ. Trong quá khứ, máy móc chưa bao giờ đạt kết quả được gần như thế này.

Nhưng Microsoft lần này tuyên bố họ cuối cùng cũng đã đạt được hiệu suất ngang ngửa con người, dù vẫn có một hạn chế quan trọng. Các nhà nghiên cứu Microsoft bắt đầu bằng cách tái định mức hiệu suất của con người trong các tác vụ diễn dịch, với việc gửi các đoạn ghi âm điện thoại trong bộ dữ liệu của NIST đến một dịch vụ diễn dịch chuyên nghiệp và đánh giá tỉ lệ lỗi.

Kết quả thu được khiến mọi người bất ngờ: dịch vụ này có tỉ lệ lỗi là 5,9% đối với các đoạn hội thoại về một chủ đề nhất định và 11,3% đối với các đoạn hội thoại giữa bạn bè và các thành viên trong gia đình với nhau. Hai kết quả này cao hơn nhiều so với chúng ta từng nghĩ.

Tiếp theo, Zweig và các đồng nghiệp tối ưu các hệ thống học sâu của họ dựa trên các mạng thần kinh xoắn với số lớp biến thiên, mỗi lớp lại xử lý một khía cạnh khác nhau của đoạn hội thoại. Sau đó họ sử dụng bộ dữ liệu huấn luyện để dạy cho máy hiểu các bài nói thông thường và để nó thử bộ dữ liệu thử nghiệm.

Kết quả: nhìn chung, hệ thống nhận diện giọng nói của Microsoft có tỉ lệ lỗi tương đương với con người, nhưng loại lỗi mà nó gặp phải lại khá khác biệt.

Lỗi thường gặp nhất mà cỗ máy của Microsoft gặp phải là nhầm lẫn các âm thanh kênh phụ "uh" và "uh-huh". Ngược lại, con người hiếm khi gặp lỗi này và thay vào đó, họ thường nhầm các từ như "a" và "the" hay "uh" và "a".

Không có lý do nào về mặt nguyên tắc giải thích tại sao một cỗ máy không thể được huấn luyện để nhận diện các âm thanh kênh phụ. Zweig và các đồng sự nghĩ  vấn đề mà máy móc gặp với những sai sót như trên có thể xuất phát từ cách mà những tiếng ồn được đánh dấu trong bộ dữ liệu huấn luyện. "Hiệu suất khá nghèo nàn của hệ thống tự động có lẽ đơn giản là do những nhầm lẫn trong chú giải của bộ dữ liệu huấn luyện" - nhóm nghiên cứu cho biết.

Nhìn chung, máy móc có tỉ lệ lỗi ngang ngửa con người ở mức 5,9% đối với các đoạn hội thoại về chủ đề cụ thể, nhưng vượt qua con người trong diễn dịch các đoạn hội thoại giữa bạn bè và gia đình, với tỉ lệ lỗi là 11,1%. "Lần đầu tiên, hệ thống nhận diện tự động đã có hiệu suất ngang ngửa với con người trong tác vụ này" - Zweig nói.

Đó quả là một kết quả thú vị. Microsoft có lẽ rất hào hứng với chiến thắng này của những cỗ máy của hãng, nhưng đây thực ra lại là một điềm gở. Máy móc đang trở nên tốt hơn con người trên lĩnh vực nhận diện giọng nói. Điều này sẽ dẫn đến những hệ quả đáng kể đối với phương thức chúng ta tương tác với máy móc trong tương lai.

Tham khảo: TechnologyReview

Redmi Note 7 sẽ được cập nhật chế độ chụp đêm Super Night View của Mi MIX 3

tinybook tinybook 1 ngày 10 giờ
Redmi Note 7 sẽ được cập nhật chế độ chụp đêm Super Night View của Mi MIX 3
Chế độ này sẽ tăng cường khả năng chụp ảnh trong điều kiện thiếu sáng của smartphone.

Samsung Galaxy S10 Plus lộ điểm hiệu năng không quá ấn tượng với 6GB RAM

tinybook tinybook 1 ngày 10 giờ
Samsung Galaxy S10 Plus lộ điểm hiệu năng không quá ấn tượng với 6GB RAM
Đây có vẻ như là phiên bản Galaxy S10 Plus cấu hình thấp nhất.

Xiaomi ra mắt công nghệ cảm biến vân tay dưới màn hình hoàn toàn mới

tinybook tinybook 1 ngày 14 giờ
Xiaomi ra mắt công nghệ cảm biến vân tay dưới màn hình hoàn toàn mới
Xiaomi cho biết công nghệ cảm biến vân tay dưới màn hình mới sẽ giúp giải quyết 2 vấn đề lớn của công nghệ cũ.

iPhone XR sẽ còn được giảm giá sâu hơn nữa tại Trung Quốc

tinybook tinybook 1 ngày 14 giờ
iPhone XR sẽ còn được giảm giá sâu hơn nữa tại Trung Quốc
Để đổi lấy thị phần, Apple sẽ tiếp tục giảm giá iPhone XR tại thị trường smartphone lớn nhất thế giới.

Rò rỉ thông số kỹ thuật của Samsung Galaxy A90, chiếc smartphone kế nhiệm thành công của Galaxy A9 (2018)

tinybook tinybook 1 ngày 15 giờ
Rò rỉ thông số kỹ thuật của Samsung Galaxy A90, chiếc smartphone kế nhiệm thành công của Galaxy A9 (2018)
Có lẽ Samsung đã tìm ra một cách đặt tên mới, thay vì tiếp tục gọi chiếc smartphone này là Galaxy A9 (2019).

Apple trình làng case "lưng gù" vừa bảo vệ vừa tăng thời lượng pin cho iPhone XR, XS và XS Max

tinybook tinybook 1 ngày 15 giờ
Apple trình làng case "lưng gù" vừa bảo vệ vừa tăng thời lượng pin cho iPhone XR, XS và XS Max
Mẫu case này có giá 129 USD và hiện đã có mặt trên trang chủ của Apple.

Khách sạn robot ở nhật bản sa thải một nửa số robot phục vụ sau khi chúng khiến số nhân viên con người tăng lên

tinybook tinybook 1 ngày 15 giờ
Khách sạn robot ở nhật bản sa thải một nửa số robot phục vụ sau khi chúng khiến số nhân viên con người tăng lên
Hóa ra robot cũng có thể bị đuổi việc.

Sony chính thức gửi thư mời tham gia sự kiện MWC 2019 vào ngày 25 tháng 2, có thể ra mắt Xperia XZ4, XA3 và XA3 Ultra

tinybook tinybook 1 ngày 15 giờ
Sony chính thức gửi thư mời tham gia sự kiện MWC 2019 vào ngày 25 tháng 2, có thể ra mắt Xperia XZ4, XA3 và XA3 Ultra
Xperia XZ4 là chiếc smartphone được mong đợi nhất của Sony trong năm nay.

Rò rỉ thiết kế mới của iPhone 11 với 3 camera sau nằm ngang

tinybook tinybook 1 ngày 16 giờ
Rò rỉ thiết kế mới của iPhone 11 với 3 camera sau nằm ngang
Thiết kế rò rỉ mới của iPhone 11 trông có vẻ hợp lý hơn so với thiết kế xấu xí trước đây.

Microsoft đang phát triển các thiết bị màn hình gập chạy Windows

tinybook tinybook 1 ngày 16 giờ
Microsoft đang phát triển các thiết bị màn hình gập chạy Windows
Các thiết bị này không chỉ do Microsoft sản xuất mà còn đến từ các hãng sản xuất PC vốn là đối tác của gã khổng lồ phần mềm.

Huawei chìm trong khủng hoảng, nhà sáng lập chính thức lên tiếng

tinybook tinybook 1 ngày 16 giờ
Huawei chìm trong khủng hoảng, nhà sáng lập chính thức lên tiếng
Ông Nhiệm Chính Phi, nhà sáng lập Huawei, đã lên tiếng sau nhiều năm giữ im lặng trước những cáo buộc của Mỹ...

Cụm camera 5 ống kính trên Nokia 9 PureView sẽ do Light phát triển?

tinybook tinybook 1 ngày 16 giờ
Cụm camera 5 ống kính trên Nokia 9 PureView sẽ do Light phát triển?
Light, công ty máy ảnh kỹ thuật số nổi tiếng với những thiết bị nhiều ống kính, vừa mở một mục riêng trên website của hãng với hình ảnh đầu trang trông giống chiếc Nokia 9 được "nhá hàng" cách đây không lâu.

Samsung tự hào khoe Galaxy F là "một đột phá trong đổi mới công nghệ"

tinybook tinybook 1 ngày 17 giờ
Samsung tự hào khoe Galaxy F là "một đột phá trong đổi mới công nghệ"
Trong tháng tới, Samsung dự kiến sẽ ra mắt 2 flagship mới, bao gồm dòng Galaxy S10 trứ danh và Galaxy F - thiết bị màn hình gập đầu tiên của hãng.

Tòa án Đức tuyên bố iPhone không vi phạm bằng sáng chế của Qualcomm trong vụ kiện thứ hai

tinybook tinybook 1 ngày 17 giờ
Tòa án Đức tuyên bố iPhone không vi phạm bằng sáng chế của Qualcomm trong vụ kiện thứ hai
Một thẩm phán tại Mannheim, Đức vừa xét xử một trong vô số các vụ kiện tụng giữa Apple và Qualcomm, và đưa ra kết luận rằng iPhone không vi phạm một trong các bằng sáng chế về quản lý năng lượng của Qualcomm.

CEO Xiaomi tuyên bố Mi 9 sẽ được nâng cấp khả năng sạc nhanh

tinybook tinybook 1 ngày 17 giờ
CEO Xiaomi tuyên bố Mi 9 sẽ được nâng cấp khả năng sạc nhanh
Xiaomi Mi 9 là một trong những chiếc smartphone được mong chờ nhất trong nửa đầu năm 2019.

Nhìn lại những thiết bị ấn tượng nhất của Oppo sau 10 năm tham gia thị trường di động

tinybook tinybook 2 ngày 9 giờ
Nhìn lại những thiết bị ấn tượng nhất của Oppo sau 10 năm tham gia thị trường di động
Từ camera xoay trên N1 tới thiết kế thò thụt cùng màn hình chiếm trọn mặt trước của Find X, 10 năm qua Oppo đã cho ra mắt khá nhiều thiết bị di động ấn tượng.

Từ ngày hôm nay, cảnh sát không được phép bắt nghi phạm mở khóa smartphone bằng dấu vân tay hoặc nhận diện khuôn mặt

tinybook tinybook 2 ngày 10 giờ
Từ ngày hôm nay, cảnh sát không được phép bắt nghi phạm mở khóa smartphone bằng dấu vân tay hoặc nhận diện khuôn mặt
Sau phán quyết này, có vẻ như các cơ quan điều tra sẽ phải nhờ đến sự giúp đỡ của các công ty bảo mật thường xuyên hơn.

Redmi Note 7 cháy hàng chỉ sau 8 phút 36 giây mở bán

tinybook tinybook 2 ngày 10 giờ
Redmi Note 7 cháy hàng chỉ sau 8 phút 36 giây mở bán
Có vẻ như 100.000 chiếc Redmi Note 7 mà Xiaomi chuẩn bị trong đợt mở bán đầu tiên không đủ để đáp ứng nhu cầu của người dùng Trung Quốc.

Sony Xperia XZ4 tiếp tục lộ ảnh mới, xác nhận cụm 3 camera sau

tinybook tinybook 2 ngày 10 giờ
Sony Xperia XZ4 tiếp tục lộ ảnh mới, xác nhận cụm 3 camera sau
Thành bại của Xperia XZ4 có thể quyết định số phận của mảng di động Sony.

Chính Steve Jobs là người đồng ý trả cho Qualcomm 7,5 USD trên mỗi chiếc iPhone bán ra, không ngờ bây giờ lại trở thành gánh nặng lớn cho Apple

tinybook tinybook 2 ngày 11 giờ
Chính Steve Jobs là người đồng ý trả cho Qualcomm 7,5 USD trên mỗi chiếc iPhone bán ra, không ngờ bây giờ lại trở thành gánh nặng lớn cho Apple
Mức phí trên mỗi chiếc iPhone không quá cao, nhưng Apple đang bán được hàng trăm triệu chiếc iPhone mới mỗi năm, dẫn đến phải trả một khoản tiền khổng lồ cho Qualcomm.

Vivo sẽ trình làng smartphone hình giọt nước vào ngày 24/1?

tinybook tinybook 2 ngày 11 giờ
Vivo sẽ trình làng smartphone hình giọt nước vào ngày 24/1?
Với tên mã "The Waterdrop", smartphone sắp tới của Vivo được cho là có thiết kế chưa từng thấy trên thị trường.

Redmi phải đóng cửa trang web đặt mua Redmi Note 7 chỉ sau 20 phút, do số lượng đơn hàng quá lớn

tinybook tinybook 2 ngày 11 giờ
Redmi phải đóng cửa trang web đặt mua Redmi Note 7 chỉ sau 20 phút, do số lượng đơn hàng quá lớn
CEO Lu Welbing của Redmi cho biết số lượng đặt hàng đã vượt quá mong đợi và để đảm bảo những người đặt hàng trước có thể nhận được máy đúng thời hạn, Redmi buộc phải dừng việc đặt mua Redmi Note 7.

Trên tay sạc dự phòng Xiaomi Mi Power Bank 3 Pro: 20000mAh, sạc nhanh hai chiều 45W, sạc được laptop, giá 790.000 đồng

tinybook tinybook 2 ngày 11 giờ
Trên tay sạc dự phòng Xiaomi Mi Power Bank 3 Pro: 20000mAh, sạc nhanh hai chiều 45W, sạc được laptop, giá 790.000 đồng
Mi Power Bank 3 Pro là pin sạc dự phòng vừa được Xiaomi ra mắt, sở hữu dung lượng lớn, hỗ trợ sạc nhanh với công suất lớn và mức giá hợp lý.

HMD Global định hồi sinh Nokia N9, chạy KaiOS

tinybook tinybook 2 ngày 11 giờ
HMD Global định hồi sinh Nokia N9, chạy KaiOS
Đây sẽ là sản phẩm hoài cổ tiếp theo mà HMD Global trình làng.

Apple đã thay 11 triệu pin iPhone trong năm 2018, mọi năm chỉ là 1 - 2 triệu pin

tinybook tinybook 2 ngày 11 giờ
Apple đã thay 11 triệu pin iPhone trong năm 2018, mọi năm chỉ là 1 - 2 triệu pin
Khoảng 8 - 9 triệu người dùng quyết định thay pin cho iPhone cũ, thay vì mua iPhone mới trong năm 2018.

Pixel 3 XL Lite trang bị chip Snapdragon 710, RAM 6GB, hiệu năng thất vọng

tinybook tinybook 2 ngày 14 giờ
Pixel 3 XL Lite trang bị chip Snapdragon 710, RAM 6GB, hiệu năng thất vọng
Có vẻ như Pixel 3 XL Lite sẽ không phải là phiên bản Android của iPhone XR.

Galaxy S10 “X” sẽ là phiên bản cao cấp nhất, RAM 10GB, 6 camera, pin 5.000 mAh, giá gần 40 triệu đồng

tinybook tinybook 2 ngày 15 giờ
Galaxy S10 “X” sẽ là phiên bản cao cấp nhất, RAM 10GB, 6 camera, pin 5.000 mAh, giá gần 40 triệu đồng
Galaxy S10 “X” sẽ là phiên bản được trang bị công nghệ 5G.

HMD Global hoãn ra mắt Nokia 9 PureView tới MWC 2019 và nguy cơ bị lu mờ trước nhiều siêu phẩm khác rất cao

tinybook tinybook 2 ngày 15 giờ
HMD Global hoãn ra mắt Nokia 9 PureView tới MWC 2019 và nguy cơ bị lu mờ trước nhiều siêu phẩm khác rất cao
Nếu HMD Global quyết định trì hoãn thời điểm ra mắt siêu phẩm Nokia 9 PureView tới MWC 2019, khả năng hãng sẽ phải cạnh tranh rất khốc liệt với nhiều đối thủ như Samsung, Sony, Asus,…

Samsung Galaxy M20 tiết lộ các tính năng

tinybook tinybook 2 ngày 15 giờ
Samsung Galaxy M20 tiết lộ các tính năng
Galaxy M20 sẽ có cả tính năng nhận diện khuôn mặt.

OPPO F9 giành nhiều giải thưởng từ các báo công nghệ

tinybook tinybook 2 ngày 15 giờ
OPPO F9 giành nhiều giải thưởng từ các báo công nghệ
Mang đến những nâng cấp đáng giá trong phân khúc, F9 không chỉ thu hút người dùng mà còn được vinh danh bởi nhiều giải thưởng công nghệ uy tín: Số Hóa Tech Awards (Báo điện tử VNExpress), Editor’s Choice Awards (Tạp chí Nghe Nhìn Việt Nam)…
tinybook Công Nghệ Thông Tin








Chat