tang ho le

Lê Tang-Hồ, Ph.D.
Đại-Học Moncton,
New Brunswick, Canada
letangho@yahoo.ca

Lời giới thiệu:

Bài này được viết lần đầu cho Đặc San 2006 của Hội cựu học sinh Nguyễn Đình Chiểu – Lê Ngọc Hân, nhằm giới thiệu nhu liệu VietVoice phổ biến từ năm 2004 trên trang web noitiengviet.ca. Chúng tôi đặc biệt chú ý về khía cạnh thực dụng của nhu liệu này trong đời sống hàng ngày để bài viết dễ phổ cập đến mọi người. Chúng tôi sẽ vẽ vời nhiều chuyện ứng dụng tương lai của nhu-liệu này, có vẻ giống như truyện khoa-học giả tưởng (vì các sản phẩm đề cập đến chưa từng được ra mắt), nhưng trên thực tế thì trong thời gian sắp tới các ứng dụng này sẽ là một hiện thực chứ không còn là giả tưởng nữa. Nếu quý vị quan tâm đến khía cạnh kỹ thuật thì có thể xem thêm các bài giới thiệu và báo cáo kỹ thuật đi kèm các phiên bản đã ra mắt trước đây, hoặc tham khảo các trang Web có địa chỉ ghi trong phần cuối của bài này.

VietVoice-4.0: Nhu liệu tiếng nói tổng hợp và dịch vụ “cá nhân hóa” tiếng nói

Nhu-liệu VietVoice cho phép máy điện toán cá nhân đọc được những hồ sơ viết bằng tiếng Việt dùng mã Unicode. Bắt đầu từ phiên bản 4.0, chúng tôi cung cấp thêm dịch vụ “cá nhân hóa” giọng nói nhân tạo qua nhu liệu VietVoice. Nói gọn là nếu quý vị muốn nghe chính giọng nói của mình (thay vì giọng không mấy ngọt ngào của tác giả) thì quý vị có thể xem kỹ các tài liệu trên trang nhà của chúng tôi để biết cách thu âm lấy “giọng mẫu” của quý vị, cũng như bản hợp đồng phải ký kết và phí dịch vụ phải trả. Sau khi nhận được qua bưu-điện hợp đồng với chữ ký của quý vị, chúng tôi sẽ tiến hành các việc cần thiết để tạo ra tiếng nói “nhân tạo” nhưng hoàn toàn mang “dấu ấn” của quý vị. Trong phần dưới đây chúng tôi sẽ nói về các ảnh hưởng và ứng dụng của tiếng nói nhân tạo trong đời sống hàng ngày trên nhiều phương diện khác nhau.

Từ khủng bố và chứng cứ pháp lý …

Gần đây, chúng ta thường thấy báo chí đặt vấn đề về giọng nói đe dọa tấn công nước Mỹ phổ biến trên đài truyền hình Ả-Rập Al-Jazeera không biết có phải thực là của Bin Laden không? Hay ông trùm đã chết mất tiêu rồi và băng ghi âm chỉ là băng giả. Sau đó vài ngày các chuyên gia mới xác định được là thật. Thế nhưng chẳng bao lâu nữa vấn đề này sẽ không còn có ý nghĩa gì, một khi các nhà khoa học Ả-Rập cũng hoàn thành một nhu liệu tương tự như VietVoice. Nói rõ hơn là sau khi đã cá nhân hóa được giọng nói nhân tạo thì vấn đề sử dụng giọng nói ấy để đọc một văn bản được soạn ra vào bất cứ lúc nào trong tương lai cũng đều là giọng thật 100% cả, nghĩa là nếu Bin Laden đã chết rồi mà người ta dùng giọng nói nhân tạo của chính ông ta để đọc một bài trả đũa lại với bài của tổng thống Mỹ mới đọc ngày hôm qua chẳng hạn, là điều hoàn toàn khả dĩ, sẽ không chuyên gia nào có thể kết luận giọng ấy là giọng giả (không phải của Bin Laden).

Ngoài chuyện khủng bố ra thì còn vô số chuyện pháp luật có liên quan đến giọng nói, chẳng hạn tại tòa án có khi luật sư đã yêu cầu bồi thẩm đoàn phải nghe lại các cuộn băng ghi âm những chi tiết có thể dẫn đến việc kết tội các bị cáo, dù là băng ghi lén hay ghi công khai. Những chứng cứ đại loại như vậy, trong tương lai sẽ không còn có giá trị gì nữa, vì các chuyên viên sẽ có thể hoàn toàn ngụy tạo các cuốn băng này, sau khi đã lấy được “giọng mẫu” của đương sự. Vấn đề “làm sao lấy được giọng mẫu của một người” thì còn khá phức tạp, tuy nhiên nếu kiên nhẫn và có điều kiện thì vẫn có thể thực hiện được.

Chúng tôi xin giải thích sơ qua chuyện này. Trong tiếng Việt, chúng ta đã phân tích cơ cấu ngữ âm và biết một cách xác thực các từ ngữ đã được cấu tạo thế nào (xin xem loạt bài của chúng tôi viết về vấn đề này có phổ biến trên trang Web vietsciences.free.fr). Nói gọn, toàn bộ tiếng Việt của chúng ta chỉ có khoảng 12000 từ-ngữ-đơn (như “cơm, tiền, xấu, đẹp, người, vật”, v.v.) được ghép từ những vần cơ bản của tiếng Việt. Tiếng Việt chỉ có khỏang 150 vần cơ bản (như ai, uông, an, ang, oen, uyên, v.v.) nếu muốn ghi âm luôn cả những vần có 6 dấu (như ai, ái, ài, ải, ãi, ại) và những vần có 2 dấu (như ít, ịt) thì tổng cộng chỉ có khoảng 1800 vần cần phải thu âm để lấy giọng mẫu. Sau đó tất cả từ ngữ còn lại đều được tổng hợp theo phương pháp ghép vần (concatenative synthesis), chẳng hạn như ghép “ta” và “am” sẽ đuợc “tam”, ghép “ma” và “ai” sẽ được “mai”, v.v. Khi dùng giọng nói (nhân tạo) này để đọc một văn bản thì nghe như chính đương sự đã đọc văn bản đó. Như vậy, nếu ta khéo bố trí sắp xếp (qua nhiều lần đối thọai) cho đương sự phát ngôn ra các vần cơ bản để thu lén thì chúng ta vẫn có được giọng mẫu của đương sự không đến nỗi khó khăn lắm. Còn nếu đuợc chính đương sự cung cấp giọng mẫu thì chẳng còn vấn đề gì nữa. Có thể phiên bản hiện nay của VietVoice vẫn còn một số khuyết điểm trong giọng tổng hợp, như nhịp đọc, hay các khoảng nghỉ giữa các từ ngữ chưa được tự nhiên, v.v. Trong tương lai gần, các phiên bản sắp tới sẽ khắc phục các khuyết điểm này không khó khăn gì. Đối với các ngôn ngữ đa âm trên thế giới thì việc « ghép vần » có vẻ rắc rối hơn, tuy vậy chúng tôi tin rằng rồi đây người ta cũng sẽ có giải pháp thích đáng.

cho đến chuyện giải trí …

Những chuyện về pháp luật dễ làm chúng ta ngán ngẩm, nhưng chuyện giải trí thì có vẻ hấp dẫn hơn. Với cuộc sống vội vàng như hiện nay, ai cũng cần tiết kiệm thì giờ. Nếu phải mất một vài giờ để di chuyển hàng ngày thì thời gian ngồi trên xe (xe tư nhân, hay bất cứ phương tiện chuyên chở cộng cộng nào) cũng rất uổng cho chúng ta. Chúng ta thường lợi dụng thời gian đó để đọc sách báo tài liệu, hay nghe nhạc giải trí. Chỉ có nghe nhạc là thoải mái nhất vì mắt không phải làm việc, sự nhồi lắc của xe cộ chẳng ảnh hưởng gì. Vậy thì thay vì phải căng mắt ra (hay phải đeo kính vào) để đọc sách báo thì ứng dụng của giọng nói tổng hợp sẽ cho phép ta chẳng cần làm gì khác hơn là chỉ lim-dim mắt (nếu không phải lái xe) và nghe đọc các nội dung. Với những tiện nghi mới nhất như điện thoại di động thì chúng ta còn có thể truy cập vào các trang báo, hay tìm kiếm các bài vở cần thiết ngay trên mạng, và khi đã tìm đuợc tài liệu thì chỉ … nhấn nút là ta nghe đọc giống hệt như hiện nay ta nghe nhạc mp3 vậy.

và trẻ mãi không già …

Không mấy ai khi còn trẻ mà lại muốn biết hình dung diện mạo mình sẽ thế nào lúc về già. Thế nhưng chỉ một thời gian ngắn trôi qua, nhìn lại các hình ảnh kỷ niệm, chúng ta đều nhận ra biết bao thay đổi trên nét mặt của mình. Chính vì vậy mà người ta đã xem việc chụp ảnh như là làm mình trở thành “bất tử”. Ngày nay với vidéo chúng ta vừa thấy hình ảnh lại vừa nghe được giọng nói của chính mình. Và chắc rằng chúng ta đã từng ngạc nhiên khi nghe lại giọng nói của chính ta. Có thể ta đã xao xuyến khi thấy giọng của ta lúc xưa sao nghe trong trẻo thế. Thử tưởng tượng xa hơn một chút, khi lớn tuổi hơn nữa thì giọng nói của ta sẽ còn thay đổi đến thế nào. Có nên giữ lại mãi mãi cái giọng nói như bây giờ để ta tự đọc bài vở cho ta nghe, hay cho người thân của ta nghe? Điều đó cũng thú vị lắm chứ!

hay những chuyện tình muôn thuở

Khi việc cá nhân hóa giọng nói đã trở thành phổ thông và ít tốn kém thì việc gửi thư tình như trong quá khứ của muôn ngàn đôi lứa sẽ được thay thế bằng việc gửi “lời tình”. Lời tình có thể gửi đi như một tin nhắn với nội dung ngắn gọn qua hộp thư điện tử, hay thiết tha lãng mạn hơn bằng cách đọc cho người yêu nghe những đoạn văn, những bài thơ bằng chính giọng của mình. Anh sẽ nghe giọng nói thân yêu của em mỗi khi dùng giọng nói nhân tạo, và tưong tự em sẽ nghe giọng của anh, chúng ta sẽ có cảm giác rất gần gũi nhau, lúc nào cũng có bên nhau trong cuộc đời. Tuy nhiên, nếu chẳng may có một thằng “bạn trời đánh”, làm giọng cá nhân của hắn rồi đem tặng cho cô bạn gái của bạn để nghe với nhu liệu VietVoice. Thế là sẽ có ngày bạn thấy computer của bồ mình sao cứ ra rả giọng của anh chàng kia suốt ngày, hắn đọc cho bồ mình nghe đủ thứ chuyện, thế có đáng nổi điên không chứ. Thôi, thôi, ta cũng phải lo làm giọng nói của ta để thay thế cho giọng của hắn ngay lập tức mới xong.

Nghệ thuật tiếp thị (marketing) : “Có tôi đây”

Trong khi các tiếp xúc “mặt đối mặt” giữa nhân viên tiếp thị và khách hàng luôn luôn tỏ ra hiệu quả (nhưng tốn kém) trong việc bán buôn sản phẩm và dịch vụ, tại sao không nghĩ đến việc gửi tặng giọng nói tổng hợp của một nhân vật rất nổi tiếng của công ty (đã từng được khách hàng quen biết) đến mọi người khách, sau đó sẽ gửi thông tin - định kỳ - về dịch vụ hay sản phẩm của công ty. Khách hàng sẽ thấy thoải mái khi nghe giọng quen biết và có tín nhiệm giới thiệu các mẫu hàng hay dịch vụ mới. Ngay trong nội bộ những công ty lớn, các lãnh đạo công ty cũng có thể làm tương tự mỗi khi muốn nhắn gửi đến tất cả nhân viên các thông điệp quan trọng. Một loại nhu-liệu ứng dụng VietVoice sẽ cho phép máy của khách hàng hay của nhân viên, mỗi khi được khởi động, tự động tìm đọc các tin nhắn (messages) nhận được từ công ty của bạn đang hiện ra trên màn hình.

Chẳng cứ là chuyện marketing, các em bé cũng có thể được nghe kể chuyện trước khi đi ngủ bằng giọng nói thân thương của mẹ chúng. Và, nếu bạn thích nghe đọc truyện (bất cứ truyện gì) thì cũng có thể đuợc nghe đọc bằng giọng của chính bạn hay của một người thân.

Từ phát ngôn viên ảo …

Tại các nước tân tiến, khi phải hỏi thăm thông tin cần thiết cho việc du lịch (ngày giờ đi đến của các chuyến bay chẳng hạn) hay tin tức khí tượng, chúng ta thường chỉ cần bấm nút (chọn một số tùy theo nhu cầu của ta) và sau đó ta nghe tiếng trả lời. Đó là tiếng nói nhân tạo chứ không có ai có mặt tại chỗ để trả lời ta. Tiếng nói ấy chỉ việc đọc đoạn văn tương ứng với câu hỏi của ta, đã được sọan sẵn và cập nhật thường xuyên. Những ứng dụng tương tự như vậy có thể tìm thấy ở bất cứ các tụ điểm công cộng nào, đem lại tiện nghi cho người dân. Hãy tưởng tượng vì bạn có cái tai nghễnh ngãng, hỏi một lần nghe không rõ mà phải hỏi lại hoài thì thật là ngượng. Sẽ không thành vấn đề nữa vì bạn chẳng hề “làm phiền” ai cả, chỉ là phát ngôn viên ảo thôi mà.

Ngoài ra, sự phục vụ của tiếng nói nhân tạo đối với người khiếm thị là điều hiển nhiên; chúng tôi đã nhận được rất nhiều thư cảm ơn và khích lệ của các vị này kể từ khi phổ biến nhu liệu VietVoice. Trong tương lai sẽ có các nhu liệu ứng dụng tiếng nói nhân tạo đuợc thiết kế để đáp ứng các nhu cầu riêng của người khiếm thị.

đến Ca sĩ ảo (virtual singer) hay tiếng hát tổng hợp

Chúng tôi đã từng đề cập đến tiếng hát tổng hợp trong bài giới thiệu phiên bản đầu tiên, lúc đó có tên là NHU LIỆU ĐỌC TIẾNG VIỆT - Vietnamese Virtual Voice (version 1.1 - 2004) nhưng có lẽ ít người lưu ý. Khi đó chúng tôi có ý thực hiện nhu liệu “Tiếng Hát Tổng Hợp” để cùng góp mặt với các sản phẩm tương tự của các dân tộc khác. Với nhu-liệu ấy, một giọng mẫu cá nhân, sau khi thu âm và phân tích, có thể dùng để hát lên (thay vì chỉ đọc) các lời ca của một bản nhạc một cách chính xác về cao độ (intonation) và trường độ (duration). Đây là một việc làm hoàn toàn nằm trong tầm tay của chúng tôi, chỉ chờ có ngân sách là thực hiện được ngay. Với giọng hát nhân tạo bằng tiếng Việt, chúng ta sẽ có thể hát bất cứ bản nhạc (lời Việt) nào mà không cần phải làm thêm một cố gắng nào khác như với các ngôn ngữ đa-âm. Để hát mỗi bài nhạc, nhu liệu này sẽ nhận một cặp hồ sơ dữ kiện: thứ nhất là hồ sơ văn bản như với VietVoice, và thứ hai là một hồ sơ ghi các thông số âm nhạc tương ứng với từng từ ngữ của hồ sơ thứ nhất nói trên. Giọng hát có thể sẽ không tuyệt vời (với nghệ thuật diễn tả, luyến láy trên mỗi chữ như các ca sĩ chuyên nghiệp) nhưng chắc chắn là hát đúng nhạc pháp 100%. Các bạn có thể vào trang web sau đây để tìm hiểu thêm và xem các chuyên gia của các ngôn ngữ khác đã thực hiện giọng hát ảo và ca-sĩ ảo như thế nào : http://www.myriad-online.com/en/products/virtualsinger.htm Sau hết, chúng tôi cũng hình dung hàng loạt các chương trình nghiên cứu trong tương lai nhằm xác định cơ cấu của “âm sắc” hay biệt tính của giọng nói từng cá nhân (timbre). Tại sao tôi và bạn cùng nói một câu mà mọi người đều dễ dàng nhận ra được câu nào là do bạn nói, câu nào do tôi nói? Kết quả của công trình này sẽ còn đưa đến những ứng dụng lớn lao hơn nhiều trong mọi mặt của đời sống (tạm so sánh với sự khám phá các chuỗi DNA trong ngành sinh vật học). Ngoài ra, sự liên hệ kỹ thuật của giọng nói nhân tạo với sự nhận biết tự động các câu nói tiếng Việt – automatic speech recognition (nghĩa là từ một hồ sơ âm thanh đã ghi âm ta có thể chuyển qua thành văn bản) cũng đòi hỏi nhiều công trình nghiên cứu sâu rộng hơn nữa, nhưng kết quả sẽ là điều rất đáng mong đợi cho tất cả chúng ta. Bạn có thể tưởng tượng khi đó máy tính sẽ vừa “nghe” và vừa “nói” hay “trả lời” được bằng tiếng Việt, điều mà hiện nay chỉ mới có ở bước đầu đối với một vài ngôn ngữ của các nước văn minh (như tiếng Anh và tiếng Pháp).

Moncton, mùa đông 2006
Lê Tang-Hồ

Tham khảo : Các sản phẩm tiếng nói tổng hợp của các công ty : http://www.oddcast.com/, http://www.cepstral.com/, http://www.freedomscientific.com/, http://www.nuance.com/, etc. và các tài liệu trên trang nhà của Alan W. Black, Associate Research Professor, Language Technologies Institute, Carnegie Mellon University, http://www.cs.cmu.edu/~awb.