AI đã và đang góp phần thay đổi thế giới từng ngày trên hầu như mọi lĩnh vực của đời sống. Trong đó, có lẽ những ai làm nghề biên phiên dịch ngành công nghệ thông tin, đặc biệt là comtor một tập đoàn công nghệ hàng đầu sẽ cảm nhận thấm thía được sự thay đổi rõ rệt trong hơn 10 năm qua qua từ thuần túy dịch tay sang dịch máy MemoQ và chuẩn bị chuyển sang 1 thời đại mới với Akatrans. Vậy trong bài viết nhỏ này, chúng ta thử tìm hiểu ở mức vỡ lòng khái quát nhất xem cơ chế hoạt động đặc thù của công nghệ tiên tiến 人工知能(trí tuệ nhân tạo) như thế nào?
Con người bình thường chúng ta khi tiếp xúc với thế giới thì bằng các giác quan, trực giác mà lưu lại thành kí ức rồi khái quát thành khái niệm. Đó là cách mà con người đã trưởng thành qua lịch sử. Nhưng máy tính thì không không thể nhận thức bằng trực giác, cảm giác như vậy mà nó sẽ cần đến kho dữ liệu rộng lớn có sẵn, lọc ra những cái chính xác hoặc gần chính xác thông qua các thuật toán rồi đem ra ưu tiên phân tích, đánh giá rồi từ đó trả lại kết quả output mong đợi.
Đóng vai trò trung tâm của quá trình xử lý này chúng ta có 1 khái niệm cơ bản là 機械学習モデル(Machine learning model trong tiếng Anh, mô hình học máy trong tiếng Việt):mô hình học máy là một phương pháp phân tích data mà máy vi tính hiện thực hóa quá trình học hỏi thông qua kinh nghiệm mà con người chúng ta đã làm. Ví dụ trước đây chúng ta hẳn từng nghe nói đến dự án thu thập giọng nói của nhiều người đa dạng tuổi tác, giới tính, vùng miền. Lúc này mô hình học máy sẽ lấy những giọng nói làm data input rồi so sánh, phân tích theo những pattern thống kê, phân tích được viết tùy theo yêu cầu requirement để có thể đưa ra kết quả output chẳng hạn như có thể tự động chuyển hóa những giọng nói đó thành kí tự văn bản viết một cách chính xác. Thật không quá khi nói rằng mô hình học máy đóng vai trò trung tâm của trí tuệ nhân tạo.
Cũng giống như con người học hỏi kiến thức thông qua kinh nghiệm, mô hình học máy sẽ phân tích nhiều lần lặp đi lặp lại data input giống nhau để học được những data mang tính thống kê chính xác rồi nâng lên một bước cao hơn là lý giải/hiểu khái niệm. Tuy nhiên, để làm được việc này thì cần phải có 1 nguồn data sample khổng lồ, đa dạng, phong phú, phức tạp, muôn hình muôn vẻ. Chính lượng data input khổng lồ này là chìa khóa quan trọng làm nên thành công của mô hình học máy.
Liên quan đến mô hình học máy này chúng ta tạm chia thành 3 loại chính.
教師ありの学習モデル(Mô hình học máy có giám sát) : là mô hình mà có gắn những label, data chính xác ở bước đánh giá data để có thể đưa ra data output từ data input. Chúng ta thường hay nghe nói: Công việc của comtor trong thời gian tiếp theo là sẽ "dạy" Akatrans. Bản chất công việc "dạy" này là những câu dịch chuẩn của những biên phiên dịch có kinh nghiệm sẽ đóng vai trò như những label, data chính xác, gọi là những 教師データ(data huấn luyện, giám sát) giúp cho việc dịch máy trở nên chính xác hơn. Mô hình học máy có giám sát này có tốc độ xử lý nhanh nhất và hiện đang được sử dụng rộng rãi nhất.
Ngược lại chúng ta có 教師なしの学習モデル(Mô hình học máy không có giám sát):là phương pháp học máy không gán label cho các data training. Là phương pháp hiệu quả đối với những bài toán không có sẵn data kết quả. Bởi vì trong data input không có sẵn những data huấn luyện chính xác nên bắt buộc mô hình này phải trích xuất, phân loại được những gì cơ bản nhất từ nguồn dữ liệu input để lý giải data. Mô hình này có tốc độ chậm hơn mô hình học máy có giám sát nhưng đặc trưng lớn nhất của mô hình học máy không có giám sát là nhiều khi máy tính sẽ tìm ra những cấu trúc quan trọng mà bị che mờ đi bởi data mà có thể con người không nhận thấy rồi từ đó đưa ra data output. Ví dụ từ nguồn data input to lớn thường xuyên mô hình này có thể khái quát tương đối về đối tượng với những đặc trưng nhất rồi suggest, recommened những thứ có liên quan mà đôi khi chúng ta không tiện công khai. Đó là cảm giác mà đôi khi chúng ta có cảm giác như Facebook, Tiki, Google theo dõi ta, biết được những bí mật riêng tư của ta. Rất có thể là họ đã sử dụng các thuật toán mô hình này.
Thứ 3 là 強化学習モデル(Mô hình học tăng cường) : Đây là một lĩnh vực con của học máy, nghiên cứu cách thức một agent trong một môi trường nên chọn thực hiện các hành động nào để cực đại hóa một khoản thưởng (reward) nào đó về lâu dài. Các thuật toán học tăng cường cố gắng tìm một chiến lược ánh xạ các trạng thái của thế giới tới các hành động mà agent nên chọn trong các trạng thái đó. Khác với việc học có giám sát, trong học tăng cường không có các cặp dữ liệu đầu vào/kết quả đúng, các hành động gần tối ưu cũng không được đánh giá đúng sai một cách tường minh. Hơn nữa, ở đây hoạt động trực tuyến (on-line performance) được quan tâm, trong đó có việc tìm kiếm một sự cân bằng giữa khám phá (lãnh thổ chưa lập bản đồ) và khai thác (tri thức hiện có).
Một ví dụ của mô hình học tăng cường là ứng dụng trong lĩnh vực control hoạt động của robot hoặc xe tự hành vì liên quan đến những hoạt động trực tiếp trong cuộc sống thường nhật. Dựa trên 1 nền tảng bối cảnh và môi trường mà sẽ đưa ra những dự đoán những hành động, gần tối ưu nhất có thể xảy ra để xử lý trong các trường hợp đa dạng thực tế.
Trong thế giới hiện đại, AI đã và đang sẽ là một chủ đề quan trọng mà mọi người phải lưu ý tìm hiểu nếu không muốn không bắt nhịp kịp chuyển động của thời đại mình đang sống.
Ghi chú nhỏ từ người viết: Trên đây là những kiến thức cơ bản nhất về mô hình học máy của AI mà người viết thu thập được thông qua tài liệu tham khảo trên internet và nguồn ví dụ liên hệ gần gũi trong công việc hàng ngày. Sở dĩ từ 教師 người viết suggest dịch là giám sát là có tham khảo khái niệm liên quan tương ứng trong tiếng Việt. Vì người viết xuất thân hồi nhỏ học chuyên văn lớn lên học ngoại ngữ rồi hành nghề biên phiên dịch nên nếu có sai sót nào đó liên quan đến lĩnh vực toán tin thì mong mọi người góp ý cải thiện. Nếu được cho xin 1 like kèm 1 comment ủng hộ công cuộc tích lũy "vàng" của cá nhân người viết:D:D:
Con người bình thường chúng ta khi tiếp xúc với thế giới thì bằng các giác quan, trực giác mà lưu lại thành kí ức rồi khái quát thành khái niệm. Đó là cách mà con người đã trưởng thành qua lịch sử. Nhưng máy tính thì không không thể nhận thức bằng trực giác, cảm giác như vậy mà nó sẽ cần đến kho dữ liệu rộng lớn có sẵn, lọc ra những cái chính xác hoặc gần chính xác thông qua các thuật toán rồi đem ra ưu tiên phân tích, đánh giá rồi từ đó trả lại kết quả output mong đợi.
Đóng vai trò trung tâm của quá trình xử lý này chúng ta có 1 khái niệm cơ bản là 機械学習モデル(Machine learning model trong tiếng Anh, mô hình học máy trong tiếng Việt):mô hình học máy là một phương pháp phân tích data mà máy vi tính hiện thực hóa quá trình học hỏi thông qua kinh nghiệm mà con người chúng ta đã làm. Ví dụ trước đây chúng ta hẳn từng nghe nói đến dự án thu thập giọng nói của nhiều người đa dạng tuổi tác, giới tính, vùng miền. Lúc này mô hình học máy sẽ lấy những giọng nói làm data input rồi so sánh, phân tích theo những pattern thống kê, phân tích được viết tùy theo yêu cầu requirement để có thể đưa ra kết quả output chẳng hạn như có thể tự động chuyển hóa những giọng nói đó thành kí tự văn bản viết một cách chính xác. Thật không quá khi nói rằng mô hình học máy đóng vai trò trung tâm của trí tuệ nhân tạo.
Cũng giống như con người học hỏi kiến thức thông qua kinh nghiệm, mô hình học máy sẽ phân tích nhiều lần lặp đi lặp lại data input giống nhau để học được những data mang tính thống kê chính xác rồi nâng lên một bước cao hơn là lý giải/hiểu khái niệm. Tuy nhiên, để làm được việc này thì cần phải có 1 nguồn data sample khổng lồ, đa dạng, phong phú, phức tạp, muôn hình muôn vẻ. Chính lượng data input khổng lồ này là chìa khóa quan trọng làm nên thành công của mô hình học máy.
Liên quan đến mô hình học máy này chúng ta tạm chia thành 3 loại chính.
教師ありの学習モデル(Mô hình học máy có giám sát) : là mô hình mà có gắn những label, data chính xác ở bước đánh giá data để có thể đưa ra data output từ data input. Chúng ta thường hay nghe nói: Công việc của comtor trong thời gian tiếp theo là sẽ "dạy" Akatrans. Bản chất công việc "dạy" này là những câu dịch chuẩn của những biên phiên dịch có kinh nghiệm sẽ đóng vai trò như những label, data chính xác, gọi là những 教師データ(data huấn luyện, giám sát) giúp cho việc dịch máy trở nên chính xác hơn. Mô hình học máy có giám sát này có tốc độ xử lý nhanh nhất và hiện đang được sử dụng rộng rãi nhất.
Ngược lại chúng ta có 教師なしの学習モデル(Mô hình học máy không có giám sát):là phương pháp học máy không gán label cho các data training. Là phương pháp hiệu quả đối với những bài toán không có sẵn data kết quả. Bởi vì trong data input không có sẵn những data huấn luyện chính xác nên bắt buộc mô hình này phải trích xuất, phân loại được những gì cơ bản nhất từ nguồn dữ liệu input để lý giải data. Mô hình này có tốc độ chậm hơn mô hình học máy có giám sát nhưng đặc trưng lớn nhất của mô hình học máy không có giám sát là nhiều khi máy tính sẽ tìm ra những cấu trúc quan trọng mà bị che mờ đi bởi data mà có thể con người không nhận thấy rồi từ đó đưa ra data output. Ví dụ từ nguồn data input to lớn thường xuyên mô hình này có thể khái quát tương đối về đối tượng với những đặc trưng nhất rồi suggest, recommened những thứ có liên quan mà đôi khi chúng ta không tiện công khai. Đó là cảm giác mà đôi khi chúng ta có cảm giác như Facebook, Tiki, Google theo dõi ta, biết được những bí mật riêng tư của ta. Rất có thể là họ đã sử dụng các thuật toán mô hình này.
Thứ 3 là 強化学習モデル(Mô hình học tăng cường) : Đây là một lĩnh vực con của học máy, nghiên cứu cách thức một agent trong một môi trường nên chọn thực hiện các hành động nào để cực đại hóa một khoản thưởng (reward) nào đó về lâu dài. Các thuật toán học tăng cường cố gắng tìm một chiến lược ánh xạ các trạng thái của thế giới tới các hành động mà agent nên chọn trong các trạng thái đó. Khác với việc học có giám sát, trong học tăng cường không có các cặp dữ liệu đầu vào/kết quả đúng, các hành động gần tối ưu cũng không được đánh giá đúng sai một cách tường minh. Hơn nữa, ở đây hoạt động trực tuyến (on-line performance) được quan tâm, trong đó có việc tìm kiếm một sự cân bằng giữa khám phá (lãnh thổ chưa lập bản đồ) và khai thác (tri thức hiện có).
Một ví dụ của mô hình học tăng cường là ứng dụng trong lĩnh vực control hoạt động của robot hoặc xe tự hành vì liên quan đến những hoạt động trực tiếp trong cuộc sống thường nhật. Dựa trên 1 nền tảng bối cảnh và môi trường mà sẽ đưa ra những dự đoán những hành động, gần tối ưu nhất có thể xảy ra để xử lý trong các trường hợp đa dạng thực tế.
Trong thế giới hiện đại, AI đã và đang sẽ là một chủ đề quan trọng mà mọi người phải lưu ý tìm hiểu nếu không muốn không bắt nhịp kịp chuyển động của thời đại mình đang sống.
Ghi chú nhỏ từ người viết: Trên đây là những kiến thức cơ bản nhất về mô hình học máy của AI mà người viết thu thập được thông qua tài liệu tham khảo trên internet và nguồn ví dụ liên hệ gần gũi trong công việc hàng ngày. Sở dĩ từ 教師 người viết suggest dịch là giám sát là có tham khảo khái niệm liên quan tương ứng trong tiếng Việt. Vì người viết xuất thân hồi nhỏ học chuyên văn lớn lên học ngoại ngữ rồi hành nghề biên phiên dịch nên nếu có sai sót nào đó liên quan đến lĩnh vực toán tin thì mong mọi người góp ý cải thiện. Nếu được cho xin 1 like kèm 1 comment ủng hộ công cuộc tích lũy "vàng" của cá nhân người viết:D:D:
Đệ Anh
No comments:
Post a Comment