Có khách sạn 5 sao thì cũng có dữ liệu mở 5 sao
Năm 2023 là năm UB Chuyển đổi số Quốc gia lấy chủ đề là "Năm dữ liệu" với một kế hoạch hành động hoành tráng. Trong đó nhiều nội dung liên quan đến Dữ liệu mở (Open Data) ... Bài viết này bàn một chút về khái niệm "Dữ liệu mở 5 sao" (https://5stardata.info/en/#by-example) của Tim Berners-Lee, cha đẻ WWW và dựa vào 5 mức đánh giá về dữ liệu mở của Tim, chúng ta hãy xem xét thử các dữ liệu mở hiện nay ở các Tổ chức tại Việt Nam đang ở mức mấy sao 😀.
Cũng nói thêm là: Tim Berners-Lee được nhận giải thưởng chính VinFuture năm 2022 vào ngày 20/12/2022 .
Theo hình trên, dữ liệu mở được phát triển qua 5 mức (hay năm cấp độ) và mỗi mức tượng trưng cho số sao. Mức "vi diệu" nhất là đạt 5 sao. Mức cao hơn bao giờ cũng thừa hưởng các đặc tính của mức thấp hơn.
Mức độ 1 sao: Khi có dữ liệu bất kỳ nào trong tay và chúng ta quyết định đưa lên mạng cho mọi người download về sài theo giấy phép mở nào đó (như CCO) là dữ liệu mở của chúng ta ít nhất đã đạt được mức độ 1 sao. Nhưng nếu để ý: ở mức 1 sao có chữ OL và hình biểu tượng file PDF. OL ở đây nghĩa là dữ liệu này được mở theo giấy phép mở (Open License). Còn biểu tượng PDF nghĩa là vời dữ liệu này thì người sử dụng chỉ có thể download về và chỉ đọc, in ra giấy,... nói chung muốn sài trong CSDL nào đó thì có lẽ phải làm nhiều bước, thậm chí là phải nhập dữ liệu lại từ cái file PDF đó ... Khá phiền toài nhưng không sao, có tinh thần "Open" là Okie rồi.
Biểu tượng PDF chỉ mang tính đại diện cho các loại dữ liệu kiểu "read only" và máy tính khó đọc (non machine - readable) dữ liệu (nhớ là dữ liệu nhé) được một cách thoải mái 😁, file dữ liệu có thể là: ảnh Jpeg, tif, word,...
Hình trên lấy từ Cổng dữ liệu mở Quốc gia, chúng ta sẽ thấy một số (92) dữ liệu được Bộ LĐ,TB&XH cung cấp dưới dạng PDF và các dữ liệu này chỉ đạt cấp độ 1 sao. Nhìn có giống thư viện điện tử không nhỉ???
Mức độ 2 sao: là mức độ trên mức độ 1 sao nên chúng ta thừa hưởng được tất cả đặc tính của dữ liệu mở mức 1 sao nhưng hay hơn rất nhiều là dữ liệu này có cấu trúc và máy tính có thể đọc được ngon lành (machine - readable). Tuy nhiên đã Open thì sài hàng Open luôn đi. Đại diện cho kiểu dữ liệu này là file dạng Excel của Micro$oft, có nghĩa là: muốn đọc được nó thì phải bỏ tiền ra mua một phần mềm chuyên dụng để đọc nó ... Chính xác hơn là lệ thuộc vào một phần mềm nào đó độc quyền.
Nhưng đạt được 2 sao là Okie rùi, ít nhất download về và chịu khó viết tool import vào database riêng của mình, sau đó xài ... theo phong cách của mình và muốn xuất sang định dạng mở khác thì tùy bạn thôi.
Mức độ 3 sao: Nếu xem lại 2 mức 1 và 2 sao ở trên thì thấy vẫn còn bất tiện cho người đầu cuối trong việc tái sử dụng dữ liệu nên ở mức 3 sao này đề xuất định dạng dữ liệu phải ở định dạng mở và đặc trưng của định dạng này được hiện thị trên hình là CSV (Comma Separated Values). Với định dạng CSV của dữ liệu thì bất cứ máy tính nào cũng đọc được hoặc code mẫu để đọc khắp mọi nơi cho tất cả các ngôn ngữ lập trình ... CSV chỉ mang tính đại diện cho định dạng mở, trong ngành Không gian địa lý (GIS, Viễn thám) các dịnh dạng mở có thể là: GML, Geojson, Geotiff,.... hoặc như là: XML, Json, KML,...
Trên Cổng dữ liệu mở Quốc gia hiện có trên 21 dữ liệu được cung cấp ở mức độ 3 sao dưới định dạng CSV hoặc Json
Về khía cạnh khai thác và sử dụng thì cấp độ 3 sao này khá thuận tiện, chúng ta có thể truy cập online, parsing, xử lý và nhúng vào ứng dụng riêng một cách dễ dàng. Nhưng ở khía cạnh nhà cung cấp dữ liệu thì vất vả hơn một chút vì phải chuyển đổi dịnh dạng dữ liệu từ CSDL (như Oracle)của mình sang dạng mở CSV chẳng hạn ... Nhưng không sao, chịu khó mò mẫm một chút là có thể kiếm đc 1 phần mềm (back end) hỗ trợ cho chúng ta việc này.
Mức độ 4 sao: Nếu dữ liệu của bạn cung cấp mở ở cấp độ 4 sao tức là bạn đang làm điều khá phi thường và chiến lược. Trước hết bạn phải có 1 URI cho việc truy cập của bạn ... chứ không phải là một tập dữ liệu (dataset). Người sử dụng sẽ dùng cái URI để tiếp cận, khai thác và sử dụng dữ liệu của bạn chứ ko phải download về nữa. Hãy tưởng tượng có 1 ngàn ứng dụng xài URI của bạn để khai thác và sử dụng dữ liệu. Một ngày đẹp trời bạn thay đổi URI thì điều gì sẽ xảy ra ??? Hiển nhiên là 1 ngàn ứng dụng kia sẽ đứng hình ... Hay cấu trúc dữ liệu của bạn thay đổi, trong khi các ứng dụng kia thì đang sài cấu trúc cũ??? ... Rất nhiều vấn đề cần quan tâm khi bạn thực sự cung cấp dữ liệu mở ở mức độ 4 sao. Làm tướng 4 sao thì trách nhiệm phải càng lớn thôi 😅.
Ở cấp độ 4 sao, bạn phải làm sao cho dữ liệu của bạn được khám phá (tìm kiếm, tìm hiểu, tham chiếu,...) trên Web ... để mọi người hiểu cái URI của bạn đang cung cấp cái gì và tiếp cận, sử dụng ra sao???
Hầu hết các URI hiện này đều hiện thực dưới dạng Web Service, API, ... (ở Việt Nam hay xài API). Hiển nhiên định dạng dữ liệu trả về cho người sử dụng phải ở định dạng mở và thậm trí các API hay Web Service cũng phải tuân thù theo các đặc tả mở. Ví dụ: WFS đối với thông tin địa lý.
Hàm ý của dữ liệu mở 4 sao còn nhiều thứ khác và hiện thực bằng nhiều cách, xem thêm và tìm hiểu thêm trên Web nhé !
Hiện nay ở Việt Nam rất ít dữ liệu mở đạt mức độ 4 sao. Ngay cả các API (chưa mở hoặc mở) của các Công ty cũng khan hiếm và nặng tính demo (Chỉ cho tôi biết thêm !). Cổng thông tin dữ liệu mở Quốc gia chưa thấy cung cấp dữ liệu dưới dạng URI (cấp độ 4 sao).
Hiện tại, Nền tảng chia sẻ dữ liệu TN&MT (chủ yếu về dữ liệu không gian địa lý) có thể đạt được mức gần 4 sao vì tất cả dữ liệu đều được cung cấp quá các URI dạng dịch vụ Web theo chuẩn mở và đặc tả mở quốc tế được Việt Nam công nhận.
WebService = ƒ(WebService A ,Web Service B , ... , Web Service Z)
WebService A, Web Service B, ... , Web Service Z : là Web Service (hay API) của một hoặc nhiều nhà cung cấp khác nhau.
Hình trên thể hiện các vùng Isochrone do OpenRouteService cung cấp, Isochrone này được tạo ra bởi ít nhất 2 nguồn dữ liệu khác nhau để tạo ra dữ liệu mới là Isochrone: Dữ liệu đường đi từ Open Street Map (OSM) và dữ liệu dân số từ Global Human Setlement - Mision - European Commision
Kết luận vui vẻ như sau:
Open Data 1 star : Binh nhất.
Open Data 2 star: Bình nhì.
Open Data 3 star: Thượng úy.
Open Data 4 star: Tướng 4 sao.
Open Data 5 star: Tướng của các tướng 😁
Nhận xét
Đăng nhận xét