Trước tiên, hãy kiểm tra mô hình mà chúng ta thường sử dụng để truy cập dữ liệu.
Location addressing with URLs
URL (Uniform Resource Locators) là địa chỉ chính mà chúng ta cung cấp cho nhau để lấy dữ liệu trên web tập trung (bạn biết đấy, trang web cũ đơn giản mà chúng ta đã quen thuộc). Chúng giúp chúng ta có thể tạo liên kết và kết nối dữ liệu trên web để chúng phục vụ một mục đích có giá trị. (Trang web sẽ khá tồi tệ nếu không có links!) Tuy nhiên, URL dựa trên location nơi lưu trữ dữ liệu, không dựa trên nội dung của tài nguyên được lưu trữ ở đó. Chúng ta gọi đây là location addressing và nó cho chúng ta thấy một số vấn đề.
Hầu hết chúng ta đều có nhiều kinh nghiệm với URL và chúng ta có thể đưa ra một số giả định về URL dựa trên kinh nghiệm của mình. Ví dụ: khi chúng ta thấy https://www.puppies.com/beagle.jpg
, chúng ta có thể đoán dựa trên tên tệp và phần mở rộng rằng dữ liệu được lưu trữ tại vị trí đó là hình ảnh của một con beagle (ở định dạng JPEG), nhưng chúng ta không thể xác minh điều này chỉ từ URL. Rất có thể có một bức ảnh chihuahua ẩn náu tại beagle.jpg
, hoặc thậm chí tệ hơn, một chú mèo con đáng yêu!
Thông qua tên miền, các URL cho biết authority mà chúng ta nên truy cập để lấy dữ liệu. Mặc dù web đã được phân tán theo một nghĩa nào đó (vì bất kỳ ai cũng có thể links với bất kỳ ai khác), các links tham chiếu đến dữ liệu là dựa trên vị trí, do đó, bản thân dữ liệu phải được tập trung vào một nơi có thẩm quyền để chúng ta tìm thấy nó. Chúng ta đưa ra các giả định về các cơ quan (hoặc miền) này, tương tự như chúng ta làm với tên tệp. Ví dụ: chúng ta có thể cho rằng một tệp được lưu trữ tại puppies.com
mở an toàn hơn tệp được lưu trữ tạievilhacker.com
, nhưng chúng tôi không thể chắc chắn về điều đó.
Cuối cùng, nội dung của một tệp được lưu trữ trên web tập trung không có mối quan hệ trực tiếp với các địa chỉ dựa trên vị trí của chúng. Nếu chúng ta nhìn thấy một bức ảnh của một chú chó con đáng yêu và được cho biết nó được lưu trữ trên web, không có cách nào để chúng ta đoán được URL sẽ dẫn chúng ta đến hình ảnh đó. Chúng tôi cũng không thể xác định miền, cho chúng tôi biết ai đang lưu trữ nó, cũng như tên tệp.
Trust and efficiency on the centralized web
Since we can't verify what content resides at a particular URL and are dependent on central authorities (and human kindness) to label things as they really are, it's easy for us to get tricked by malicious actors.
Vì chúng ta không thể xác minh nội dung nào nằm tại một URL cụ thể và nó phụ thuộc vào các central authorities (và lòng tốt của con người) để gắn nhãn mọi thứ đúng như thực tế, nên chúng ta rất dễ bị lừa bởi những kẻ xấu.
It's also easy for 42,000 people to store exactly the same photo of that adorable beagle, but all on different domains and with different filenames, leading to a lot of redundancy. Let's face it, even on our own laptops most of us have accidentally saved the same document as download.pdf
and download(01).pdf
without realizing it, or saved iterations of the same term paper over and over again with v1
or 2018-12-18
added to the title. The web is a confusing mess of data that's saved multiple times at different URLs, and there's no easy way to tell which items are identical to each other.
Cũng có thể dễ dàng cho 42.000 người lưu trữ chính xác cùng một bức ảnh về chú chó săn đáng yêu đó, nhưng tất cả trên các miền khác nhau và với các tên tệp khác nhau, dẫn đến rất nhiều dư thừa. Hãy đối diện thực tế, ngay cả trên máy tính xách tay của chúng ta, hầu hết chúng ta đã vô tình lưu cùng một tài liệu như download.pdf
vàdownload (01) .pdf
mà không nhận ra nó hoặc lưu lặp đi lặp lại cùng một tài với v1
hoặc2018-12-18
được thêm vào tiêu đề. Web là một mớ dữ liệu hỗn độn khó hiểu được lưu nhiều lần tại các URL khác nhau và không có cách nào dễ dàng để phân biệt các mục nào giống nhau.
Chắc chắn phải có cách tốt hơn!