Máy quay lui

Article

July 5, 2022

Wayback Machine là một kho lưu trữ kỹ thuật số của World Wide Web được thành lập bởi Internet Archive, một tổ chức phi lợi nhuận có trụ sở tại San Francisco, California. Được tạo vào năm 1996 và ra mắt công chúng vào năm 2001, nó cho phép người dùng quay ngược thời gian và xem các trang web trông như thế nào trong quá khứ. Những người sáng lập của nó, Brewster Kahle và Bruce Gilliat, đã phát triển Wayback Machine để cung cấp "khả năng truy cập phổ quát vào mọi kiến ​​thức" bằng cách lưu giữ các bản sao lưu trữ của các trang web không còn tồn tại. Ra mắt vào ngày 10 tháng 5 năm 1996, Wayback Machine đã có hơn 38,2 triệu bản ghi vào cuối của năm 2009. Vào tháng 6 năm 2022, máy đã lưu hơn 698 tỷ trang web. Hơn một triệu trang web được thêm vào hàng ngày. Năm 1996, Brewster Kahle, người sáng lập Internet Archive, và Bruce Gilliat, một sinh viên tốt nghiệp tại Viện Công nghệ Massachusetts (MIT), đã phát triển Wayback Machine như một công cụ để tạo ra một thư viện kỹ thuật số có thể truy cập rộng rãi, hỗ trợ sứ mệnh của Internet Archive là tiếp cận phổ cập mọi kiến ​​thức.

Lịch sử

Wayback Machine bắt đầu lưu trữ các trang web được lưu trong bộ nhớ cache vào năm 1996. Một trong những trang sớm nhất được biết đến đã được lưu vào ngày 10 tháng 5 năm 1996 lúc 2:42 chiều. Những người sáng lập Internet Archive Brewster Kahle và Bruce Gilliat đã ra mắt Wayback Machine ở San Francisco, California, vào tháng 10 năm 2001 , chủ yếu để giải quyết vấn đề nội dung web biến mất bất cứ khi nào nó được thay đổi hoặc khi một trang web bị đóng cửa. Dịch vụ này cho phép người dùng xem các phiên bản đã lưu trữ của các trang web theo thời gian, mà cơ quan lưu trữ gọi là "chỉ mục ba chiều". Kahle và Gilliat đã tạo ra chiếc máy này với hy vọng lưu trữ toàn bộ Internet và cung cấp "quyền truy cập phổ quát vào mọi kiến ​​thức". Cái tên "Cỗ máy quay ngược" liên quan đến một thiết bị dịch thuật và du hành thời gian hư cấu, "Cỗ máy quay ngược", được sử dụng bởi các nhân vật Mister Peabody và Sherman trong bộ phim hoạt hình Cuộc phiêu lưu của Rocky và Bullwinkle and Friends. Trong một trong những phân đoạn của phim hoạt hình, "Lịch sử không thể cải thiện của Peabody", các nhân vật đã sử dụng cỗ máy để chứng kiến, tham gia và thường xuyên thay đổi các sự kiện nổi tiếng trong lịch sử. Từ năm 1996 đến năm 2001, thông tin được lưu trên băng kỹ thuật số, Kahle thỉnh thoảng cho phép các nhà nghiên cứu và nhà khoa học khai thác vào cơ sở dữ liệu "lắt léo". Khi kho lưu trữ kỷ niệm lần thứ năm vào năm 2001, nó đã được công bố và mở cửa cho công chúng trong một buổi lễ tại Đại học California, Berkeley. Vào thời điểm Wayback Machine ra mắt, nó đã chứa hơn 10 tỷ trang lưu trữ. Dữ liệu được lưu trữ trên cụm nút Linux lớn của Internet Archive. Nó sẽ thỉnh thoảng truy cập lại và lưu trữ các phiên bản mới của các trang web (xem chi tiết kỹ thuật bên dưới). Các trang web cũng có thể được thu thập theo cách thủ công bằng cách nhập URL của trang web vào hộp tìm kiếm, miễn là trang web đó cho phép Wayback Machine "thu thập dữ liệu" và lưu dữ liệu. Vào ngày 30 tháng 10 năm 2020, Wayback Machine bắt đầu kiểm tra nội dung xác thực. Kể từ tháng 1 năm 2022, các miền của máy chủ quảng cáo bị vô hiệu hóa tính năng thu thập. Nhân dịp kỷ niệm 25 năm thành lập Internet Archive, Wayback Machine đã giới thiệu "Máy chuyển tiếp" cho phép người dùng "truy cập Internet vào năm 2046, nơi tri thức đang bị bao vây".

Thông tin kỹ thuật

Phần mềm đã được phát triển để "thu thập dữ liệu" trên Web và tải xuống tất cả các tệp dữ liệu và thông tin có thể truy cập công khai trên các trang web, hệ thống phân cấp Gopher, hệ thống bảng thông báo Netnews (Usenet) và phần mềm có thể tải xuống. Thông tin được thu thập bởi những "trình thu thập thông tin" này không bao gồm tất cả thông tin có sẵn trên Internet, vì phần lớn dữ liệu bị nhà xuất bản hạn chế hoặc được lưu trữ trong cơ sở dữ liệu không thể truy cập được. Để khắc phục sự mâu thuẫn trong các trang web được lưu vào bộ nhớ cache một phần, Archive-It.org được Internet Archive phát triển vào năm 2005 như một phương tiện cho phép các tổ chức và người tạo nội dung tự nguyện thu thập và bảo quản các bộ sưu tập nội dung kỹ thuật số và tạo các kho lưu trữ kỹ thuật số. các nguồn, một số được nhập từ các bên thứ ba và các nguồn khác do Kho lưu trữ tạo ra trong nội bộ. Ví dụ,