Kế hoạch điên rồ của cộng đồng Reddit: tạo ra một thư viện lưu trữ toàn bộ bức ảnh trên Instagram

Kế hoạch điên rồ của cộng đồng Reddit: tạo ra một thư viện lưu trữ toàn bộ bức ảnh trên Instagram
Theo: Bảo Nhi Spiderum Theo Trí Thức Trẻ
Thể loại: Khoa Học Công Nghệ
Từ trước đến nay chúng ta vốn vẫn không lạ gì với những dự án vô nghĩa từ cộng đồng Reddit. Mới đây nhất là ý tưởng tạo ra kho lưu trữ phân phối tất cả những tấm ảnh trên Instagram. Instagram, hiện chứa gần 600 TB ảnh từ hàng chục ngàn tài khoản, đang cố gắng dẹp bỏ dự án này.

Đầu năm nay, công ty Project Place đã giúp hàng ngàn người tiêu dùng trải nghiệm mẫu Canvas toàn màn hình trên thiết bị di động (mẫu quảng cáo pop-up trên mạng xã hội), nhưng cùng lúc đó, những thành viên đến từ r/DataHoarder, đại khái đang ấp ủ cho những dự định xa hơn.

DataHoarder là một nhóm người trên Reddit, tự mô tả mình là ‘thủ thư thời kỹ thuật số’.

DataHoarder là một nhóm người trên Reddit, tự mô tả mình là ‘thủ thư thời kỹ thuật số’.

Ý tưởng về kho dữ liệu Instagram đòi hỏi phải sao lưu toàn bộ hình ảnh từ mọi tài khoản công khai (cả tài khoản cá nhân) và lưu trữ chúng trên các ổ cứng trống, chiếm dung lượng của điện toán đám mây. Không rõ tổng kích thước của kho lưu trữ này là bao nhiêu, nhưng với hàng chục triệu bức ảnh được tải lên mạng mỗi ngày, lượng ảnh này có thể lên đến petabytes dữ liệu.

Vậy tại sao lại tự làm khó mình khi thu thập và lưu trữ ảnh từ những người nào đó một cách ngẫu nhiên? Theo người khởi xướng, câu trả lời về cơ bản là 'chỉ bởi vì họ vô tình xuất hiện ở đó.' Có thể đến một ngày nào đó trong tương lai, dự án này sẽ có ý nghĩa thực tế trong việc ngăn chặn hành vi ăn cắp danh tính trực tuyến - trong trường hợp Instagram không thể ngăn chặn nó trước.

Ý tưởng có vẻ điên rồ này đã được đăng lên r/DataHoarder vào ngày 5/1 bởi người kiểm duyệt chuyên mục phụ của Reddit, nickname là Archivist.

Ý tưởng có vẻ điên rồ này đã được đăng lên r/DataHoarder vào ngày 5/1 bởi người kiểm duyệt chuyên mục phụ của Reddit, nickname là Archivist.

Tên thật của anh ấy là John, 20 tuổi, và anh ấy nói rằng thứ lưu trữ không phải Instagram, mà là "đang lưu trữ thứ gì đó khác". Mặc dù John đã làm việc cật lực kể cả ngoài đời và thông qua Internet với Team Archive, hầu hết thời gian của anh đều dành cho các dự án đầy đam mê đăng lên r/DataHoarder, với vai trò ‘thủ thư thời kỹ thuật số’.

"Vậy bây giờ tôi có 300 TB hình ảnh của người khác, nhưng tôi phải làm gì với chúng?"

"Động lực ban đầu của tôi đối với kho lưu trữ Instagram là vì không ai khác làm điều này," John chia sẻ. "Khi bắt đầu tôi đã không có bất kỳ ý tưởng cụ thể nào về những gì tôi muốn làm với dữ liệu thu thập được."

John thường hay gây tranh cãi vì những ý tưởng mới, nhưng ý tưởng lưu trữ Instagram của anh ta vẫn tiếp tục được ủng hộ trên Reddit.

John từng gây tranh cãi khi là người đứng sau dự án kho lưu trữ webcam khiêu dâm.

John từng gây tranh cãi khi là người đứng sau dự án kho lưu trữ webcam khiêu dâm.

Nhiều người nghĩ ý tưởng sử dụng chương trình để sao lưu dữ liệu Instagram có vẻ rất nhàm chán. Nhưng người thu thập dữ liệu đặc biệt hơn người bình thường. Họ có phong cách hiện đại, được ghi nhận là có cách lưu trữ dữ liệu tinh tế, ngay cả một ‘mảnh vụn’ dữ liệu nhỏ trên Internet cũng được xem là đáng ghi nhận vào lịch sử. Vì vậy, John không có vấn đề gì khi tìm kiếm một cộng đồng người sẵn sàng giúp anh ta trong công việc to lớn này - câu hỏi lớn nhất là làm thế nào kiếm họ.

Sau 8 tháng làm việc, anh đã sao lưu được các bài đăng từ khoảng 3.400 tài khoản, chiếm 2,2 triệu tệp - khoảng 633 GB thông tin. Nhưng con số này chẳng đáng là bao, chỉ như một ‘giọt nước giữa đại dương’ bài đăng của Instagram.

Do đó John đã sử dụng một chương trình có mã nguồn mở để trợ giúp dự án nhưng việc tìm kiếm những tài khoản công khai trở nên khó khăn hơn.

Chương trình RipMe thu thập hình ảnh và video từ các tài khoản Instagram công khai.

Chương trình RipMe thu thập hình ảnh và video từ các tài khoản Instagram công khai.

"Bạn có thể vào bất kỳ hồ sơ của ai và xem danh sách những người theo dõi họ, nhưng danh sách này tải được khoảng 20 tài khoản một lần," John nói. "Vì vậy việc thu thập tên người dùng cách thủ công đòi hỏi tôi phải lướt chuột hàng giờ, ban đầu tôi đã giải quyết điều này bằng cách nhét một ít giấy carton vào phím 'page down’ để ‘kẹp chuột’"

Nguyên tắc của dự án này là không thể dựa vào API của Instagram để thu thập thông tin tài khoản vì vi phạm vào các điều khoản dịch vụ của trang web. Cuối cùng, Reddit đã giải quyết vấn đề bằng một vài dòng code cho phép thu thập các bức ảnh từ khoảng 2 triệu tài khoản trong 24 giờ và đưa chúng vào một chương trình khác để chọn lọc lại dữ liệu đúng.

Team của John còn có thể lấy hình ảnh từ một số tài khoản cá nhân. Đầu tiên John đã lập trình một ứng dụng bot tăng like và follow trên Instagram. Chúng sẽ tìm kiếm và theo dõi các tài khoản cá nhân với hy vọng rằng các tài khoản này sẽ theo dõi bot lại, do đó xem được nội dung của họ. Theo John, chiến thuật này đã có tỷ lệ thành công 70%. Tuy nhiên, Instagram chỉ cho phép 7.500 người theo dõi một tài khoản và John đã chán sự chậm chạp này và từ bỏ ý tưởng.

Đã có lúc John làm dự án này một mình. Sau khi tìm ra cách lấy tên người dùng nhanh hơn, anh chỉ việc đưa hàng triệu URL vào chương trình rồi ngồi chờ. "Các dữ liệu chỉ được lưu trữ khi Reddit viết code cho phép mọi người tham gia và kiểm tra các URL so với danh sách chủ để đảm bảo không bị trùng dữ liệu.

Tham gia vào dự án không yêu cầu bất kỳ yêu cầu phần cứng đặc biệt nào, chỉ cần rất nhiều không gian lưu trữ.

"Ngay cả người ít học cũng làm được", John nói. Trở ngại lớn nhất chính là tìm ra một kho chứa vô tận và sau đó biết phải làm gì với chúng. "Chúng tôi vẫn còn khá vô tổ chức, tôi đã nghe một người hỏi nên làm gì với 50 TB dữ liệu và tôi chỉ có thể trả lời là đợi tí, tôi sẽ tìm ra cách…Nhưng bây giờ tôi có đến 300 TB hình ảnh của mọi người, tôi biết làm gì với chúng? "

Câu hỏi này đã làm phẫn nộ một số thành viên r/DataHoarder, vì họ không thoải mái khi một lượng lớn nội dung trên Instagram không được giữ riêng tư. Họ thậm chí đã tố cáo dự án này với Instagram, nhưng nó không vi phạm các điều khoản dịch vụ của công ty, vì vậy John không tiếp nhận bất kỳ lá thư nào.

Tuy nhiên, Instagram dường như không đồng ý. Theo nguồn tin lân cận từ Motherboard, họ cho rằng dự án có vi phạm các điều khoản dịch vụ của nền tảng mạng xã hội và công ty đang từng bước thực hiện dẹp bỏ dự án.

Do vậy, Team của John đang cân nhắc sử dụng kho lưu trữ, chẳng hạn như biến nó thành cơ sở dữ liệu có thể ngăn chặn catfishing, nơi có kẻ ăn cắp hình ảnh từ tài khoản xã hội của người khác và giả mạo danh tính trên mạng, đi lừa gạt mọi người dựa vào mối quan hệ. Anh cũng cho biết có thể tưởng tượng được một tương lai mà Instagram không còn tồn tại, nhưng nội dung mà mọi người đăng tải ở đó vẫn còn giá trị với các nhà sử học.

"Tôi không chắc chắn rằng dự án có giá trị ngay lúc này," John nói. "Chắc chắn, khi Instagram cuối cùng bị khai tử, những người trong thế hệ sau có thể nhìn lại dữ liệu này dưới góc nhìn văn hóa và phân tích xu hướng." Nhưng bây giờ, hầu hết mọi người chỉ nhìn chằm chằm vào tôi với một biểu hiện khó hiểu. "

Hạt giống đầu tiên nảy mầm trên Mặt trăng của Trung Quốc đã chết

tinybook tinybook 2 ngày 18 giờ
Hạt giống đầu tiên nảy mầm trên Mặt trăng của Trung Quốc đã chết
Thật đáng tiếc nhưng thử nghiệm này cũng đã kết thúc, do điều kiện khắc nghiệt trên Mặt trăng.

Bangkok sử dụng mưa nhân tạo để giải quyết ô nhiễm không khí

tinybook tinybook 2 ngày 18 giờ
Bangkok sử dụng mưa nhân tạo để giải quyết ô nhiễm không khí
Nếu bạn có ý định du lịch Thái Lan, hãy cân nhắc kỹ trước khi đặt chân tới Bangkok.

Hãy làm ra những quả cà chua cay như ớt, các nhà khoa học nói

tinybook tinybook 3 ngày 11 giờ
Hãy làm ra những quả cà chua cay như ớt, các nhà khoa học nói
Nhưng để làm gì?

Săn Deal Công Nghệ - Rinh Vàng Tài Lộc tại Lazada

tinybook tinybook 3 ngày 13 giờ
Săn Deal Công Nghệ - Rinh Vàng Tài Lộc tại Lazada
Tết Kỷ Hợi 2019 sắp đến gần cũng là tín hiệu của mùa mua sắm nhộn nhịp, đặc biệt là với các tín đồ công nghệ khi các hãng lớn và uy tín tung ra hàng loạt khuyến mãi hấp dẫn để thu hút khách hàng.

Lần đầu tiên trong lịch sử, hạt giống Trung Quốc trồng trên Mặt trăng đã nảy mầm

tinybook tinybook 3 ngày 16 giờ
Lần đầu tiên trong lịch sử, hạt giống Trung Quốc trồng trên Mặt trăng đã nảy mầm
Nếu có thể trồng lương thực trên Mặt trăng, sẽ cho phép con người xây dựng căn cứ không gian trong tương lai.

Gậy ông đập lưng ông, hệ thống reCAPTCHA của Google bị chính công cụ của Google đánh bại

tinybook tinybook 4 ngày 11 giờ
Gậy ông đập lưng ông, hệ thống reCAPTCHA của Google bị chính công cụ của Google đánh bại
Dù Google đã sửa đổi và nâng cấp các công cụ của mình, phương pháp mới của các nhà nghiên cứu vẫn đạt tỷ lệ thành công hơn 90%.

Khai trương trung tâm thương mại Gigamall – tổ hợp giải trí công nghệ hiện đại hàng đầu Việt Nam

tinybook tinybook 4 ngày 19 giờ
Khai trương trung tâm thương mại Gigamall – tổ hợp giải trí công nghệ hiện đại hàng đầu Việt Nam
Trung tâm Thương mại Gigamall, tọa lạc trên đường Phạm Văn Đồng, quận Thủ Đức, TP.HCM chính thức đi vào hoạt động từ ngày 12/1.

Được quỹ của Bill Gates tài trợ, bệ xí dùng giun để xử lý phân sẽ là tương lai vệ sinh toàn cầu

tinybook tinybook 4 ngày 19 giờ
Được quỹ của Bill Gates tài trợ, bệ xí dùng giun để xử lý phân sẽ là tương lai vệ sinh toàn cầu
Loài giun này không thể sống nếu không có phân, chúng là một công cụ hoàn hảo để lắp vào hố xí tự hoại.

Xoắn não đầu năm với 4 câu đố do nhân viên Cơ quan An ninh Quốc gia Mỹ soạn ra

tinybook tinybook 5 ngày 12 giờ
Xoắn não đầu năm với 4 câu đố do nhân viên Cơ quan An ninh Quốc gia Mỹ soạn ra
Chúc bạn thể dục não vui vẻ.

Quái thú ăn thịt người vùng Gévaudan: nỗi kinh hãi của người dân Pháp hồi thế kỷ 18

tinybook tinybook 5 ngày 12 giờ
Quái thú ăn thịt người vùng Gévaudan: nỗi kinh hãi của người dân Pháp hồi thế kỷ 18
Con quái thú hoành hành suốt 3 năm trời, hạ sát tới cả trăm người.

Đừng quên Google có dự án Soli cực kỳ tiềm năng nhé: vừa đạt thành tựu mới, sờ từ xa biết sách có bao nhiêu trang

tinybook tinybook 5 ngày 12 giờ
Đừng quên Google có dự án Soli cực kỳ tiềm năng nhé: vừa đạt thành tựu mới, sờ từ xa biết sách có bao nhiêu trang
Nhìn vào những ví dụ, ta mong chờ từng ngày đến lúc Dự án Soli thành công.

Có thể bạn không tin nhưng đây là những tác phẩm cắt giấy tỉ mỉ tới từng milimet của nghệ nhân người Nhật

tinybook tinybook 5 ngày 13 giờ
Có thể bạn không tin nhưng đây là những tác phẩm cắt giấy tỉ mỉ tới từng milimet của nghệ nhân người Nhật
Chỉ với một tờ giấy bình thường nhưng nữ nghệ nhân người Nhật này có thể xử lý tỉ mỉ đến từng milimet và thổi hồn nó trở thành những tác phẩm nghệ thuật cắt giấy xuất sắc.

Video ghi lại cảnh thỏ ăn thịt đồng loại làm bất ngờ giới khoa học

tinybook tinybook 5 ngày 19 giờ
Video ghi lại cảnh thỏ ăn thịt đồng loại làm bất ngờ giới khoa học
Đừng vội sợ hại chú thỏ cưng sống trong lồng: thỏ ăn thịt chỉ khi vào đường cùng, thức ăn cạn kiệt, chúng mới tìm tới xác thối để kiếm bữa.

Lý giải hiện tượng con người đi trên than hồng nhưng không bị bỏng

tinybook tinybook 5 ngày 19 giờ
Lý giải hiện tượng con người đi trên than hồng nhưng không bị bỏng
Chắc hẳn bạn đã từng xem những nghi lễ như đi trên lửa trên TV hoặc ngoài đời nhưng có bao giờ bạn thắc mắc, tại sao người đi trên than hồng lại không hề bị bỏng hay làm sao. Vậy nguyên lý khoa học nào giúp họ làm được điều đó?

Lấy ý tưởng từ chân máy ảnh, nhiếp ảnh gia Nhật Bản chế tạo móc treo bao súng giúp bắn nhanh như Lucky Luke

tinybook tinybook 6 ngày 17 giờ
Lấy ý tưởng từ chân máy ảnh, nhiếp ảnh gia Nhật Bản chế tạo móc treo bao súng giúp bắn nhanh như Lucky Luke
Nhờ thiết bị này, xạ thủ sẽ có thể lấy súng ra khỏi bao nhanh hết mức có thể và đôi khi chỉ một phần nghìn giây cũng đã tạo ra sự khác biệt giữa các đối thủ.

Lý do đặc biệt khiến Mỹ không dùng hệ đo lường bằng mét như các nước khác

tinybook tinybook 1 tuần 12 giờ
Lý do đặc biệt khiến Mỹ không dùng hệ đo lường bằng mét như các nước khác
Cùng vài quốc gia ít ỏi trên thế giới, hiện giờ Hoa Kỹ vẫn sử dụng các đơn vì đo lường như feet, inch, pound thay vì km, m, kg, tại sao vậy?

Không cần đến Sing hay Nhật, giờ đây Việt Nam đã có khu giải trí công nghệ tương tác cực chất

tinybook tinybook 1 tuần 15 giờ
Không cần đến Sing hay Nhật, giờ đây Việt Nam đã có khu giải trí công nghệ tương tác cực chất
Mọi thứ đều trở thành hiện thực với người dân Sài Gòn khi tổ hợp giải trí công nghệ tương tác JP World đã chính thức ra mắt tại TTTM Gigamall.

Dưa chuột thì rẻ còn dưa chuột biển thì đắt như điên, có lý do cả đấy

tinybook tinybook 1 tuần 21 giờ
Dưa chuột thì rẻ còn dưa chuột biển thì đắt như điên, có lý do cả đấy
Dưa chuột thường giỏi lắm 70.000 đồng/kg, còn dưa chuột biển (hải sâm) lên tới 70 triệu đồng/kg.

[CES 2019] Với hệ thống IBM Q System One mạnh 20 qubit, IBM là hãng đầu tiên thương mại hóa máy tính lượng tử

tinybook tinybook 1 tuần 1 ngày
[CES 2019] Với hệ thống IBM Q System One mạnh 20 qubit, IBM là hãng đầu tiên thương mại hóa máy tính lượng tử
Tương lai của con người sẽ được gắn liền với từ "lượng tử", với một trong những người tiên phong là IBM.

Internet xôn xao về người phụ nữ Hà Giang bị đỉa kí sinh trong họng suốt 3 tháng

tinybook tinybook 2 ngày 18 giờ
Internet xôn xao về người phụ nữ Hà Giang bị đỉa kí sinh trong họng suốt 3 tháng
Các bác sĩ đã loại bỏ con đỉa kí sinh 3 tháng trong họng của người phụ nữ 63 tuổi ở tỉnh Hà Giang.

Đừng xem trang Instagram mê hoặc thị giác này kẻo lại thích thú quá quên hết thời gian!

tinybook tinybook 2 ngày 19 giờ
Đừng xem trang Instagram mê hoặc thị giác này kẻo lại thích thú quá quên hết thời gian!
Không thiếu những video gây lú trên Internet, nhưng để tập trung được nhiều thứ thú vị như trang Instagram này thì hơi hiếm.

Nhân viên Apple Store nhận được gói hàng tưởng là iPhone, nhưng hóa ra lại là nửa cân ma túy đá

tinybook tinybook 2 ngày 21 giờ
Nhân viên Apple Store nhận được gói hàng tưởng là iPhone, nhưng hóa ra lại là nửa cân ma túy đá
Một tai nạn hy hữu đã xảy ra.

Netflix tăng giá tất cả các gói thuê bao

tinybook tinybook 3 ngày 9 giờ
Netflix tăng giá tất cả các gói thuê bao
Các gói cước mới có giá 9 USD, 13 USD và 16 USD.

TikTok đe dọa WeChat bằng ứng dụng nhắn tin mới

tinybook tinybook 3 ngày 16 giờ
TikTok đe dọa WeChat bằng ứng dụng nhắn tin mới
TikTok có hơn 500 triệu người dùng hàng tháng, trong khi WeChat đang có 1,1 tỷ người dùng.

Ứng dụng YouTube di động có thêm tính năng vuốt để chuyển video

tinybook tinybook 3 ngày 17 giờ
Ứng dụng YouTube di động có thêm tính năng vuốt để chuyển video
Tính năng mới hứa hẹn sẽ làm thay đổi hoàn toàn cách bạn xem video trên ứng dụng YouTube.

Từ chuyện "Hộp Cao sao vàng 2.000 đồng bán trên Amazon 7 USD, chiếc nón lá rao bán giá gấp 10 lần", DN Việt sẽ hưởng lợi lớn khi Amazon chính thức vào Việt Nam?

tinybook tinybook 3 ngày 20 giờ
Từ chuyện "Hộp Cao sao vàng 2.000 đồng bán trên Amazon 7 USD, chiếc nón lá rao bán giá gấp 10 lần", DN Việt sẽ hưởng lợi lớn khi Amazon chính thức vào Việt Nam?
Từ chuyện "Hộp Cao sao vàng 2.000 đồng bán trên Amazon 7 USD, chiếc nón lá rao bán giá gấp 10 lần", DN Việt sẽ hưởng lợi lớn khi Amazon chính thức vào Việt Nam?

Phát hiện phần mềm mã độc “có tâm”, chỉ tấn công người giàu

tinybook tinybook 3 ngày 23 giờ
Phát hiện phần mềm mã độc “có tâm”, chỉ tấn công người giàu
Phần mềm mã độc này không sử dụng phương pháp thông thường, thay vào đó là chọn lọc và tối đa hóa thiệt hại.

Ghen tức trước cơn sốt 5G, ngành công nghiệp cáp nhanh tay đăng ký thương hiệu...10G cho to

tinybook tinybook 4 ngày 10 giờ
Ghen tức trước cơn sốt 5G, ngành công nghiệp cáp nhanh tay đăng ký thương hiệu...10G cho to
Tuy nhiên, 10G ở đây lại không phải là "thế hệ 10" đâu.

Trung Quốc có thể copy tất cả mọi thứ, nhưng sao họ vẫn chưa copy và đánh bại được Tesla?

tinybook tinybook 4 ngày 12 giờ
Trung Quốc có thể copy tất cả mọi thứ, nhưng sao họ vẫn chưa copy và đánh bại được Tesla?
Họ có công nghệ, có nhân lực, thậm chí có cả bằng sáng chế của Tesla luôn. Điều gì đã ngăn họ lại?

Trợ lý ảo Alexa của Amazon "ngắt lời" con người trên sân khấu CES 2019, phải chăng AI đã có suy nghĩ riêng?

tinybook tinybook 4 ngày 19 giờ
Trợ lý ảo Alexa của Amazon "ngắt lời" con người trên sân khấu CES 2019, phải chăng AI đã có suy nghĩ riêng?
Nghe có vẻ hơi sợ nhưng quả thực sợ thật bởi đây là khoảnh khắc hiếm thấy và không phải trợ lý ảo nào giống như Alexa cũng có thể tham gia trò chuyện, thậm chí ngắt lời của con người.
tinybook Công Nghệ Thông Tin








Chat