Siêu dữ liệu là Dữ liệu!
Mã hóa end-to-end bảo vệ dữ liệu của bạn để không ai có thể truy cập nó ngoài bạn, do đó dữ liệu của bạn vẫn ở chế độ riêng tư. Mặc dù vậy, ngay cả với mã hóa end-to-end, siêu dữ liệu của bạn vẫn có thể làm rò rỉ nhiều thông tin về bạn.
Chúng tôi yêu thích mã hóa end-to-end là có lý do! Nó bảo vệ dữ liệu của bạn để không ai có thể truy cập nó ngoài bạn, do đó nó vẫn ở chế độ riêng tư. Mặc dù vậy, ngay cả với mã hóa end-to-end, siêu dữ liệu của bạn vẫn có thể làm rò rỉ nhiều thông tin về bạn.
Dưới đây là một vài ví dụ về những gì siêu dữ liệu thông tin (cá nhân) có thể bị rò rỉ:
Địa chỉ IP
Bằng cách lấy Địa chỉ giao thức Internet của bạn, máy chủ sẽ nhận được nhiều thông tin về bạn ( đây là một số ví dụ) và những người đang điều hành máy chủ sau đó có thể liên hệ với nhà cung cấp dịch vụ của bạn để biết chính xác bạn là ai.
Một cách phổ biến để ngăn chặn điều này là sử dụng phần mềm như Tor hoặc VPN để ẩn nguồn gốc của bạn.
Biểu đồ xã hội
Biểu đồ xã hội đại diện cho tất cả các mối quan hệ xã hội của bạn. Một cách mà các ứng dụng nhắn tin có thể tạo ra một biểu đồ như vậy là kiểm tra xem bạn giao tiếp với ai và ai giao tiếp với bạn. Điều này có nghĩa là ngay cả khi sử dụng các sứ giả được mã hóa end-to-end như Signal , máy chủ có thể biết bạn biết ai và nhận thông tin về những người mà nó thậm chí không biết tồn tại chỉ bằng việc bạn có họ trong danh sách liên hệ của mình.
Hãy sử dụng biểu đồ trên làm ví dụ và giả sử rằng A là một nhà báo hiện đang làm việc với một nhóm những người bất đồng chính kiến (B, C và D) và một nguồn không liên quan (E). A, B và C đã được chính phủ gắn cờ và đang được nhắm mục tiêu cụ thể. Mặc dù D không có liên hệ với nhà báo, nhưng thật dễ dàng để suy ra rằng D là một thành viên của nhóm mà các thành viên khác có liên hệ với nhà báo, điều này khiến D trở thành một người được quan tâm. Nguồn E trở thành mục tiêu chỉ bởi sự liên kết của họ với nhà báo. Cho đến khi biểu đồ xã hội của nhà báo bị rò rỉ, chính phủ thậm chí còn không biết D và E tồn tại.
Đây là một bài đăng của Signal minh họa mức độ khó giải quyết của vấn đề này.
Các mẫu truy cập
Chỉ dựa trên thực tế là chúng ta sử dụng dữ liệu nhất định tại một thời điểm nhất định, có thể suy ra thông tin về nơi chúng ta sống, khi chúng ta đang làm việc, v.v. Điều tệ hơn, việc truy cập dữ liệu của chúng tôi hiếm khi và chỉ vào những thời điểm cụ thể mới có thể khiến chúng tôi bị nhắm mục tiêu.
Trong ví dụ này, A và D lại là nhà báo và nhà bất đồng chính kiến cẩn thận. Ngay cả khi biểu đồ xã hội của nhà báo không bị rò rỉ trước đó, nhà bất đồng chính kiến có thể đã bị chính phủ gắn cờ vì kiểu truy cập của họ. Nhà báo (giống như hầu hết mọi người) luôn luôn bật điện thoại, trong khi D chủ yếu tắt điện thoại để tránh bị theo dõi. D chỉ bật điện thoại của họ vào khoảng 6 giờ sáng, 10 giờ sáng và 7 giờ tối trong khoảng thời gian ngắn để nói chuyện với những người bất đồng chính kiến khác. Vì hình thức truy cập bất thường, D nổi tiếng và dễ dàng được xác định là một người quan tâm.
Do đó, bạn nên biết rằng đôi khi ngay cả việc đề phòng, chẳng hạn như tắt điện thoại khi bạn không sử dụng, cũng có thể khiến bạn bị dính.
Khối lượng sử dụng
Một điều tốt là việc rò rỉ siêu dữ liệu cũng có thể có lợi cho bạn, vì thực thể theo dõi cũng làm rò rỉ siêu dữ liệu trong khi theo dõi bạn. Chỉ cần biết kích thước của một số nội dung (mặc dù nó đã được mã hóa) có thể đủ để biết liệu bạn có đang bị theo dõi hay không.
Hãy tưởng tượng rằng nhà bất đồng chính kiến cẩn thận D không trở thành một người được quan tâm trong các ví dụ trước, nhưng vẫn có linh cảm rằng họ đang bị theo dõi. Họ cho rằng bọ được trồng ở đâu đó trong phòng. Nếu họ có thể nghe các tín hiệu vô tuyến, ngay cả khi được mã hóa, họ sẽ biết liệu chúng có bị theo dõi hay không dựa trên lượng dữ liệu được truyền trong không khí. Tín hiệu sẽ rất khác trong trường hợp có nhiều tiếng ồn và trong trường hợp im lặng. Do đó, người bất đồng chính kiến có thể kiểm tra nó bằng cách xen kẽ ồn ào và im lặng, sau đó tương quan hành động của họ với lượng dữ liệu được truyền đi dù họ không thể truy cập dữ liệu đó.
Sử dụng phương pháp này, người bất đồng chính kiến ít nhất có thể xác định xem họ có đang bị nghe lén hay không.
Chốt lời
Đây là một số cách mà siêu dữ liệu có thể gián tiếp làm rò rỉ thông tin cá nhân. Chỉ cần nhớ rằng, mọi người càng thận trọng với dữ liệu (meta) của họ, thì càng ít ai chú ý đến và có thể bị nhắm mục tiêu.
Đó là lý do tại sao chúng tôi cũng cần các giải pháp tôn trọng quyền riêng tư hơn đã được thiết kế từ đầu để bảo vệ quyền riêng tư của người dùng!
Cảm ơn David Anakin Visuals về đồ họa.
Đã sửa văn bản nhờ mrkoot từ Reddit.
Nguồn: https://blog.etesync.com/metadata-is-data/
– Tom code –