Big Data là gì? #Big Data hay còn gọi là dữ liệu lớn thường bao gồm tập hợp dữ liệu với kích thước vượt xa khả năng của các công cụ phần mềm...
Khái niệm
Big Data hay còn gọi là dữ liệu lớn thường bao gồm tập hợp dữ liệu với kích thước vượt xa khả năng của các công cụ phần mềm thông thường để thu thập, hiển thị, quản lý và xử lý dữ liệu trong một thời gian có thể chấp nhận được. Kích thước dữ liệu lớn là một mục tiêu liên tục thay đổi. Như năm 2012 thì phạm vi một vài tá terabytes tới nhiều petabytes dữ liệu. Dữ liệu lớn yêu cầu một tập các kỹ thuật và công nghệ được tích hợp theo hình thức mới để khai phá từ tập dữ liệu đa dạng, phức tạp, và có quy mô lớn
Nguồn gốc hình thành Big Data
Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và phức tạp đến nỗi những công cụ, ứng dụng xử lý dữ liệu truyền thống không thể đảm đương được. Trước khi phát minh ra máy tính cá nhân (PC), các công ty phải chi hàng triệu USD cho các máy tính cồng kềnh để xử lý dữ liệu. Apple và Microsoft đã thay đổi điều đó bằng việc đưa máy tính vào mọi nhà. Với Big Data cũng vậy, khi giá của những bộ nhớ lớn, xử lý tốc độ cao giảm xuống, các công ty có thể truy cập khối lượng lớn các dữ liệu cả bên trong và bên ngoài công ty, từ đó đưa ra đánh giá chính xác về thị trường, nắm bắt cơ hội và thu lợi nhuận.
- Năm 1984, tập đoàn Teradata đưa ra thị trường hệ thống xử lý dữ liệu song song DBC 1012.
- Năm 1992 các hệ thống Teradata là hệ thống đầu tiên lưu trữ và phân tích ổ đĩa cứng đạt đến dung lượng 2.5GB đến 1 TB.
- Năm 2000, Seisint Inc. (nay là tập đoàn LexisNexis) đã phát triển một ứng dụng chia sẻ tệp dựa trên cấu trúc của c++ để lưu trữ và truy vấn dữ liệu.
- Năm 2004, #Google xuất bản một bài báo về một quá trình gọi là #MapReduce sử dụng một kiến trúc tương tự. MapReduce cung cấp một mô hình xử lý song song, và phát hành những ứng dụng liên quan để xử lý lượng dữ liệu khổng lồ.
- Năm 2005 Roger Mougalas từ O'Reilly Media đã đặt ra thuật ngữ Big Data lần đầu tiên, chỉ một năm sau khi họ tạo ra thuật ngữ Web 2.0 cũng là năm mà Hadoop đã được tạo ra bởi Yahoo! được xây dựng trên MapReduce của Google. Mục tiêu của nó là lập chỉ mục toàn bộ World Wide Web và ngày nay Hadoop là mã nguồn mở được nhiều tổ chức sử dụng để giải quyết vấn đề số lượng lớn dữ liệu.
Đặc trưng
Khối lượng dữ liệu (Volume)
Đây là đặc điểm tiêu biểu nhất của dữ liệu lớn, khối lượng dữ liệu rất lớn. Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu. Dữ liệu truyền thống có thể lưu trữ trên các thiết bị đĩa mềm, đĩa cứng. Nhưng với dữ liệu lớn chúng ta sẽ sử dụng công nghệ đám mây mới đáp ứng khả năng lưu trữ được dữ liệu lớn này.
Tốc độ (Velocity)
- Khối lượng dữ liệu gia tăng rất nhanh (mỗi giây có tới 72,9 triệu các yêu cầu truy cập tìm kiếm trên web bán hàng của #Amazon).
- Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa dữ liệu được xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng mili giây). Các ứng dụng phổ biến trên lĩnh vực như: Internet, tài chính, ngân hàng, hàng không, quân sự, y tế - sức khỏe như hiện nay phần lớn dữ liệu lớn được xử lý real-time. Công nghệ xử lý dữ liệu lớn ngày nay đã cho phép chúng ta xử lý tức thì trước khi chúng được lưu trữ vào cơ sở dữ liệu.
Đa dạng (Variety)
Đối với dữ liệu truyền thống chúng ta hay nói đến dữ liệu có cấu trúc, thì ngày nay hơn 80% dữ liệu được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, bài hát, dữ liệu từ thiết bị cảm biến vật lý, thiết bị chăm sóc sức khỏe,…). Big Data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau. Ví dụ, với các bình luận của một nhóm người dùng nào đó trên Facebook với thông tin video được chia sẻ từ Youtube và Twitter.
Độ tin cậy và chính xác (Veracity)
Một trong những tính chất phức tạp nhất của dữ liệu lớn là độ tin cậy và chính xác của dữ liệu. Với xu hướng phương tiện truyền thông xã hội (Social Media) và mạng xã hội (Social Network) ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng làm cho bức tranh xác định về độ tin cậy và chính xác của dữ liệu ngày một khó khăn hơn. Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và dữ liệu nhiễu đang là tính chất quan trọng của Big Data.
Giá trị (Value)
Giá trị là đặc điểm quan trọng nhất của dữ liệu lớn, vì khi bắt đầu triển khai xây dựng dữ liệu lớn thì việc đầu tiên chúng ta cần phải làm đó là xác định được giá trị của thông tin mang lại như thế nào, khi đó chúng ta mới có quyết định có nên triển khai dữ liệu lớn hay không. Nếu chúng ta có dữ liệu lớn mà chỉ nhận được 1% lợi ích từ nó, thì không nên đầu tư phát triển dữ liệu lớn. Kết quả dự báo chính xác thể hiện rõ nét nhất về giá trị của dữ liệu lớn mang lại. Ví dụ, từ khối dữ liệu phát sinh trong quá trình khám, chữa bệnh sẽ giúp dự báo về sức khỏe được chính xác hơn, sẽ giảm được chi phí điều trị và các chi phí liên quan đến y tế.
Sự lớn của dữ liệu (Big Data)
Big #Data là cuộc cách mạng hóa toàn bộ các ngành công nghiệp và thay đổi văn hóa cũng như hành vi của con người. Đó là kết quả của thời đại thông tin và đang thay đổi cách mà mọi người đang suy nghĩ và giúp mọi người có sự thành công trong công việc.
Dưới đây là một số ví dụ về sử dụng dữ liệu lớn:
- Dữ liệu lớn đang được sử dụng trong y tế để lập bản đồ dịch bệnh và thử nghiệm phương pháp điều trị thay thế.
- NASA sử dụng dữ liệu lớn để khám phá vũ trụ.
- Các ngành công nghiệp âm nhạc thay thế trực giác với các nghiên cứu Big Data.
- Các tiện ích sử dụng Big Data để nghiên cứu hành vi của khách hàng.
- Nike sử dụng thiết bị chăm sóc sức khỏe để theo dõi khách hàng và cung cấp phản hồi về sức khoẻ của họ.
- Dữ liệu lớn đang được sử dụng trong an ninh không gian mạng để ngăn chặn hành vi phạm tội mạng.
Vì sao phải nghiên cứu Big Data
- Dữ liệu lớn có ba đặc trưng cơ bản: Dung lượng lớn, vận tốc lớn và tính đa dạng của dữ liệu.
- Dữ liệu lớn không chỉ là thách thức dành cho tổ chức và doanh nghiệp. Hơn thế, dữ liệu lớn là cơ hội để tìm kiếm những thông tin chiến lược từ những dạng dữ liệu mới, để bảo đảm rằng công việc được hoạt động trôi chảy, có hiệu quả hơn, và cũng là cơ hội để tìm ra câu trả lời cho những vấn đề mà trước đây chưa có lời giải đáp.
- Big Data không chỉ ứng dụng trong kinh doanh mà còn có khả năng tác động đến hầu hết các ngành nghề khác. Chính phủ các nước có thể ứng dụng Big Data để dự đoán tỷ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục phù hợp hoặc cắt giảm chi tiêu, kích thích tăng trưởng kinh tế, thậm chí dự đoán sự phát triển của mầm bệnh và khoanh vùng sự lây lan của bệnh dịch. Nói cách khác, Big Data sẽ là công cụ thúc đẩy sự phát triển kinh tế - xã hội trong tương lai.