Thứ Sáu, 8 tháng 5, 2015

Big Data eps.3 - Sự tiến hóa của Big data

Dữ liệu dạng Flat File

Data in Flat File

Dữ liệu được lưu trong các tập tin văn bản thường không chứa cấu trúc (flat file). Không có khả năng truy xuất dữ liệu hiệu quả và việc tích hợp dữ liệu không thể thực hiện khi không có bất kỳ mô hình hay cấu trúc xung quanh. Dữ liệu lưu trong flat file sẽ gặp vấn đề về khai thác trong thời đại ngày nay. Nó như một cơn ác mộng khi có bất kỳ xử lý dữ liệu trong ứng dụng. Mặc dù các ứng dụng được phát triển tại thời điểm đó là phù hợp với sự phát triển của kỹ thuật và dữ liệu.

Edgar F Codd và 12 quy luật

Edgar_F_Code_and_12_Rules

Edgar Codd Frank là nhà khoa học máy tính người Anh, trong khi làm việc cho IBM, đã phát minh mô hình quan hệ quản lý cơ sở dữ liệu, cơ sở lý thuyết cho cơ sở dữ liệu quan hệ. Ông đã trình bày 12 quy tắc cho cơ sở dữ liệu quan hệ và đột nhiên sự hỗn loại của thế giới dữ liệu trở nên có quy tắc, kỹ luật. Cơ sở dữ liệu quan hệ là một vùng đất đầy hứa hẹn cho tất cả những người dùng cơ sở dữ liệu không có cấu trúc. Cơ sở dữ liệu quan hệ mang đến mối quan hệ giữa dữ liệu cũng như cải thiện hiệu suất truy xuất dữ liệu.

Cơ sở dữ liệu quan hệ

Enormous_Data_Growth

Kể từ khi Edgar F Codd đề xuất 12 quy tắc cho RDBMS, có nhiều nhà cung cấp khác nhau bắt đầu xây dựng các ứng dụng và công cụ hỗ trợ mối quan hệ giữa cơ sở dữ liệu. Mô hình thực thể quan hệ (ER) cũng được phát triển để mô tả một cơ sở dữ liệu một cách trừu tượng.

Tăng trưởng dữ liệu rất lớn

Tất cả mọi thứ có vẻ tốt đẹp với RDBMS trong thế giới cơ sở dữ liệu. Các ứng dụng và công cụ cho RDBMS giúp cuộc sống của nhà phát triển dễ dàng hơn rất nhiều. Do sự phổ biến và dễ dàng cài đặt của RDBMS, hầu như mọi dữ liệu đều được lưu trữ trong RDBMS. Các ứng dụng thời đại mới được xây dựng phương tiện truyền thông xã hội phát triển nhanh. Mỗi tổ chức đều có áp lực trong việc cung cấp trải nghiệm tốt hơn cho người dùng dựa trên dữ liệu hiện có.

Data Warehousing

Sự tăng trưởng dữ liệu khổng lồ hiện tại đang tạo ra thách thức lớn cho các tổ chức, những người muốn xây dựng hệ thống thông minh dựa trên dữ liệu và cung cấp trải nghiệm người dùng theo thời gian thực cho khách hàng. Các tổ chức khác nhau ngay lập tức bắt đầu xây dựng giải pháp kho dữ liệu, nơi dữ liệu được lưu trữ và xử lý. Xu hướng kinh doanh thông minh (business intelligence) đã trở thành nhu cầu hàng ngày. Dữ liệu nhận được từ hệ thống giao dịch qua đêm sẽ được sử lý để xây dựng báo cáo thông minh. Mặc dù đây là 1 giải pháp tuyệt vời, nó cung đem đến nhiều thách thức. Mô hình cơ sở dữ liệu quan hệ và các khái nhiệm kho dữ liệu tất cả đều được xây dựng dựa trên mô hình cơ sở dữ liệu quan hệ truyền thống, vốn đã có trong tâm trí và vẫn còn nhiều thách thức khi đã có sự xuất hiện của dữ liệu không có cấu trúc.

Thách thức thú vị

Interesting_Challenge

Mỗi tổ chức đều có chuyên môn để quản lý dữ liệu có cấu trúc nhưng thế giới đã thay đổi thêm dữ liệu không có cấu trúc. Có thông tin thông minh trong video, photo, SMS, text, các tin nhắn mạng xã hội,… Tất cả những điều này cần phải mang đến 1 nền tảng duy nhất và xây dựng 1 hệ thống thống nhất  cho những gì doanh nghiệp cần. Cách chúng ta làm kinh doanh cũng đã thay đổi. Có 1 thời gian khi người dùng chỉ dùng những tính năng mà công nghệ hỗ trợ, tuy nhiên, bây giờ người dùng yêu cầu những tính năng và công nghệ phải được xây dựng để hỗ trợ. Nhu cầu ứng dụng thông minh thời gian thực từ các luồng dữ liệu tốc độ nhanh đang trở thành cần thiết.

Một lượng lớn (volume) dữ liệu tốc độ cao (Velocity) khác nhau (Variety) là các thuộc tính của dữ liệu. Hệ thống cơ sở dữ liệu truyền thống có giới hạn khi giải quyết các thách thức mới. Đây là nhu cầu của khoa học big data. Chúng ta cần đổi mới cách xử lý và quản lý dữ liệu. Chúng ta cần những cách sáng tạo để thu thập dữ liệu và trình bày cho người dùng.

Big Data eps.1 - Bắt đầu với Big data

Big Data – Bắt đầu Big Data

  • Big Data là gì?
  • Tôi muốn học Big Data. Tôi không biết cách bắt đầu học như thế nào.
  • Big Data thật sự có ý nghĩa là dữ liệu thì lớn?
  • Những công cụ và phần mềm gì cần biết khi học Big Data?

Trên đây là những câu hỏi rất hay, chân thật và cũng khó để tìm được câu trả lời thỏa đáng.

Big Data – Big Thing!

Big Data đang trở thành một trong những xu hướng công nghệ được nói đến nhiều nhất. Thách thức thật sự với các tổ chức lớn là tối đa hóa khả năng của dữ liệu sẵn có và dự đoán loại dữ liệu gì cần thu thập trong tương lai. Làm thế nào để sử dụng dữ liệu đã có và làm cho chúng có ý nghĩa để có được cái nhìn sâu sắc là một trong những chủ đề thảo luận chính trong cuộc họp của các tổ chức. Với sự bùng nổ dữ liệu, Big Data đang trở thành thực tế trong nhiều tổ chức.

Big Data – Một khối Rubik

rubik_cube

Có thể so sánh big data với khối Rubik vì chúng có nhiều điểm tương đồng. Cũng giống khối Rubik có nhiều giải pháp khác nhau. Hãy hình dung thách thức giải quyết khối Rubik khi có nhiều chuyên gia tham gia. Nếu có 5 khối Rubik và đảo vị trí các thành phần trong khối Rubik theo cùng một cách, và đưa nó cho 5 chuyên gia khác nhau giải quyết. Có thể là tất cả 5 người sẽ giải quyết khối Rubik nhanh, và mặc dù kết quả cuối cùng giống nhau, con đường đi đến kết quả là khác nhau. Mỗi chuyên gia sẽ bắt đầu tại 1 vị trí khác nhau và cố gắng giải quyết nó với các phương pháp khác nhau. Một số chuyên gia sẽ giải quyết một màu đầu tiên và những người khác giải quyết màu sắc khác đầu tiên. Thậm chí họ dùng 1 thuật toán để giải quyết, họ cũng sẽ bắt đầu và kết thúc tại 1 nơi khác nhau và các di chuyển của họ sẽ khác nhau. Gần như không thể có cùng 1 tuyến đường giống nhau giữa 2 chuyên gia.

Thị trường lớn và nhiều giải pháp

Big Data cũng giống như khối Rubik – mặc dù mục tiêu của mỗi tổ chức và chuyên gia là như nhau để nhận được tối đa hóa dữ liệu, con đường và điểm bắt đầu là khác nhau với từng tổ chức và chuyên gia. Không có một giải pháp duy nhất cho big data và cũng không có một nhà cung cấp duy nhất có thể cho biết tất cả về big data. Thành thật, big data là một khái niệm quá lớn và có rất nhiều người tham gia – các kiến trúc khác nhau, các nhà cung cấp khác nhau và các công nghệ khác nhau.

Tiếp theo là gì?

Các chủ được đề cập trong chương trình:

  • Kiến trúc của big data
  • Quản lý và cài đặt big data
  • Các công nghệ khác nhau – Hadoop, Mapreduce
  • Các trường hợp tốt nhất từ thực tế

Thứ Năm, 7 tháng 5, 2015

Big Data eps.2 - Big Data là gì?. So sánh Volume, Velocity và Variety


3V
Dữ liệu là mãi mãi, đây là sự thật. Bạn có đang dùng 1 ứng dụng được xây dựng cách đây 10 năm? Bạn có đang dùng các phần cứng được tạo ra cách đây 10 năm? Câu trả lời đa phần là không. Tuy nhiên, nếu hỏi – bạn có đang dùng dữ liệu đã có cách đây 50 năm? câu trả lời chắc chắn là có. Ví dụ, nhìn vào lịch sử của dân tộc, hay như dữ liệu ngày sinh nhật của chúng ta – ít nhất chúng ta cũng đang sử dụng nó đến ngày hôm nay. Dữ liệu không bao giờ cũ và nó sẽ được lưu giữ mãi.
Các tổ chức ngày càng phát triển, dữ liệu liên quan cũng phát triển và ngày càng phức tạp hơn. Hầu hết các tổ chức lớn đều có dữ liệu trong nhiều ứng dụng và định dạng khác nhau. Dữ liệu dàn trải rất khó để phân loại với chỉ 1 thuật toán duy nhất. Cuộc cách mạng di động đã hoàn toàn thay đổi cách chúng ta thu thập dữ liệu và xây dựng các hệ thống thông minh. Các tổ chức lớn đang thực sự đối mặt với thách thức để giữ tất cả dữ liệu trên một nền tảng để cho họ một cái nhìn nhất quán tất cả dữ liệu đang có.
Định nghĩa Big Data
3Vs để định nghĩa big data là Variety, Velocity và Volume.
https://dinhnguyenngoc.files.wordpress.com/2014/07/3vs_of_bigdata.png
Volume (Khối lượng)
Hiện tại, chúng ta đang thấy rằng việc lưu trữ dữ liệu (khối lượng) đang tăng trưởng theo cấp số nhân chứ không chỉ đơn thuần là dữ liệu văn bản. Chúng ta có thể tìm thấy dữ liệu trong các định dạng video, music, image lớn trên các kênh truyền thông xã hội. Khối lượng dữ liệu ngày nay có thể lên đến hàng Terabyte và Petabyte. Khối lượng dữ liệu ngày càng phát triển thì các ứng dụng và kiến trúc xây dựng để hỗ trợ dữ liệu cần phải được đánh giá lại khá thường xuyên. Khối lượng lớn dữ liệu thực sự đại diện cho big data.
Velocity (Vận tốc)
Sự tăng trưởng dữ liệu và các phương tiện truyền thông xã hội đã thay đổi cách chúng ta nhìn vào dữ liệu. Có một thời gian khi chúng ta từng tin rằng dữ liệu của ngày hôm qua là gần đây. Vấn đề này với các tờ báo thì vẫn còn hợp lý. Tuy nhiên, các kênh tin tức và radio đã thay đổi rất nhanh (tốc độ) chúng ta nhận được tin tức.  Ngày nay, mọi người trả lời trên kênh truyền thông xã hội để cập nhật những diễn biến mới nhất. Trên phương tiện truyền thông xã hội đôi khi các thông báo cách đó vài giây (tweet, status,….) đã là cũ và không được người dùng quan tâm. Họ thường loại bỏ các tin nhắn cũ và chỉ chú ý đến các cập nhật gần nhất. Sự chuyển động của dữ liệu bây giờ hầu như là thực tế (real time) và tốc độ cập nhật thông tin đã giảm xuống đơn vị hàng mili giây. Vận tốc dữ liệu cao đại diện cho big data.
Variety (Đa dạng)
Dữ liệu có thể được lưu trữ trong nhiều định dạng khác nhau. Ví dụ như: cơ sở dữ liệu, excel, csv, ms access hoặc thậm chí là tập tin văn bản (text). Đôi khi dữ liệu không ở dạng truyền thống như video, sms, pdf,… Điều cần làm của các tổ chức là sắp xếp và làm cho dữ liệu có ý nghĩa. Sẽ dễ dàng để làm điều này nếu dữ liệu có chung 1 định dạng, nhưng thường là không. Thực tế dữ liệu thuộc nhiều định dạng và đó là thách thức của chúng ta. Sự đa dạng của dữ liệu đại diện cho big data.
Big Data nói theo cách đơn giản
Big Data không chỉ là có rất nhiều dữ liệu, nó thật sự là 1 khái niệm cung cấp 1 cơ hội để có cái nhìn sâu sắc vào dữ liệu hiện có cũng như các hướng dẫn để thu thập và phân tích dữ liệu tương lai. Nó làm cho các tổ chức kinh doanh thông minh và mạnh mẽ hơn để có thể thích nghi và vượt qua các thánh thức kinh doanh.