πŸ’» Computer Science/Database

λ°μ΄ν„°λ² μ΄μŠ€ 개둠 - λ°μ΄ν„°λ² μ΄μŠ€ κΈ°λ³Έ κ°œλ…

Dev_sHu 2024. 4. 2. 01:29

1) λ°μ΄ν„°λ² μ΄μŠ€μ˜ ν•„μš”μ„±

 

(1) 데이터와 정보

  • λ°μ΄ν„°λŠ” ν˜„μ‹€ μ„Έκ³„μ—μ„œ λ‹¨μˆœνžˆ κ΄€μ°°ν•˜κ±°λ‚˜ μΈ‘μ •ν•˜μ—¬ μˆ˜μ§‘ν•œ 사싀 (Fact)μ΄λ‚˜ κ°’ (Value)을 μ˜λ―Έν•˜λ©° 자료 라고도 λΆˆλ¦¬μš΄λ‹€.

 

  • μ •λ³΄λŠ” 데이터λ₯Ό μ˜μ‚¬ 결정에 μœ μš©ν•˜κ²Œ ν™œμš©ν•  수 μžˆλ„λ‘ μ²˜λ¦¬ν•˜μ—¬ μ²΄κ³„μ μœΌλ‘œ μ‘°μ§ν•œ 결과물이닀.

 

  • λ°μ΄ν„°μ—μ„œ 정보λ₯Ό μΆ”μΆœν•˜λŠ” κ³Όμ • λ˜λŠ” 방법을 정보 처리 (Information Processing)라고 λΆ€λ₯΄λ©°, 데이터λ₯Ό 상황에 맞게 λΆ„μ„ν•˜κ±°λ‚˜ ν•΄μ„ν•˜μ—¬ 데이터 κ°„μ˜ 의미 관계λ₯Ό νŒŒμ•…ν•˜λŠ” 것이닀.

 

(2) 데이터λ₯Ό λ°μ΄ν„°λ² μ΄μŠ€μ— μ €μž₯

  • ν˜„λŒ€μ‚¬νšŒμ—μ„œ κ°œμΈμ΄λ‚˜ 쑰직의 성곡 μ—¬λΆ€λ₯Ό κ²°μ •μ§“λŠ” μ€‘μš”ν•œ μš”μ†ŒλŠ” 정보이며 μ΄λŠ” 정보가 κ°œμΈμ΄λ‚˜ 쑰직이 μ˜¬λ°”λ₯Έ μ˜μ‚¬ 결정을 λ‚΄λ¦¬λŠ”λ° μ€‘μš”ν•œ νŒλ‹¨ 기쀀이 되기 λ•Œλ¬Έμ΄λ‹€.

 

  • 그리고 κ°€μΉ˜ μžˆλŠ” 정보λ₯Ό μ–»κΈ° μœ„ν•΄μ„œλŠ” ν˜„μž¬ 상황을 μ •ν™•νžˆ κ΄€μ°°ν•˜κ³  μΈ‘μ •ν•˜μ—¬ 의미 μžˆλŠ” 데이터λ₯Ό 많이 μˆ˜μ§‘ν•΄μ•Ό ν•œλ‹€.

 

  • λ˜ν•œ, μˆ˜μ§‘ν•œ 데이터λ₯Ό 효율적으둜 μ €μž₯ν–ˆλ‹€κ°€ ν•„μš”ν•  λ•Œ μ–Έμ œλ“  μ‚¬μš©ν•  수 μžˆμ–΄μ•Ό ν•˜λŠ” λ“± μ΄λŸ¬ν•œ 것듀을 λͺ¨λ‘ λ°μ΄ν„°λ² μ΄μŠ€κ°€ λŒ€μ‹  관리해쀀닀!

 

2) λ°μ΄ν„°λ² μ΄μŠ€ μ •μ˜μ™€ νŠΉμ§•

 

(1) λ°μ΄ν„°λ² μ΄μŠ€μ˜ μ •μ˜

  • λ°μ΄ν„°λ² μ΄μŠ€λΌλŠ” μš©μ–΄λŠ” 1963λ…„ 컴퓨터 μ€‘μ‹¬μ˜ λ°μ΄ν„°λ² μ΄μŠ€ 개발과 관리 (Development and Management of a Computer-centered Data Base) μ‹¬ν¬μ§€μ—„μ—μ„œ κ³΅μ‹μ μœΌλ‘œ 처음 μ†Œκ°œλ˜μ—ˆλ‹€.

 

  • λ°μ΄ν„°λ² μ΄μŠ€λŠ” μ‰½κ²Œ 말해 κ΄€λ ¨μžˆλŠ” 데이터λ₯Ό λͺ¨μ•„λ‘λŠ” 창고둜 생각할 수 μžˆμ§€λ§Œ 의미λ₯Ό 보닀 μ •ν™•νžˆ νŒŒμ•…ν•˜κΈ° μœ„ν•΄ 널리 ν†΅μš©λ˜λŠ” μ •μ˜λ₯Ό 보자!

일반적으둜 λ°μ΄ν„°λ² μ΄μŠ€λŠ” νŠΉμ • 쑰직의 μ—¬λŸ¬ μ‚¬μš©μžκ°€ '곡유'ν•˜μ—¬ μ‚¬μš©ν•  수 μžˆλ„λ‘ '톡합'ν•΄μ„œ 'μ €μž₯'ν•œ '운영' λ°μ΄ν„°μ˜ 집합이닀.

 

곡유 데이터 (Shared Data)

  • λ°μ΄ν„°λ² μ΄μŠ€λŠ” νŠΉμ • 쑰직의 μ—¬λŸ¬ μ‚¬μš©μžκ°€ ν•¨κ»˜ μ†Œμœ ν•˜κ³  μ΄μš©ν•  수 μžˆμ–΄μ•Ό ν•˜λŠ” 곡용 데이터이닀.

 

톡합 데이터 (Integrated Data)

  • λ°μ΄ν„°λ² μ΄μŠ€λŠ” 데이터 쀑볡성 (Data Redundancy), 즉 λ˜‘κ°™μ€ 데이터가 μ—¬λŸ¬ 개 μ‘΄μž¬ν•˜λŠ” 것을 ν—ˆμš©ν•˜μ§€ μ•ŠλŠ”λ‹€.

 

  • 데이터가 μ€‘λ³΅λ˜λ©΄ κ΄€λ¦¬ν•˜κΈ° μ–΄λ €μš΄ λ¬Έμ œκ°€ λ°œμƒν•  수 있기 λ•Œλ¬Έμ΄λ‹€.

 

  • ν•˜μ§€λ§Œ νš¨μœ¨μ„± λ•Œλ¬Έμ— 쀑볡을 μ˜λ„μ μœΌλ‘œ ν—ˆμš©ν•˜λŠ” κ²½μš°λ„ μžˆμœΌλ―€λ‘œ 톡합 λ°μ΄ν„°λŠ” λ°μ΄ν„°μ˜ 쀑볡을 μ΅œμ†Œν™”ν•˜κ³  ν†΅μ œκ°€ κ°€λŠ₯ν•œ μ€‘λ³΅λ§Œ ν—ˆμš©ν•˜λŠ” λ°μ΄ν„°λΌλŠ” 의미둜 μ΄ν•΄ν•˜μž!

 

μ €μž₯ 데이터 (Stored Data)

  • λ°μ΄ν„°λ² μ΄μŠ€μ˜ λ°μ΄ν„°λŠ” 주둜 컴퓨터가 μ²˜λ¦¬ν•˜λ―€λ‘œ, 컴퓨터가 μ ‘κ·Όν•  수 μžˆλŠ” 맀체에 λ°μ΄ν„°λ² μ΄μŠ€λ₯Ό μ €μž₯ν•΄μ•Ό ν•œλ‹€.

 

운영 데이터 (Operational Data)

  • λ°μ΄ν„°λ² μ΄μŠ€λŠ” 쑰직을 μš΄μ˜ν•˜κ³  쑰직의 μ£Όμš” κΈ°λŠ₯을 μˆ˜ν–‰ν•˜κΈ° μœ„ν•΄ κΌ­ ν•„μš”ν•˜λ‹€.

 

  • μΌμ‹œμ μœΌλ‘œ μ‚¬μš©ν•˜κ³  λ§ˆλŠ” 것이 μ•„λ‹Œ, μ§€μ†μ μœΌλ‘œ μœ μ§€ν•΄μ•Ό ν•˜λŠ” 데이터이닀!

 

(2) λ°μ΄ν„°λ² μ΄μŠ€μ˜ νŠΉμ§•

  • λ°μ΄ν„°λ² μ΄μŠ€μ— λŒ€ν•œ μ •μ˜λ₯Ό λ°”νƒ•μœΌλ‘œ λ°μ΄ν„°λ² μ΄μŠ€μ˜ μ£Όμš” νŠΉμ§•μ„ μ‚΄νŽ΄ 보자!

μ‹€μ‹œκ°„ μ ‘κ·Ό (Real-time Accessibility)

  • λ°μ΄ν„°λ² μ΄μŠ€λŠ” μ‚¬μš©μžμ˜ 데이터 μš”κ΅¬μ— μ‹€μ‹œκ°„μœΌλ‘œ 응닡할 수 μžˆμ–΄μ•Ό ν•œλ‹€.

 

  • μ‹€μ‹œκ°„ μ²˜λ¦¬μ—μ„œλŠ” μ‚¬μš©μžμ˜ 개인 νŠΉμ„±μ΄λ‚˜ μ œκ³΅λ˜λŠ” μ„œλΉ„μŠ€ μœ ν˜•μ— 따라 ν—ˆμš©λ˜λŠ” 응닡 μ‹œκ°„μ€ λ‹€ λ‹€λ₯΄κ² μ§€λ§Œ λŒ€κ°œ λͺ‡ 초λ₯Ό λ„˜μ§€ μ•ŠλŠ” μ‹œκ°„ 내에 데이터λ₯Ό μ œκ³΅ν•΄μ•Ό ν•œλ‹€!!

 

지속적인 λ³€ν™” (Continuous Evolution)

  • λ°μ΄ν„°λ² μ΄μŠ€λŠ” ν˜„μ‹€ μ„Έκ³„μ˜ μƒνƒœλ₯Ό μ •ν™•νžˆ λ°˜μ˜ν•΄μ•Ό μ˜λ―Έκ°€ μžˆλŠ”λ° λ‹€λ§Œ ν˜„μ‹€ μ„Έκ³„λŠ” λŠμž„μ—†μ΄ λ³€ν•˜κΈ° λ•Œλ¬Έμ— λ°μ΄ν„°λ² μ΄μŠ€μ— μ €μž₯된 데이터도 ν˜„μ‹€μ— λ§žμΆ”μ–΄ 계속 λ³€ν•΄μ•Ό ν•œλ‹€.

 

  • 즉, μ •λ¦¬ν•˜μžλ©΄ λ°μ΄ν„°λ² μ΄μŠ€λŠ” λ™μ μ΄λ―€λ‘œ 데이터λ₯Ό 계속 μ‚½μž…, μ‚­μ œ, μˆ˜μ •ν•˜μ—¬ ν˜„μž¬μ˜ μ •ν™•ν•œ 데이터λ₯Ό μœ μ§€ν•΄μ•Ό ν•œλ‹€λŠ” 것이닀!

 

λ™μ‹œ 곡유 (Concurrent Sharing)

  • λ°μ΄ν„°λ² μ΄μŠ€λŠ” μ—¬λŸ¬ μ‚¬μš©μžκ°€ λ™μ‹œμ— μ΄μš©ν•  수 μžˆλŠ” λ™μ‹œ 곡유의 νŠΉμ§•μ„ μ œκ³΅ν•΄μ•Ό ν•œλ‹€.

 

λ‚΄μš©μœΌλ‘œ μ°Έμ‘° (Content Reference)

  • λ°μ΄ν„°λ² μ΄μŠ€λŠ” μ €μž₯된 μ£Όμ†Œλ‚˜ μœ„μΉ˜κ°€ μ•„λ‹Œ λ°μ΄ν„°μ˜ λ‚΄μš© (Content), 즉 κ°’μœΌλ‘œ μ°Έμ‘°ν•  수 μžˆλ‹€.

 

  • 일반적으둜 컴퓨터에 μ €μž₯된 λ°μ΄ν„°λŠ” μ €μž₯ μ£Όμ†Œλ₯Ό μ•Œμ•„μ•Ό 검색이 κ°€λŠ₯ν•œ 반면 λ°μ΄ν„°λ² μ΄μŠ€λŠ” λ°μ΄ν„°μ˜ λ‚΄μš©λ§ŒμœΌλ‘œλ„ 검색이 κ°€λŠ₯ν•˜λ‹€

 

  • 예λ₯Ό λ“€μ–΄, 'μž¬κ³ λŸ‰μ΄ 500개 이상인 μ œν’ˆμ˜ 이름을 κ²€μƒ‰ν•˜μ„Έμš”' 처럼 찾고자 ν•˜λŠ” λ°μ΄ν„°μ˜ λ‚΄μš© 쑰건만 μ œμ‹œν•˜λ©΄ 쑰건에 λ§žλŠ” 데이터가 μ„œλ‘œ λ‹€λ₯Έ μœ„μΉ˜μ— μ €μž₯λ˜μ–΄ μžˆμ–΄λ„ λͺ¨λ‘ 검색할 수 μžˆλ‹€.

 

3) 데이터 κ³Όν•™ μ‹œλŒ€μ˜ 데이터

 

(1) ν˜•νƒœμ— λ”°λ₯Έ 데이터 λΆ„λ₯˜

  • λ°μ΄ν„°λŠ” κ΅¬μ‘°ν™”λœ ν˜•νƒœμ— 따라 μ •ν˜• 데이터, λ°˜μ •ν˜• 데이터, λΉ„μ •ν˜• λ°μ΄ν„°λ‘œ λΆ„λ₯˜ν•  수 μžˆλ‹€.

 

μ •ν˜• 데이터 (Structed Data)

μ •ν˜• λ°μ΄ν„°λŠ” κ΅¬μ‘°ν™”λœ 데이터, 즉 미리 μ •ν•΄μ§„ ꡬ쑰에 따라 μ €μž₯된 데이터λ₯Ό λ§ν•œλ‹€.

  • λŒ€ν‘œμ μΈ μ˜ˆμ‹œλ‘œ μ—‘μ…€μ˜ μŠ€ν”„λ ˆλ“œμ‹œνŠΈ, κ΄€κ³„ν˜• λ°μ΄ν„°λ² μ΄μŠ€μ˜ ν…Œμ΄λΈ”μ΄ μžˆλ‹€.

 

[Note] μŠ€ν‚€λ§ˆ
미리 μ •ν•΄μ§„ 데이터 ꡬ쑰λ₯Ό μŠ€ν‚€λ§ˆ (Schema)라고 λΆ€λ₯Έλ‹€.

 

λ°˜μ •ν˜• 데이터 (Semi-Structed Data)

λ°˜μ •ν˜• λ°μ΄ν„°λŠ” ꡬ쑰에 따라 μ €μž₯된 λ°μ΄ν„°μ΄μ§€λ§Œ μ •ν˜• 데이터와 달리 데이터 λ‚΄μš© μ•ˆμ— ꡬ쑰에 λŒ€ν•œ μ„€λͺ…이 ν•¨κ»˜ μ‘΄μž¬ν•œλ‹€.

  • 데이터 λ‚΄μš© μ•ˆμ— ꡬ쑰에 λŒ€ν•œ μ„€λͺ…이 ν•¨κ»˜ λ“€μ–΄ μžˆμ–΄ ꡬ쑰λ₯Ό νŒŒμ•…ν•˜λŠ” νŒŒμ‹± (Parsing) 과정이 ν•„μš”ν•˜κ³ , 보톡 파일 ν˜•νƒœλ‘œ μ €μž₯λœλ‹€.

 

  • λŒ€ν‘œμ μΈ μ˜ˆμ‹œλ‘œ μ›Ήμ—μ„œ 데이터λ₯Ό κ΅ν™˜ν•˜κΈ° μœ„ν•΄ μž‘μ„±ν•˜λŠ” HTML, XML, JSON λ¬Έμ„œ 등이 μžˆλ‹€.

 

[Note] 메타 데이터 (Metadata)
λ‚΄μš©κ³Ό ν•¨κ»˜ μ„€λͺ…λœ 데이터 ꡬ쑰λ₯Ό μŠ€ν‚€λ§ˆ 라고도 ν•˜μ§€λ§Œ 메타 데이터 라고도 ν•œλ‹€.

 

λΉ„μ •ν˜• 데이터 (Unstructed Data)

λΉ„μ •ν˜• λ°μ΄ν„°λŠ” μ •ν•΄μ§„ ꡬ쑰가 없이 μ €μž₯된 데이터λ₯Ό λ§ν•œλ‹€.

  • λŒ€ν‘œμ μΈ μ˜ˆμ‹œλ‘œ μ†Œμ…œ λ°μ΄ν„°μ˜ ν…μŠ€νŠΈ, μ˜μƒ, 이미지, μŒμ„±, μ›Œλ“œλ‚˜ PPT λ¬Έμ„œ 등이 μžˆλ‹€.

 

(2) νŠΉμ„±μ— λ”°λ₯Έ 데이터 λΆ„λ₯˜

  • λ°μ΄ν„°λŠ” νŠΉμ„±μ— 따라 λ²”μ£Όν˜• 데이터와 μˆ˜μΉ˜ν˜• λ°μ΄ν„°λ‘œ λΆ„λ₯˜ν•  수 μžˆλ‹€.

 

λ²”μ£Όν˜• 데이터 (Categorical Data)

λ²”μ£Όν˜• λ°μ΄ν„°λŠ” λ²”μ£Ό (Category)둜 ꡬ뢄할 수 μž†λŠ” κ°’, 즉 μ’…λ₯˜λ₯Ό λ‚˜νƒ€λ‚΄λŠ” 값을 κ°€μ§„ 데이터λ₯Ό μ˜λ―Έν•œλ‹€.

  • λ˜ν•œ, λ²”μ£Όν˜• λ°μ΄ν„°λŠ” λͺ…λͺ©ν˜• 데이터와 μˆœμ„œν˜• λ°μ΄ν„°λ‘œ λ‹€μ‹œ μ„ΈλΆ„ν™” ν•  수 μžˆλŠ”λ° λͺ…λͺ©ν˜• λ°μ΄ν„°λŠ” μ„œμ—΄μ΄ μ—†λŠ” 값을 κ°€μ§€λŠ” 데이터이고 μˆœμ„œν˜• λ°μ΄ν„°λŠ” μ„œμ—΄μ΄ μžˆλŠ” 값을 κ°€μ§€λŠ” 데이터λ₯Ό λ§ν•œλ‹€.

 

  • 예λ₯Ό λ“€μ–΄, ν˜ˆμ•‘ν˜•, κ±°μ£Ό μ§€μ—­, μŒμ•… μž₯λ₯΄ 등은 λͺ…λͺ©ν˜• 데이터에 ν•΄λ‹Ήν•˜κ³  ν•™λ…„, νšŒμ› λ“±κΈ‰, 학점 등이 μˆœμ„œν˜• 데이터에 ν•΄λ‹Ήν•œλ‹€.

 

  • 그리고 λ²”μ£Όν˜• λ°μ΄ν„°λŠ” λŒ€λΆ€λΆ„ 문자 νƒ€μž…μ˜ κ°’μœΌλ‘œ 양적 μΈ‘λ©΄μ—μ„œ 크기 비ꡐ와 μ‚°μˆ μ μΈ 연산이 κ°€λŠ₯ν•˜μ§€ μ•ŠκΈ° λ•Œλ¬Έμ— 질적 데이타 (Qualitative Data) 라고도 λΆ€λ₯Έλ‹€.

 

μˆ˜μΉ˜ν˜• 데이터 (Numerical Data)

μˆ˜μΉ˜ν˜• λ°μ΄ν„°λŠ” 양적 μΈ‘λ©΄μ—μ„œ 크기 비ꡐ와 μ‚°μˆ μ μΈ 연산이 κ°€λŠ₯ν•œ 숫자 값을 κ°€μ§„ 데이터λ₯Ό μ˜λ―Έν•œλ‹€.

  • λ˜ν•œ, μˆ˜μΉ˜ν˜• λ°μ΄ν„°λŠ” μ΄μ‚°ν˜• 데이터와 μ—°μ†ν˜• λ°μ΄ν„°λ‘œ λ‹€μ‹œ μ„ΈλΆ„ν™” ν•  수 μžˆλŠ”λ° μ΄μ‚°ν˜• λ°μ΄ν„°λŠ” λ‹¨μ ˆλœ 숫자 값을 κ°€μ§€λŠ” 데이터이고 μ—°μ†ν˜• λ°μ΄ν„°λŠ” μ—°μ†μ μœΌλ‘œ 이어진 숫자 값을 κ°€μ§€λŠ” 데이터λ₯Ό λ§ν•œλ‹€.

 

  • 예λ₯Ό λ“€μ–΄, 고객 수, νŒλ§€λž‘, ν•©κ²©μž 수 등이 μ΄μ‚°ν˜• 데이터에 ν•΄λ‹Ήν•˜κ³  ν‚€, λͺΈλ¬΄κ²Œ, μ˜¨λ„, 점수 등이 μ—°μ†ν˜• 데이터에 ν•΄λ‹Ήν•œλ‹€.

 

  • 그리고 μˆ˜μΉ˜ν˜• λ°μ΄ν„°λŠ” λ²”μ£Όν˜• 데이터와 달리 크기 비ꡐ와 μ‚°μˆ μ μΈ 연산이 κ°€λŠ₯ν•˜μ—¬ 양적 데이터 (Quantitative Data) 라고도 λΆ€λ₯Έλ‹€.

 

[Reference]

  • λ°μ΄ν„°λ² μ΄μŠ€ 개둠 (김연희)
λ°˜μ‘ν˜•