티스토리 뷰

Log/.TIL

[TIL]180619

가그린민트 2018. 6. 19. 09:41


1. .

" 가장 먼저 해야 할 일은 두려움에서 '불안'으로 이동하는 것이다. 두려움은 우리가 정체성을 위협한다고 여기는 외부 대상에 대한 감정인 반면에, 불안은 우리가 두려운 외부의 위협으로 부터 보호하고 싶은 정체성에 문제가 생겼다고 인식할 때 생기는 감정이다. 두려움은 외부 대상을 몰살시키려드는 반면, 불안을 마주하는 방식은 우리를 변화시킨다.

... 새로운 상태로 넘어가는 과정에서 오래된 질서가 생명력을 잃고 새로운 질서가 아직 나타나지 않을 때 공포는 뚜렷이 눈에 두드러지고 비정상화된다. 그리고 그런 희망의 순간에 위대한 행동이 가능해진다. 현 상황의 급박함을 핑계로 삼으면 결코 안된다. 급박하다는 말은 생각을 해야 할 때라는 뜻이다. 

... 하늘 아래 거대한 무질서가 있으니 더할 나위 없이 좋은 상황이다. (거대한 후퇴 中)" 

이주자, 페미니스트, 근본주의 포퓰리스트 등에 대해 자유주의 좌익과 포퓰리즘 우익이 사로잡힌 두려움의 정치를 어떻게 풀어가야 할지에 대한 이야기지만, 삶을 대하는 자세로도 유의미한 거 같다. 


2. 일단은..

무리하지 말자. 일단 지금은 대학원다닐 리소스가 없다.. 더 좋은 기회가 있겠지.

요새 들어 30대내에 대학원, 서비스 출시, 큰 규모의 세미나 참여, 책 출간, 커뮤니티 참여, 오픈소스 메인테이너 등 하고 싶은 것들이 많아졌다.



3. Spark 개요


#### Spark
```
# 범용적 목적의 분산 고성능 클러스터링 플랫폼 (General purpose high performance distributed platform)
# Map & Reduce (cf. Hadoop)
# Streaming 데이타 핸들링 (cf. Apache Storm)
# SQL 기반의 데이타 쿼리 (cf. Hadoop의 Hive)
# 머신 러닝 라이브러리 (cf. Apache Mahout)
스파크는 다양한 연산 모델을 효과적으로 지원하는 맵리듀스(MapReduce) 모델을 대화형(Interactive) 명령어 쿼리나 스트리밍 처리 등이 가능하도록 확장하였다.
스파크는 속도를 높이기 위해 연산을 메모리에서 수행하지만, 이를 디스크에서 돌리더라도 맵리듀스보다 좋은 성능을 보인다.
(맵리듀스는 반복적인 대화형 연산작업에 비효율적이다.)
또한 배치 애플리케이션, 반복 알고리즘, 대화형 쿼리, 스트리밍등의 다양한 워크로드를 단일 시스템에서 지원함으로써 저비용의 데이터 분석 파이프라인을 형성한다.
```
```
# Spark Core
분산 데이터 셋(RDD, Resilient Distributed Dataset)을 정의하는 API의 기반이 되며,
스파크의 모든 작업은 새로운 RDD를 만들거나 존재하는 RDD를 변형하거나 결과 계산을 위해 RDD에서 연산을 호출하는 것 중의 하나로 표현된다.
(작업 스케줄링, 메모리 관리, 장애 복구, 저장장치와의 연동 등)
```
```
# Spark SQL
SQL뿐만 아니라 Hive Table, Parquet, JSON 등 다양한 데이터 소스를 지원한다.
이 때 단순히 SQL 인터페이스를 제공하는 것외에도,
Python, Java, Scalar의 RDD에서 지원하는 코드를 SQL 쿼리와 함께 사용하여 보다 복잡한 분석 작업을 가능케 한다.
```
```
# Spark Streaming
실시간 데이터 스트림(웹 서버가 생성한 로그 파일, 상태 업데이트 메시지들이 저장되는 큐 등 포함)을 처리해주는 컴포넌트이다.
```
```
# MLib
다양한 타입의 머신러닝 알고리즘뿐만 아니라,
모델 평가 및 외부 데이터 불러오기 등의 기능, 최적화 알고리즘등의 ML 핵심 기능들을 지원한다고 한다. (머신러닝을 모르는 관계로 ㅡ.ㅡ)
```
```
# Graph X
그래프(SNS 친구관계 그래프 등)를 다루기 위한 라이브러리로 그래프 병렬 연산을 수행한다.
```
```
# Cluster Manager
yarn, apache mesos, standalone scheduler 등의 매니저 위에서 동작한다.
```
```
# 저장소 계층
HDFS나 Haddop API가 지원하는 다른 저장 시스템(local file system, amazon s3, cassandra, hive, Hbase 등)으로부터 RDD를 만들 수 있다.
하지만 중요한 점은 반드시 하둡을 필요로 하지는 않는 다는 것이다. 단순히 하둡 API를 사용하는 저장시스템들을 지원하는 것 뿐이다.
```


'Log > .TIL' 카테고리의 다른 글

[TIL]180622-0624  (0) 2018.06.22
[TIL]180620  (0) 2018.06.20
[TIL]180618  (0) 2018.06.18
[TIL]180613-0617  (0) 2018.06.17
[TIL]180611-0612  (0) 2018.06.12
댓글
링크
최근에 달린 댓글
«   2024/03   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
Total
Today
Yesterday