일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 클린코드
- MERN스택
- 비슬론지퍼
- 영어시간읽기
- 미국영어연음
- 지연환가료
- 엑셀자동서식
- Armhole Drop
- 요척합의
- 고급영어단어
- 40HQ컨테이너40GP컨테이너차이
- WHATTIMEOFTHEDAY
- AATCC
- 나일론지퍼
- 슈퍼코딩
- 우레탄지퍼
- 자켓실측
- TACKING
- 엑셀드래그단축키
- 엑셀필터복사붙여넣기
- 봉제용어
- 헤이큐
- 암홀트롭
- 와끼
- 웹API
- 미니마카
- 핸드캐리쿠리어차이점
- 40HQ컨테이너
- 필터링후복사붙여넣기
- 비리짐
- Today
- Total
CASSIE'S BLOG
IT 좀 아는 사람 본문
구글 검색은 어떻게 작동할까?
구글Google은 사용자가 검색어를 입력하면 무려 30조 개가 넘는 웹페이지web page를 뒤져서 가장 좋은 결과물을 10개로 추린다.1그러면 사용자는 92%의 확률로 첫 페이지에 나온 결과(즉, 가장 좋은 결과물 10개 중 하나)를 클릭한다 - <IT 좀 아는 사람>, 닐 메타, 아디티야 아가쉐, 파스 디트로자 - 밀리의 서재
https://www.millie.co.kr/v3/bookDetail/9b2807eeb69543c4
IT 좀 아는 사람
아마존 비즈니스 베스트셀러구글 페이스북 마이크로소프트 프로덕트 매니저 3인방이 들려주는 테크 비즈니스 세계의 A to Z디지털 시대 필수 교양인 IT 문법을 쉽게 풀어 줄 IT 교양의 정석유튜브
www.millie.co.kr
크롤링 |
구글의 알고리즘은 인터넷상의 모든 웹페이지를 데이터베이스에 저장하는 것으로 시작된다. 이를 위해 ‘스파이더spider’라는 프로그램을 이용해 웹페이지를 ‘크롤링crawling’ 한다. ‘크롤’은 기어다닌다는 뜻이다. 크롤링은 인터넷에 있는 모든 웹페이지를 찾을 때까지(적어도 구글이 판단하기에 그럴 때까지) 지속된다. 스파이더는 일단 몇 개의 웹페이지를 크롤링해서 ‘색인’이라고 하는 웹페이지 목록에 추가한다. 그리고 각 웹페이지에서 밖으로 나가는 링크, 즉 외부 링크를 따라가서 또 새로운 웹페이지를 색인에 추가한다. 그렇게 해서 더는 새로운 웹페이지를 찾을 수 없을 때까지 이 과정이 반복된다.
크롤링은 항상 진행 중이다. 구글은 밤낮없이 새로운 웹페이지를 색인에 추가하고 혹시 기존의 웹페이지에 변동 사항이 있으면 그것 역시 색인에 반영한다. 구글의 색인이 얼마나 방대한가 하면 그 용량이 무려 1억 기가바이트를 넘을 정도다.5 1TB(테라바이트) 외장하드에 다 나눠 넣자면 10만 개가 필요한 수준이다. 그 하드들을 하나씩 쌓아올리면 높이가 1.5킬로미터쯤 될 것이다.
그래서 스포티파이는 매주 알고리즘을 실행한다.25
주간 추천 플레이리스트 알고리즘은 먼저 두 가지 기본 정보를 확인한다. 첫째, 각 사용자가 듣고 마음에 들어서 라이브러리나 플레이리스트에 추가한 노래가 무엇인지 본다. 반대로 30초도 안 듣고 건너뛴 노래는 좋아하지 않는 것으로 간주한다. 둘째, 다른 사용자들이 만든 플레이리스트를 본다. ‘조깅용 노래’나 ‘비틀즈 베스트’ 같은 플레이리스트에서 주제의 연관성을 파악하는 것이다.26
스포티파이는 이렇게 확보한 데이터로 두 가지 방식을 이용해서 추천곡을 선정한다. 첫 번째는 두 개의 데이터세트dataset2✸를 비교해서 사용자가 좋아하는 노래와 연관성이 있는 새로운 노래를 찾는 것이다. 만약에 A가 만든 플레이리스트에 8곡이 담겨 있는데 그중 7곡이 B의 보관함에 있다고 해보자. 그러면 B는 A 스타일의 노래를 좋아한다고 볼 수 있다. 그래서 금주의 발견에서 B의 보관함에 없는 A의 나머지 한 곡을 추천해주는 방식이다.28 - <IT 좀 아는 사람>, 닐 메타, 아디티야 아가쉐, 파스 디트로자 - 밀리의 서재
이와 같은 추천시스템을 개발하자면 어마어마한 인건비가 든다. 아닌 게 아니라 스포티파이 엔지니어들의 연봉은 수십만 달러에 이른다.33그러면 스포티파이는 왜 그렇게까지 큰돈을 투자하는 걸까?
우선 탁월한 추천시스템이 스포티파이를 애플뮤직Apple Music같은 라이벌 서비스와 차별화하는 강점이 되기 때문이다. 단순히 음원 보유량이 방대하다고 다가 아니다. 전문용어를 쓰자면 이제 음원은 동질화되어 있다. 어차피 스포티파이나 애플뮤직이나 똑같은 노래는 똑같이 들린다. 방대한 음원을 보유하는 것도 라이선스를 취득할 돈만 있으면 누구나 가능하다.34
사실상 음원으로 차별화가 불가능한 상황에서 스포티파이가 우위를 점하려면 경쟁사를 꺾을 ‘한 방’이 필요하다. 그게 바로 추천시스템이다. 스포티파이의 추천시스템은 애플뮤직보다 한 수 위로 평가받는다.35그리고 협업 필터링은 사용자가 많을수록 효과적이기 때문에 이미 어마어마한 사용자를 보유한 스포티파이가 선두를 유지할 수 있는 것이다.
| API의 세 가지 유형 |
첫 번째 유형은 ‘기능 API’다. 기능 API는 경로 계산, 문자메시지 전송, 문장 번역 같은 작업을 전문적인 앱에 맡길 수 있게 한다. 집에 문제가 생겼을 때 직접 수리하지 않고 배관공이나 목수를 부르는 것과 같다. 기능 API는 다양하게 존재한다. 메일이나 문자메시지를 전송하는 코드를 직접 작성하자면 꽤 번거롭다. 그래서 송금 앱인 벤모Venmo는 송금 완료 메시지를 보낼 때 그 방면에 전문화된 API를 이용한다.61신용카드 결제를 처리하는 것 역시 쉽지 않은 작업이다. 그래서 우버는 브레인트리Braintree API에 결재를 맡긴다.62브레인트리는 누구나 코드 몇 줄만 입력하면 페이팔PayPal의 신용카드 결제 알고리즘을 쓸 수 있게 해주는 API다.63
틴더는 왜 페이스북으로 로그인하라고 할까?
사용해본 사람이라면 잘 알겠지만 소개팅 앱 틴더Tinder는 페이스북 계정으로 로그인해서 프로필을 만들 수 있다. 틴더에 페이스북 프로필을 연결하면 사진, 나이, 친구 목록, 좋아하는 페이스북 페이지를 자동으로 불러온다.69이미 눈치챘겠지만 페이스북이 제공하는 API를 이용한 기술이다. 어떤 앱이든 페이스북 통합인증 API인 SSOsingle sign-on를 쓰면 사용자가 페이스북 프로필을 연동시켜서 계정을 만들 수 있다.70
• 안드로이드용 틴더. 페이스북으로 로그인해야 한다.
그러면 틴더는 왜 이 API를 사용할까? 첫째, 페이스북에서 기본 정보를 가져옴으로써 텅 빈 프로필이 만들어지는 것을 막을 수 있기 때문이다. (그런 프로필은 아무도 보고 싶어 하지 않는다.)71둘째, 페이스북이 이미 봇bot3✸과 허위 계정을 막기 위해 상당한 노력을 기울이고 있기 때문에 관련된 수고를 덜 수 있기 때문이다.72셋째, 매칭 성공률을 높일 수 있기 때문이다. 페이스북친구 목록을 분석해서 상대방과 공통으로 아는 친구가 몇 명인지 보여주면 일종의 유대감이 생기면서 서로 이어질 확률이 높아진다. 넷째, 모든 사용자의 페이스북 프로필을 확보함으로써 그들의 연령대, 거주 지역, 관심사 등 고급 정보를 얻을 수 있기 때문이다.73이를 근거로 틴더는 앱 디자인이나 광고 전략을 개선할 수 있다. - <IT 좀 아는 사람>, 닐 메타, 아디티야 아가쉐, 파스 디트로자 - 밀리의 서재
https://www.millie.co.kr/v3/bookDetail/9b2807eeb69543c4
테스트를 통해 기사의 클릭 수를 높이기 위해서다.82《워싱턴 포스트》는 방문자를 두 집단으로 나눠서 각각 A 제목과 B 제목을 보여준다. 테스트가 어느 정도 진행되면 제목 클릭 수 같은 통계 수치를 확인한다. 여기서 더 효과적이라고 판정이 난 제목이 이후로 모든 방문자에게 표시된다. 단순하지만 앱의 효과성을 크게 개선할 수 있는 방법이다. 위의 기사만 해도 첫 번째 제목의 클릭률은 3.3%, 두 번째 제목의 클릭률은 3.9%였다.83단 몇 글자만 바꿨을 뿐인데 클릭률이 무려 18%나 상승했다!
이런 기법을 AB테스트 AB testing라고 한다. 데이터를 근거로 온라인 상품을 개선하는 강력한 수단이다.84 AB테스트라는 이름이 붙은 이유는 최소 두 가지 버전(A와 B)을 비교하기 때문이다.
AB테스트는 언론계에서 대단한 인기다. 버즈피드BuzzFeed는 AB테스트로 방문자를 가장 잘 낚는 기사 제목을 찾는다.
왜 두 버전을 다 판매할까? |
그러면 당연히 생기는 의문이 있다. 오피스365가 그렇게 좋다면 왜 굳이 세월 박제 버전을 유지하는 걸까? 그 이유는 아무래도 여전히 구독형 소프트웨어에 반감을 가진 사용자가 존재하는 만큼70강제로 고객을 전환하려다가 역풍을 맞을 수 있기 때문인 것 같다. ‘레거시legacy’12✸ 오피스를 일거에 없애지 않고 서서히 폐기하면 당장 고객의 불만이 터져나오는 것을 막고 점진적으로 사용자를 수익성이 더 좋은 오피스365로 전환할 수 있다.
클라우드의 이점 |
앞에서 넌지시 말했지만 AWS로 서버를 빌리면 직접 서버를 운용할 때보다 훨씬 편하다. 아마존이 업데이트, 보안을 포함해 유지보수 문제를 전적으로 책임지기 때문이다. 고객은 아마존이 보유한 무수한 서버 중에서 필요한 만큼만 돈을 내고 빌려 쓰면 된다. 게다가 아마존의 서버가 워낙 많다 보니까 규모의 경제 효과가 생겨서 비용도 절감된다.79그 효과는 실로 어마어마하다. 한 의료연구 스타트업은 자체 서버를 운용하려면 서버 구입에만 100만 달러가 필요했지만 AWS를 통해 월 25,000달러로 해결했다.
AWS의 또 다른 강점은 안정성이다. 기업은 웹사이트나 앱이 다운되면 바로 타격을 입는다. 하지만 AWS 같은 클라우드 컴퓨팅 서비스는 서버가 중단되지 않게 하는 기술력을 갖췄다. AWS는 세계 곳곳의 데이터센터에 앱과 데이터를 복사해두기 때문에 자연재해로 어딘가의 데이터센터가 파괴되거나 서버 몇 대가 다운되어도 문제없다