카테고리 없음

구글 검색 방법

AdultKid(오디오/스피커) 2012. 3. 13.

저도 쌍따옴표나 : 검색 정도는 알고 있었는데
상세검색이 가능한줄은 몰랐네요- _-a


문서는 구글 검색엔진을 이용해서 문서를 더 잘 찾을 수 있는 기술들에 대한 내용을 담고 있다. 구글은 상당히 복잡한 검색옵션을 제공하는데, 여기에서는 그 중에서 간단하면서도 효율적인 몇 가지 방법에 대해서 소개할 것이다.



1. 쌍 따옴표

2개 이상의 쿼리 문장이 주어졌을 경우, 구글은 각 쿼리 글자간의 거리를 검사해서 score를 계산한다.
만약 socket api를 검색어로 입력했다면, socket 과 api 가 동시에 발견된 문서 중에서, 가능한한 가까이 붙어있는 문서가 우선 노출되는 방식이다. 그러나 노래 가사와 같은 경우에는 거리에 상관없이 반드시 붙어있어야 할 것이다.

예를 들어 harry potter를 검색할 경우, "harry potter" 로 검색하는게 원하는 결과를 얻을 확률이 높다.

harry potter를 검색어로 입력할 경우에는 [harry potter], [harry ant potter], [Im potter. your harry?] 등등이 검색될 수 있는데, 쌍따옴표로 묶어줄 경우 harry 다음에 potter이 포함된 문서만 검색하기 때문이다.



2. 키워드의 포함과 제외

Wireless Networking 로 검색을 한다고 가정해 보자. 우리가 원하는 정보는 무선 네트워크 기술이다.

이경우 Wireless와 Networking가 모두 포함된 문서가 상위에 검색될 확률이 높지만, 문서자체의 가중치에 의해서 Wireless와 Networking 둘 중 하나만 포함된 문서가 상위에 검색될 수도 있다. 그렇다면 가장 확실한 검색 방법은 따옴표로 묶는 방법이 될 것이다.

"아이유 좋은날"

그러나 이 경우에는 검색되는 문서의 양이 너무 적어져서, 중요한 문서가 빠질 수도 있다. 그렇다면 쌍따옴표를 빼고 검색어를 만드는 방법이 있다.

아이유 좋은날

이 경우에는 다양한 문서가 검색 되겠지만, 아이유 와 좋은날 둘 중 하나만 포함되어도 검색결과에 노출되므로, 쓸데 없는 문서까지 검색될 수 있다. 이를테면 데이트 관련 정보들 까지 떠버린다. 우리가 중요한건 네트워크 기술이므로, 좋은날을 반드시 포함시키도록 하면, 좀더 좋은 결과를 얻을 수 있을 것이다. 이렇게 해당 검색어를 반드시 포함시키고자 할때에 + 를 검색어 앞에 붙여주면 된다.

아이유 +좋은날

키워드를 제외할 필요도 있을 것이다. 이경우에는 -를 사용하면 된다.

"아이유 +좋은날" -유인나 +신봉선



3. 필드 명령

검색엔진들은 필드검색이 가능하도록 색인테이블을 지원한다. 즉 site, contents (본문), link, title 별로 검색이 가능하도록 색인테이블을 작성한다. 이를 이용하면 특정 site내에서의 검색이라든지, 사이트의 제목에서만 검색하는 등의 검색작업을 수행할 수 있다. 다음은 www.joinc.co.kr 사이트내에서 "socket api" 문장을 포함한 문서를 찾는다.

site:www.joinc.co.kr.co "socket api"

또한 상위 도메인명을 필드로 지정할 수도 있다. 아래와 같이 하면 .co.kr 도메인을 가진 문서에 대해서 검색을 수행하게 된다.

site:.co.kr "socket api"

intitle: 를 이용하면 문서의 제목을 기준으로 검색을 한다. title에 joinc가 포함된 문서 중에서 wiki가 검색된 문서를 찾는다면 다음과 같이 하면 된다.

intitle:joinc wiki

filetype:를 이용하면 해당 파일타입을 기준으로 검색을 할 수 있다. 다음과 같이 하면 파일 타입이 xml인 문서중에서 pthread를 포함한 것을 검색하게 된다.

filetype:xml pthread

이러한 필드들은 몇개를 조합해서 사용할 수도 있다.

site:joinc.co.kr filetype:html 하드웨어



4. 기타

구글은 웹문서를 수집할 때, 해당 사이트에 있는 ROBOTS 파일을 읽어서 그 정책에 따라서 행동한다. 이 로봇파일에는 웹문서를 수집할 수 있는지, 수집하기 위해서 아이디와 패스워드가 필요한지 등에 대한 정보를 담고 있다.

http://www.joinc.co.kr/robots.txt

위 문서를 보면, 문서 수집을 허락하지 않는 파일과 디렉토리에 대한 정책이 있음을 확인할 수 있다.
아래와 같이 검색어를 입력하면, 각 사이트에 대한 robots.txt 정보를 검색할 수 있다



기본 검색 도움말은 가장 일반적인 문제를 모두 다루긴 하지만 고급 기능에 대한 설명이 필요한 경우도 있습니다. 본 문서는 Google 웹 검색의 고급 기능을 설명합니다. 하지만 Google 검색 그룹의 구성원과 같은 고급 검색 사용자조차도 이러한 기능을 사용하는 빈도가 5% 미만에 불과하다는 사실을 염두에 두시기 바랍니다. 대개 간단한 기본 검색이면 충분합니다. 평소처럼 검색어를 표시하기 위해 대괄호 [ ]를 사용하면 [ 사느냐 죽느냐 ] 는 한 개의 검색어가 되고, [ 사느냐 ] 또는 [ 죽느냐 ] 는 두 개의 검색어가 됩니다.

  • 구문 검색("")
    단어를 큰 따옴표로 묶는 것은 변경되는 내용 없이 정확한 순서로 정확한 단어를 검색한다는 사실을 Google에 알리는 것입니다. 그러나 Google은 이미 단어의 순서와 단어가 함께 입력되었다는 사실을 중요한 의미로 여기고 오직 필요할 때만 이 원칙에서 벗어나기 때문에 사실상 따옴표는 대개 필요하지 않습니다. 그리고 구문 검색을 고집함으로써 더 나은 검색결과를 놓칠 수도 있습니다. 예를 들어, [ "알렉산더 벨" ] (따옴표 포함)을 검색하면 알렉산더 G. 벨에 대한 페이지가 생략될 것입니다.
  • 일치 검색("")
    Google은 자동으로 동의어를 사용하여 해당 내용을 언급한 모든 페이지를 검색합니다. 예를 들어, 검색어 [ 육아 정보 ] (공백 포함)로 육아정보를 검색하거나 검색어 [ 캘리포니아역사 ]로 캘리포니아 역사를 검색할 수 있습니다. 그러나 간혹 Google은 너무 많은 검색결과를 제공하고 동의어를 원치 않을 때조차도 이를 제공하곤 합니다. 하나의단어를 큰 따옴표로 묶어 검색하면 Google에서 입력한 단어와 정확히 일치하는 경우만을 검색합니다.
  • 특정 웹 사이트 검색(site:)
    Google에서는 한 특정 웹 사이트를 대상으로 하여 검색을 수행하도록 지정할 수 있습니다. 예를 들어, [ 이라크 site:hani.co.kr ] 으로 검색하면 hani.co.kr에 나와 있는 이라크에 관한 페이지만 표시합니다. 더 단순하게 [ 이라크 hani.co.kr ] 또는 [ 이라크 한겨레 ] 라고 검색하면 '한겨레'를 언급한 다른 사이트에서의 검색결과를 표시하겠지만 크게 차이는 없을 것입니다. 또한 한 종류의 사이트 모두를 지정할 수도 있습니다. 예를 들어, [ 이라크 site:.gov ] 는 정부 도메인에서 검색한 결과를 보여 주며 [ 이라크 site:.iq ] 는 이라크 사이트에서 검색한 결과를 보여 줄 것입니다.
  • 제외시키려는 용어(-)
    단어 앞에 바로 마이너스 기호를 추가하면 이 단어가 포함된 페이지는 검색결과에 표시하지 않기를 원한다는 뜻입니다. 마이너스 기호는 단어 바로 앞에 추가해야 하며 앞에 공백을 두어야 합니다. 예를 들어, [ anti-virus software ] (안티 바이러스 소프트웨어)로 검색하는 경우, 마이너스 기호는 하이픈으로 사용되어 제외 기호로 해석되지 않습니다. 반면 [ anti-virus -software ] (안티 바이러스 -소프트웨어) 의 경우는 'anti-virus'(안티 바이러스)는 검색하지만 소프트웨어에 대한 내용은 제외됩니다. 단어 앞에 - 기호를 사용하여 원하는 만큼의 단어를 모두 제외할 수 있습니다. 예를 들면, [ 재규어 -자동차 -축구 -os ]입니다. - 기호는 단어 이외의 내용을 제외할 때도 사용할 수 있습니다. 예를 들어, 검색결과에서 특정 사이트를 제외하려고 한다면 'site:' 연산자 앞에 하이픈을 입력(공백 없이)하면 됩니다.
  • 빈 칸 채우기(*)
    * 또는 와일드 카드는 매우 강력한 기능을 가지고 있음에도 잘 알려지지 않은 기능 중 하나입니다. 검색어에 *을 포함시키면 별표를 모르는 용어에 대한 자리 표시자로 삼아 가장 일치하는 결과를 찾는다는 뜻입니다. 예를 들어, [ Google * ] 은 많은 Google 제품에 대한 결과를 제공합니다(다음 페이지로 이동하면서 많은 Google 제품을 살펴 볼 수 있음). 검색어 [ Obama voted * on the * bill ] (오바마 대통령은 * 법안에 *표를 던졌다) 은 여러 법안에 대한 다양한 찬반 여부에 관한 내용을 검색합니다. * 연산자는 전체 단어로서의 역할을 할 뿐 단어의 일부는 아니라는 사실을 기억하시기 바랍니다.
  • OR 연산자
    Google은 기본적으로 검색에서 모든 단어를 고려합니다. 여러 단어 중 아무 단어나 검색하고 싶을 경우에는 OR 연산자를 사용할 수 있습니다('OR'은 모두 대문자여야 합니다). 예를 들어 [ 롯데 자이언츠 2004 OR 2005 ] 의 경우는 2004년이나 2005년에 대한 결과를 보여 주는 반면, [ 롯데 자이언츠 2004 2005 ] (OR이 없는 경우)는 한 페이지에 두 해 모두가 나와 있는 페이지를 보여 줄 것입니다. | 기호가 OR을 대신할 수도 있습니다. (AND 연산자의 경우는 기본값이기 때문에 따로 필요하지 않습니다.)
보다 편리하고 빠른 검색을 위해 제공되는 다양한 검색 기능에 대해 자세히 알아보세요.

예외

검색은 완벽하지 않습니다. 검색엔진은 다양한 기술을 사용해 사람의 생각을 흉내내고 사람의 행동에 가까워지려고 노력합니다. 따라서 대부분의 규칙에는 예외가 존재합니다. 예를 들어, 검색어 [ for better or for worse ] (기쁠 때나 슬플 때나) 는 Google에서 OR 검색어로 해석되지 않고 (매우 유명한) 연재 만화에 해당하는 구문으로 인식될 것입니다. 또 다음 검색어 [ 34 * 87 ] 의 경우에는 '빈 칸 채우기' 연산자가 아닌 계산 결과를 보여 줄 것입니다. 두 경우 모두 검색어의 명확한 의도에 충실한 결과입니다. 다음은 본 도움말 및 기본 검색 도움말에 나온 일부 규칙 및 지침에 대한 예외 사항 목록입니다.

'모든 단어 고려'에 대한 예외

  • 'the', 'a', 그리고 'for'와 같이 일반적으로 사용되는 단어는 보통 무시합니다(이를 정지 단어라고 부릅니다). 그런데 이 예외에 대한 예외도 있습니다. 검색어 [ the who ] 는 밴드에 대한 결과를 보여 줄 가능성이 높고, 검색어 [ who ] 는 대개 세계보건기구(World Health Organization)를 보여 줍니다. Google은 첫 번째 검색에서 단어 'the'를 무시하지 않을 것입니다.
  • 동의어가 원래 검색어의 일부 단어를 대체할 수도 있습니다.
  • 검색결과 페이지가 검색어와 관련이 있다는 다른 증거가 충분할 경우 특정 단어가 해당 결과 페이지에 나타나지 않을 수도 있습니다. 이러한 증거는 Google이 수행한 언어 분석이나 기타 여러 소스를 통해 얻을 수 있습니다. 예를 들어, 검색어 [ 남산 타워를 위에서 본 사진 ] 의 경우에는 '위에서 본'이라는 단어를 포함하지 않는 페이지의 멋진 사진도 제공할 것입니다.

구두점 무시

  • 예를 들어, [ C++ ] 또는 [ C# ] (둘 다 프로그래밍 언어명임)와 같이 특별한 의미를 갖는 특정 용어 내의 구두점은 무시하지 않습니다.
  • 달러 기호($)는 가격을 표시할 때 사용합니다. [ nikon 400 ][ nikon $400 ] 은 다른 결과를 표시합니다.
  • 하이픈 -은 종종 하이픈 양쪽의 두 단어가 매우 밀접한 관련이 있다는 표시로 사용되기도 합니다. (- 다음에 공백이 없고 그 앞에 공백이 있는 경우는 마이너스 기호입니다.)
  • 밑줄 _도 두 단어를 연결하는 경우에는 무시되지 않습니다. 예를 들어, [ quick_sort ]입니다.

댓글