注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

anqiang专栏

不要问细节是怎么搞的,源码说明一切

 
 
 

日志

 
 

IndexInput源码分析  

2009-11-30 10:14:58|  分类: Lucene |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

IndexInput与前面介绍的IndexOutput相对,它按照一定的格式读入信息。只要我们搞懂了它的写入机制,它的读入机制就不难理解了。

源码展示:

package org.apache.lucene.store;

/**

 * Licensed to the Apache Software Foundation (ASF) under one or more

 * contributor license agreements.  See the NOTICE file distributed with

 * this work for additional information regarding copyright ownership.

 * The ASF licenses this file to You under the Apache License, Version 2.0

 * (the "License"); you may not use this file except in compliance with

 * the License.  You may obtain a copy of the License at

 *

 *     http://www.apache.org/licenses/LICENSE-2.0

 *

 * Unless required by applicable law or agreed to in writing, software

 * distributed under the License is distributed on an "AS IS" BASIS,

 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

 * See the License for the specific language governing permissions and

 * limitations under the License.

 */

import java.io.IOException;

import java.util.Map;

import java.util.HashMap;

/** Abstract base class for input from a file in a {@link Directory}.  A

 * random-access input stream.  Used for all Lucene index input operations.

 * @see Directory

 * Andrew Wang

 */

public abstract class IndexInput implements Cloneable {

  private byte[] bytes;                           // used by readString()

  private char[] chars;                           // used by readModifiedUTF8String()

  private boolean preUTF8Strings;                 // true if we are reading old (modified UTF8) string format

  /** Reads and returns a single byte.

   * @see IndexOutput#writeByte(byte)

   */

  public abstract byte readByte() throws IOException;

  /** Reads a specified number of bytes into an array at the specified offset.

   * @param b the array to read bytes into

   * @param offset the offset in the array to start storing bytes

   * @param len the number of bytes to read

   * @see IndexOutput#writeBytes(byte[],int)

   */

  public abstract void readBytes(byte[] b, int offset, int len)

    throws IOException;

  /** Reads a specified number of bytes into an array at the

   * specified offset with control over whether the read

   * should be buffered (callers who have their own buffer

   * should pass in "false" for useBuffer).  Currently only

   * {@link BufferedIndexInput} respects this parameter.

   * @param b the array to read bytes into

   * @param offset the offset in the array to start storing bytes

   * @param len the number of bytes to read

   * @param useBuffer set to false if the caller will handle

   * buffering.

   * @see IndexOutput#writeBytes(byte[],int)

   */

  public void readBytes(byte[] b, int offset, int len, boolean useBuffer)

    throws IOException

  {

    // Default to ignoring useBuffer entirely

    readBytes(b, offset, len);

  }

  /** Reads four bytes and returns an int.

   * @see IndexOutput#writeInt(int)

   * 读入int型数值

   */

  public int readInt() throws IOException {

    return ((readByte() & 0xFF) << 24) | ((readByte() & 0xFF) << 16)

         | ((readByte() & 0xFF) <<  8) |  (readByte() & 0xFF);

  }

  /** Reads an int stored in variable-length format.  Reads between one and

   * five bytes.  Smaller values take fewer bytes.  Negative numbers are not

   * supported.

   * @see IndexOutput#writeVInt(int)

   *  读入可变长度的int

   *  与output相对   *  

   */

  public int readVInt() throws IOException {

    byte b = readByte();

    int i = b & 0x7F;

    for (int shift = 7; (b & 0x80) != 0; shift += 7) {

      b = readByte();

      i |= (b & 0x7F) << shift;

    }

    return i;

  }

  /** Reads eight bytes and returns a long.

   * @see IndexOutput#writeLong(long)

   */

  public long readLong() throws IOException {

    return (((long)readInt()) << 32) | (readInt() & 0xFFFFFFFFL);

  }

  /** Reads a long stored in variable-length format.  Reads between one and

   * nine bytes.  Smaller values take fewer bytes.  Negative numbers are not

   * supported. */

  public long readVLong() throws IOException {

    byte b = readByte();

    long i = b & 0x7F;

    for (int shift = 7; (b & 0x80) != 0; shift += 7) {

      b = readByte();

      i |= (b & 0x7FL) << shift;

    }

    return i;

  }

  /** Call this if readString should read characters stored

   *  in the old modified UTF8 format (length in java chars

   *  and java's modified UTF8 encoding).  This is used for

   *  indices written pre-2.4 See LUCENE-510 for details. */

  public void setModifiedUTF8StringsMode() {

    preUTF8Strings = true;

  }

  /** Reads a string.

   * 读入字符串

   * @see IndexOutput#writeString(String)

   */

  public String readString() throws IOException {

    if (preUTF8Strings)

      return readModifiedUTF8String();

    int length = readVInt();

    /**

     * 在这里我的理解是,bytes是一个可变数组,

     * 用于临时存放String的bytes

     * 每当遇到bytes的长度小于String的bytes长度是,

     * 当可变bytes数组就会增长1.25倍相对String的bytes长度来说

     * 这样就会避免频繁的改变bytes的长度,,当然在这里bytes成了一个永远增长的一个数组了

     */

    if (bytes == null || length > bytes.length)

      bytes = new byte[(int) (length*1.25)];

    readBytes(bytes, 0, length);

    return new String(bytes, 0, length, "UTF-8");

  }

  private String readModifiedUTF8String() throws IOException {

    int length = readVInt();

    if (chars == null || length > chars.length)

      chars = new char[length];

    readChars(chars, 0, length);

    return new String(chars, 0, length);

  }

  /** Reads Lucene's old "modified UTF-8" encoded

   *  characters into an array.

   * @param buffer the array to read characters into

   * @param start the offset in the array to start storing characters

   * @param length the number of characters to read

   * @see IndexOutput#writeChars(String,int,int)

   * @deprecated -- please use readString or readBytes

   *                instead, and construct the string

   *                from those utf8 bytes

   */

  public void readChars(char[] buffer, int start, int length)

       throws IOException {

    final int end = start + length;

    for (int i = start; i < end; i++) {

      byte b = readByte();

      if ((b & 0x80) == 0)

buffer[i] = (char)(b & 0x7F);

      else if ((b & 0xE0) != 0xE0) {

buffer[i] = (char)(((b & 0x1F) << 6)

 | (readByte() & 0x3F));

      } else

buffer[i] = (char)(((b & 0x0F) << 12)

| ((readByte() & 0x3F) << 6)

        |  (readByte() & 0x3F));

    }

  }

  /**

   * Expert

   * 

   * Similar to {@link #readChars(char[], intint)} but does not do any conversion operations on the bytes it is reading in.  It still

   * has to invoke {@link #readByte()} just as {@link #readChars(char[], intint)} does, but it does not need a buffer to store anything

   * and it does not have to do any of the bitwise operations, since we don't actually care what is in the byte except to determine

   * how many more bytes to read

   * @param length The number of chars to read

   * @deprecated this method operates on old "modified utf8" encoded

   *             strings

   */

  public void skipChars(int length) throws IOException{

    for (int i = 0; i < length; i++) {

      byte b = readByte();

      if ((b & 0x80) == 0){

        //do nothing, we only need one byte

      }

      else if ((b & 0xE0) != 0xE0) {

        readByte();//read an additional byte

      } else{      

        //read two additional bytes.

        readByte();

        readByte();

      }

    }

  }

  

  /** Closes the stream to further operations. */

  public abstract void close() throws IOException;

  /** Returns the current position in this file, where the next read will

   * occur.

   * @see #seek(long)

   */

  public abstract long getFilePointer();

  /** Sets current position in this file, where the next read will occur.

   * @see #getFilePointer()

   */

  public abstract void seek(long pos) throws IOException;

  /** The number of bytes in the file. */

  public abstract long length();

  /** Returns a clone of this stream.

   *

   * <p>Clones of a stream access the same data, and are positioned at the same

   * point as the stream they were cloned from.

   *

   * <p>Expert: Subclasses must ensure that clones may be positioned at

   * different points in the input from each other and from the stream they

   * were cloned from.

   */

  public Object clone() {

    IndexInput clone = null;

    try {

      clone = (IndexInput)super.clone();

    } catch (CloneNotSupportedException e) {}

    clone.bytes = null;

    clone.chars = null;

    return clone;

  }

  // returns Map<String, String>

  public Map readStringStringMap() throws IOException {

    final Map map = new HashMap();

    final int count = readInt();

    for(int i=0;i<count;i++) {

      final String key = readString();

      final String val = readString();

      map.put(key, val);

    }

    return map;

  }

}

public String readString() throws IOException

这个函数实现了字符串的读操作,一开始居然没有看懂1.25到底在做些什么。原来读字符串的时候是先将组成字符串的bytes读入一个可变的bytes数组中,然后由这个可变的数组构造一个字符串,看过JDK源码我们就会知道,构造的过程是将bytes里的值拷贝一份到String的成员变量里面。

在这里这个可变的bytes数组它的长度有时候不能满足当前临时存放的需求,因为有的字符串比较长,因此在每次遇到字符串比较长时,可变数组长度就要变大。这就是1.25的由来,当然为什么要定位1.25,我也没有答案。也许是程序员一时兴起写出来的。

  评论这张
 
阅读(283)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017