外部表概述
外部表只能在Oracle 9i之后来使用。简单地说,外部表,是指不存在于数据库中的表。通过向Oracle提供描述外部表的元数据,我们可以把一个操作系统文件当成一个只读的数据库表,就像这些数据存储在一个普通数据库表中一样来进行访问。外部表是对数据库表的延伸。
外部表的特性
位于文件系统之中,按一定格式分割,如文本文件或者其他类型的表可以作为外部表。
对外部表的访问可以通过SQL语句来完成,而不需要先将外部表中的数据装载进数据库中。
外部数据表都是只读的,因此在外部表不能够执行DML操作,也不能创建索引。
ANALYZE语句不支持采集外部表的统计数据,应该使用DMBS_STATS包来采集外部表的统计数据。
创建外部表的注意事项
1.需要先建立目录对象
在建立对象的时候,需要小心,Oracle数据库系统不会去确认这个目录是否真的存在。如果在输入这个目录对象的时候,不小心把路径写错了,那可能这个外 部表仍然可以正常建立,但是却无法查询到数据。由于建立目录对象时,缺乏这种自我检查的机制,为此在将路径赋予给这个目录对象时,需要特别的注意。另外需 要注意的是路径的大小写。在Windows操作系统中,其路径是不区分大小写的。而在Linux操作系统,这个路径需要区分大小写。故在不同的操作系统 中,建立目录对象时需要注意这个大小写的差异
2.对于操作系统文件的要求
建立外部表时,必须指定操作系统文件所使用的分隔符号。并且该分隔符有且只有一个。创建外部表时,不能含有标题列。如果这个标题信息与外部表的字段类型不一致(如字段内容是number数据类型,而标题信息则是字符型数据,则在查询时就会出错)。如果数据类型恰巧一致的话,这个标题信息Oracle数据库也会当作普通记录来对待。
当Oracle数据库系统访问这个操作系统文件的时候,会在这个文件所在的目录自动创建一个日志文件。无论最后是否访问成功,这个日志文件都会如期建立。查看这个日志文件,可以了解数据库访问外部表的频率、是否成功访问等等。默认情况下,该日志在与外部表的相同directory下产生。
3.在建立临时表时的相关限制
对表中字段的名称存在特殊字符的情况下,必须使用英文状态的下的双引号将该表列名称连接起来。如采用”SalseID#”。
对于列名字中特殊符号未采用双引号括起来时,会导致无法正常查询数据。
建议不用使用特殊的列标题字符
在创建外部表的时候,并没有在数据库中创建表,也不会为外部表分配任何的存储空间。
创建外部表只是在数据字典中创建了外部表的元数据,以便对应访问外部表中的数据,而不在数据库中存储外部表的数据。
简单地说,数据库存储的只是与外部文件的一种对应关系,如字段与字段的对应关系。而没有存储实际的数据。
由于存储实际数据,故无法为外部表创建索引,同时在数据使用DML时也不支持对外部表的插入、更新、删除等操作。
4.删除外部表或者目录对象
一般情况下,先删除外部表,然后再删除目录对象,如果目录对象中有多个表,应删除所有表之后再删除目录对象。
如果在未删除外部表的情况下,强制删除了目录,在查询到被删除的外部表时,将收到"对象不存在"的错误信息。
查询dba_external_locations来获得当前所有的目录对象以及相关的外部表,同时会给出这些外部表所对应的操作系统文件的名字。 如果只是在数据库层面上删除外部表,并不会自动删除操作系统上的外部表文件。
5.对于操作系统平台的限制
不同的操作系统对于外部表有不同的解释和显示方式
如在Linux操作系统中创建的文件是分号分隔且每行一条记录,但该文件在Windows操作系统上打开则并非如此。
建议避免不同操作系统以及不同字符集所带来的影响
创建外部表
使用CREATE TABLE语句的ORGANIZATION EXTENERAL子句来创建外部表。外部表不分配任何盘区,因为仅仅是在数据字典中创建元数据。
1.外部表的创建语法
createtabletable_name
(col1 datatype1,col2 datatype2,col3 datatype3)
organization exteneral
(.....)
详细语法可参见笔者的另两篇文章
Oracle外部表ORACLE_DATAPUMP类型的创建语法详解:http://czmmiao.iteye.com/blog/1268453
Oracle外部表ORACLE_LOADER类型的创建语法详解:http://czmmiao.iteye.com/blog/1268157
2.由查询结果集,使用Oracle_datapump来填充数据来生成外部表
a.创建系统目录以及Oracle数据目录名来建立对应关系,同时授予权限
$ mkdir -p /home/oracle/external_tb/data
create or replace directory data_dir as '/home/oracle/external_tb/data/';
grant read,write on directory data_dir to scott;
b.创建外部表
create table ex_tb1
(ename,job,sal,dname)
organization external
(type oracle_datapump default directory data_dir location('ex_tb1'))
parallel 1
as select ename,job,sal,dname from emp join dept on emp.deptno=dept.deptno;
c.验证外部表
select * from ex_tb1; ENAME JOB SAL DNAME
------------------------- -------------------- ---- -------------------------
CLARK MANAGER 2450 ACCOUNTING
KING PRESIDENT 5000 ACCOUNTING
MILLER CLERK 1300 ACCOUNTING
JONES MANAGER 2975 RESEARCH
FORD ANALYST 3000 RESEARCH
ADAMS CLERK 1100 RESEARCH
SMITH CLERK 800 RESEARCH
SCOTT ANALYST 3000 RESEARCH
WARD SALESMAN 1250 SALES
TURNER SALESMAN 1500 SALES
ALLEN SALESMAN 1600 SALES
JAMES CLERK 950 SALES
BLAKE MANAGER 2850 SALES
MARTIN SALESMAN 1250 SALES 14 rows selected.
对于使用上述方式创建的外部表可以将其复制到其他路径作为外部表的原始数据来生成新的外部表,用于转移数据。
d.将外部表文件复制一个新的文件名,用以模拟到其他服务器上
$ cp /home/oracle/external_tb/data/ex_tb1 /home/oracle/external_tb/data/in_tb1
e. 新建表,将上述外部表的数据导入到新表中
create table in_tb1
(ename varchar2(10),job varchar2(9),sal number(7,2),dname varchar(14))
organization external
(type oracle_datapump default directory data_dir location('in_tb1'));
f.验证新外部表的数据
select * from in_tb1; ENAME JOB SAL DNAME
------------------------- -------------------- ---- -------------------------
CLARK MANAGER 2450 ACCOUNTING
KING PRESIDENT 5000 ACCOUNTING
MILLER CLERK 1300 ACCOUNTING
JONES MANAGER 2975 RESEARCH
FORD ANALYST 3000 RESEARCH
ADAMS CLERK 1100 RESEARCH
SMITH CLERK 800 RESEARCH
SCOTT ANALYST 3000 RESEARCH
WARD SALESMAN 1250 SALES
TURNER SALESMAN 1500 SALES
ALLEN SALESMAN 1600 SALES
JAMES CLERK 950 SALES
BLAKE MANAGER 2850 SALES
MARTIN SALESMAN 1250 SALES 14 rows selected.
g.创建正常的表,将外部表数据导入,这就是利用ORACLE_DATAPUMP类型的额外部表实现数据迁移
create table tb1 as select * from in_tb1;
3.使用外部文件数据,使用oracle_loader来填充数据来生成外部表
a.准备外部数据源文件
cat /home/oracle/external_tb/data/.txt
"","SMITH","CLERK","","17-DEC-80","","",""
"","ALLEN","SALESMAN","","20-FEB-81","","",""
"","WARD","SALESMAN","","22-FEB-81","","",""
"","JONES","MANAGER","","02-APR-81","","","" $ cat /home/oracle/external_tb/data/.txt
"","MARTIN","SALESMAN","","28-SEP-81","","",""
"","BLAKE","MANAGER","","01-MAY-81","","",""
"","MILLER","CLERK","","23-JAN-82","","",""
b.创建外部表
create table emp_new(
emp_id number(4),
ename varchar2(15),
job varchar2(12),
mgr_id number(4),
hiredate date,
salary number(8),
comm number(8),
dept_id number(2)
)
organization external
(
type oracle_loader
default directory data_dir
access parameters(
records delimited by newline
badfile 'emp_new%a_%p.bad'
logfile 'emp_new%a_%p.log'
fields terminated by ','
optionally enclosed by '"'
lrtrim missing field values are null
reject rows with all null fields
)
location ('1.txt','2.txt')
)
parallel
reject limit unlimited;
c.验证外部表
select * from emp_new; EMP_ID ENAME JOB MGR_ID HIREDATE SALARY COMM DEPT_ID
------ ---------- --------------- ---------- ------------------- ---------- ---------- ----------
7654 MARTIN SALESMAN 7698 1981-09-28 00:00:00 1250 0 30
7698 BLAKE MANAGER 7839 1981-05-01 00:00:00 1550 0 30
7934 MILLER CLERK 7782 1982-01-23 00:00:00 3500 0 10
7369 SMITH CLERK 7902 1980-12-17 00:00:00 100 0 20
7499 ALLEN SALESMAN 7698 1981-02-20 00:00:00 250 0 30
7521 WARD SALESMAN 7698 1981-02-22 00:00:00 450 0 30
7566 JONES MANAGER 7839 1981-04-02 00:00:00 1150 0 20 7 rows selected.
4.外部表相关视图
a.查看外部表信息
select TABLE_NAME,TYPE_NAME,DEFAULT_DIRECTORY_NAME,REJECT_LIMIT,ACCESS_PARAMETERS from user_external_tables;
b.获得平面文件的位置
select * from user_external_locations order by table_name; TABLE_NAME LOCATION DIRECTORY DIRECTORY_NAME
---------- ---------- --------- --------------------
EMP_NEW 1.txt SYS DATA_DIR
EMP_NEW 2.txt SYS DATA_DIR
EX_TB1 ex_tb1 SYS DATA_DIR
IN_TB1 in_tb1 SYS DATA_DIR
外部表定义的几个重点
1.ORGANIZATION EXTERNAL关键字,必须要有。以表明定义的表为外部表。
2..重要参数外部表的类型
ORACLE_LOADER:定义外部表的缺省方式,只能只读方式实现文本数据的装载。
ORACLE_DATAPUMP:支持对数据的装载与卸载,数据文件必须为二进制dump文件。可以从外部表提取数据装载到内部表,也可以从内部表卸载数据作为二进制文件填充到外部表。
3.DEFAULT DIRECTORY:缺省的目录指明了外部文件所在的路径
4.LOCATION:定义了外部表的位置
5.ACCESS PARAMETERS:描述如何对外部表进行访问
RECORDS关键字后定义如何识别数据行
DELIMITED BY 'XXX'——换行符,常用newline定义换行,并指明字符集。对于特殊的字符则需要单独定义,如特殊符号,可以使用OX'十六位值',例如tab(/t)的十六位是9,则DELIMITEDBY0X'09';
cr(/r)的十六位是d,那么就是DELIMITEDBY0X'0D'。
SKIP X ——跳过X行数据,有些文件中第一行是列名,需要跳过第一行,则使用SKIP 1。
FIELDS关键字后定义如何识别字段,常用的如下:
FIELDS:TERMINATED BY 'x'——字段分割符。
ENCLOSED BY 'x'——字段引用符,包含在此符号内的数据都当成一个字段。
例如一行数据格式如:"abc","a""b,""c,"。使用参数TERMINATED BY ',' ENCLOSED BY '"'后,系统会读到两个字段,第一个字段的值是abc,第二个字段值是a"b,"c,。
LRTRIM ——删除首尾空白字符。
MISSING FIELD VALUES ARE NULL——某些字段空缺值都设为NULL。
对于字段长度和分割符不确定且准备用作外部表文件,可以使用UltraEdit、Editplus等来进行分析测试,如果文件较大,则需要考虑将文件分割成小文件并从中提取数据进行测试。
外部表对错误的处理
REJECT LIMIT UNLIMITED
在创建外部表时最后加入LIMIT子句,表示可以允许错误的发生个数。默认值为零。设定为UNLIMITED则错误不受限制
BADFILE和NOBADFILE子句
用于指定将捕获到的转换错误存放到哪个文件。如果指定了NOBADFILE则表示忽略转换期间的错误
如果未指定该参数,则系统自动在源目录下生成与外部表同名的.BAD文件BADFILE记录本次操作的结果,下次将会被覆盖 LOGFILE和NOLOGFILE子句
同样在access parameters中加入LOGFILE 'LOG_FILE.log'子句,则所有Oracle的错误信息放入'LOG_FILE.log'中
而NOLOGFILE子句则表示不记录错误信息到log中,如忽略该子句,系统自动在源目录下生成与外部表同名的.LOG文件
注意以下几个常见的问题
1.外部表经常遇到BUFFER不足的情况,因此尽可能的增大READSIZE
2.换行符不对产生的问题。在不同的操作系统中换行符的表示方法不一样,碰到错误日志提示如是换行符问题,可以使用
UltraEdit打开,直接看十六进制
3.特定行报错时,查看带有"BAD"的日志文件,其中保存了出错的数据,用记事本打开看看那里出错,是否存在于外部表定义相冲突
外部表的局限性
1.SQLLDR可以指定多少提交一次,即ROWS=?, 外部表却没有,这对于大数据量的导入有些不方例。
2.sqlldr errors表示允许错误的行数,外部表用REJECT LIMIT UNLIMITED,这个功能上基本相同。
3.外部表的列不能指定为not nullable,这样就很难拒绝某列为空值的记录。
4.外部表不能使用continueif ,如果记录有换行的就比较难处理。